GPT-4批評GPT-4實現「自我提升」!OpenAI前超級對齊團隊又一力作被公開
![](https://img1.headline01.com/images/9e/b1/9eb193b8c26dc6966b17a7997bc8b798d99f5e3d.jpg?wx_fmt=jpeg&from=appmsg)
新智元報道
新智元報道
【新智元導讀】今天,OpenAI悄悄在博客上發佈了一篇新論文——CriticGPT,而這也是前任超級對齊團隊的「遺作」之一。CriticGPT同樣基於GPT-4訓練,但目的卻是用來指正GPT-4的輸出錯誤,實現「自我批評」。
![](https://img1.headline01.com/images/87/0e/870e7a136251eca7927a4a0786695316a0768a27.jpg?wx_fmt=png&from=appmsg)
我們訓練了一個模型CriticGPT,來捕獲GPT-4生成代碼中的錯誤。我們開始將此類模型集成到RLHF對齊管道中,以幫助人類監督AI執行困難的任務。
![](https://img1.headline01.com/images/71/d7/71d7b924466b6ab4adc60d273516a604d77d3188.jpg?wx_fmt=png&from=appmsg)
![](https://img1.headline01.com/images/df/59/df592f744b8f8ae7a1f8be80855d0e573307ec95.jpg?wx_fmt=png&from=appmsg)
GPT-4自己批自己
![](https://img1.headline01.com/images/92/56/9256c56f13e52cb4a29ea6552db228a337b20377.jpg?wx_fmt=png&from=appmsg)
爲數據集中每個問題和答案採樣CriticGPT生成的批評意見
人類評估者對其各個屬性及總體質量進行評分
訓練獎勵模型用於預測人類對模型輸出的整體質量排名
使用PPO優化獎勵模型
應用一種創新的推理時採樣策略:強制採樣束搜索(FSBS)
許多答案不會包含嚴重問題,進而降低了數據對於改進批評意見的價值
如果無法控制錯誤類型,CriticGPT會輸出自由形式且模糊不清的批評意見,難以驗證其正確性
人類也很難發現CriticGPT遺漏的重要問題
偏好率可能受到許多風格因素的影響,並會高估模型性能
![](https://img1.headline01.com/images/f6/b0/f6b01edbcb9b3c4254ef16a2cf834a0b49a49119.jpg?wx_fmt=png&from=appmsg)
是否全面 ,即沒有遺漏任何明顯或嚴重的問題
是否捕獲到了之前插入的特定bug,即CBI(critique-bug inclusion)
有沒有出現幻覺或者挑剔現象,指出了不存在的問題
對整體有用性的主觀評級,包含上述內容並考慮風格和整體的實用性
![](https://img1.headline01.com/images/e4/b3/e4b3bbe3bb635456b9bff239b0ad6b42f8a63857.jpg?wx_fmt=png&from=appmsg)
![](https://img1.headline01.com/images/d2/db/d2db904f273d92b0f27ece814d5b5cae32a67c62.jpg?wx_fmt=png&from=appmsg)
評估結果
![](https://img1.headline01.com/images/3f/83/3f830ec963f16f6ee83075042a56f9e7859066fc.jpg?wx_fmt=png&from=appmsg)
![](https://img1.headline01.com/images/e1/12/e11233af290fa506b96238a140b3d16b8c633962.jpg?wx_fmt=png&from=appmsg)
![](https://img1.headline01.com/images/df/ea/dfea46e1f951b2baec8b653bff9fe4cad96b8d39.jpg?wx_fmt=png&from=appmsg)
![](https://img1.headline01.com/images/98/5a/985aaf6215e13079d24825264dc26b347ba1bd9e.jpg?wx_fmt=png&from=appmsg)
總結
![](https://img1.headline01.com/images/22/93/2293383aa25f57f9ba63d44f5ea079d4997e6d9a.jpg?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1)
![](https://img1.headline01.com/images/da/2b/da2ba5e6f5cf08bc1d2951cb2485059331b43302.jpg?wx_fmt=gif&wxfrom=5&wx_lazy=1)