Llama 2、3作者中國首講!LLM 前世今生,AGI 是我們這代人的哥白尼革命丨2024智源大會回顧

 


或許,AGI正是我們這代人的「哥白尼革命」。就像當初人類發現地球其實沒什麼特別的,只是一個位於普通星系之中,圍繞普通恆星旋轉的普通行星。AI也沒有什麼瘋狂的,只是一堆矩陣運算罷了。


這是Meta研究科學家,Llama 2、3系列工作作者Thomas Scialom博士在2024智源大會上的報告結語,他這番頗具文學色彩的表達引發了在場聽衆的無限遐思。
文藝青年Thomas博士甚至還用Llama做了一首短詩送給大家,
硅基聖殿之中
沉睡着語言的巨獸,
他們是智慧的產物。
在他的演講「大語言模型的昨天、今天和明天(Large Language Models: Past Present and Future」中,Thomas  通過對 OpenAI、DeepMind、Meta 等頂級研究機構明星產品的分析完整梳理了 LLM 近年來從萌芽到爆發的發展脈絡,重點剖析了 Llama 2 等模型成功背後的 SFT、RLHF 等技術的細節和作用,同時從多模態模型、Agent、機器人等角度分享了對 LLM 領域未來發展的預期。

大語言模型簡史:科幻時刻到來

首先,我們不如回顧一下自己所處的歷史方位。LLM 的發展一日千里。就在一年半以前,ChatGPT 纔剛問世;一年前,Llama 2 發佈。從未有發展速度如此之快的技術。牛津大學哲學家哲學家 Nick Bostrom 曾說:“當這項技術起作用時,它就不再是 AI 了。”
我很喜歡這個定義。我們可以根據 AI 系統降低其任務科幻性的程度來衡量其影響力。在 ChatGPT 之後,人類歷史出現了一個轉折點:AI 真實地發揮作用,但仍然在某種程度上對人們來說保持着科幻色彩。
我們不妨回顧一下大語言模型的歷史。本質上,大語言模型是以自監督方式訓練利用收集到的數據訓練基於 Transformer 開發的架構,計算預測下一個 Token 的損失。
我們可以通過兩種方式擴展模型規模:增加權重參數量或訓練數據量。在 GPT-3 的論文中,OpenAI 測試了擴大模型規模和增大每個訓練步驟上的 Batch Size、增加訓練步數所帶來的影響。
如上圖所示,藍色的部分(模型參數量的規模)影響最大。於是研究者全力投入模型規模的擴展,將參數量規模從 GPT-2 的不到 10 億參數提升到了 GPT-3 的1750 億參數。
他們發現,在不改變訓練數據、訓練步數等設置的情況下,僅僅通過增大模型參數量的規模就可以提升模型預測的準確性。這就是我們熟知的 Scaling 策略之一。通過這種方式,甚至可以直接實現一些專用模型非常好的性能表現。至此,擴大模型權重參數量成爲了一種普遍做法。
然而,DeepMind 在論文「Training Compute-Optimal Large Language Models」中提出了 Chinchilla,指出了 OpenAI 上述分析的錯誤和實驗的缺陷:在上述分析框架下,OpenAI 忽略了在訓練過程中適配學習率調度策略的重要性,沒有爲較小模型設置合適的學習率。事實上,擴大訓練數據規模也有巨大的影響。「Scaling Law」告訴我們,當我們擴大模型權重參數規模時,也希望擴大訓練數據的規模,在二者之間實現一定的平衡。
DeepMind 之前發佈的 Gopher,模型參數量高達 2000 億,訓練消耗了大量計算資源。DeepMind 認爲:給定相同的計算成本,最優的訓練方法應該是使用更多數據訓練參數量更小的模型 —— Chinchilla(約 700 億參數)。
原先的計算資源分配並非最優,相較於之前的策略,Chinchilla 的計算資源分配方式能夠顯著提升性能。DeepMind 在模型參數量和數據量之間實現了最優的資源配置,最大程度上提升了模型的性能。
接着,在 Llama 項目中,我們重新思考了計算資源的優化。如下圖所示,隨着參數量不斷增大,訓練的損失函數值不斷下降。
儘管我們能在給定計算資源的條件下,找到使訓練效果最優的平衡點,但這些工作還是爲了在論文中展現出最佳的訓練效果。
對於 LIama 而言,如果要讓數十億用戶能夠實際應用這些模型,推理階段的效率與訓練階段的效率同樣重要。
我們從數據和權重參數兩方面來思考這個問題。在訓練階段,我們可以在兩者之間實現理想的平衡;而在推理階段,越多的權重參數意味着需要更大的計算量,但我們確實可以在不影響推理時間的條件下靈活調整訓練數據的規模。我們可以使用無限的數據來訓練模型,而這對推理時間沒有任何影響。我們在某種程度上對模型進行了“過度訓練”,從而我們獲得了小巧且高效的模型。
在這樣的理念的指導下,LIama 系列模型可以在樹莓派這樣的小型終端設備上實現媲美 GPT-3 的性能。在此基礎上衍生出的 Alpaca、vLlama 等模型的累計下載量已超過 5000 萬次。
在 Llama 1 發佈時,人們要求 LIama 公開權重。然而,一年以前還沒有除 GPT 之外的開源基礎模型。這個領域發展着實十分迅速。

深度探索 RLHF 的 LIama 2,LIama 3 論文即將問世

接着,LIama 2 的預訓練參數規模與 Llama 1 相近,但增加了更多的訓練數據 token,使用了兩倍的上下文長度。同時,Llama 2 在後訓練階段增加了指令跟隨對齊,使用了 SFT 和 RLHF 技術。下面是對 LIama 2的介紹。LIama 3 的論文也即將問世。
SFT(監督微調)是用來訓練模型對齊指令的方法。我們投入了大量人力物力讓標註者寫下各種有趣的 Prompt。設計這樣的任務極具有、挑戰性。此外,標註者還需要爲 Prompt 編寫理想情況下期望模型回答的內容。我們會用這些數據微調模型,並收集大量的指令。
要求標註者編寫 Prompt 和答案,遠比要求他們比較不同的回答更費時,同時前者比後者成本也高十倍。與 RLHF 類似,人類偏好標註的過程中,標註者只需編寫 Prompt,並比較模型生成的兩個答案,選擇出其中更好的答案。 起初,我們認爲 SFT 才能實現黃金標準,但考慮到可行性,我們可能更偏向於使用人類偏好標註。
如上圖所示,通過在訓練中使用規模越來越大的獎勵模型,並使用越來越多的數據,不斷提高獎勵模型的準確性。
獎勵模型的輸入是 Prompt 及其答案,輸出一個標量分數,然後預測出分數更高的答案,這是一個分類任務。我們可以利用獎勵模型改進答案,並使用強化學習訓練模型。我們引入了拒絕採樣技術,從若干樣本中採樣 Prompt 的回答。
如上圖所示,獎勵的中位數(橙色折線)是穩定的。對於最大獎勵而言,通過使用訓練好的獎勵模型對回答的樣本進行評分。可以看出,加入新樣本的情況下,有更大幾率抽到比之前更高的獎勵。
圖中的橙色區域代表通過強化學習循環利用獎勵分數改進回答的潛力。我們用獎勵模型給回答打分,在當前的樣本量級上取得最高獎勵後,進一步將下一個量級的獎勵從中位數推向最高獎勵,從而提高平均獎勵分數。
儘管一開始我們模型的錯誤較多,但模型在持續進步。顯然,在使用根據我們自己的數據分佈和設置訓練的元獎勵模型時,我們的模型表現更優,我們的設置與 GPT-4 可能存在差異。即使依據 GPT-4 的標準來評判,最終我們的模型也以超過 50% 的比例優於 GPT-4。
我們在每輪迭代優化中都嘗試調整數據的分佈。給定一些 Prompt 和對應的回答,我們評估這些回答的得分,並分析它們的獎勵分佈情況。樣本得分的初始分佈較爲混亂,我們通過迭代優化減少低分樣本的數量,並促使它們的得分向分佈的右側偏移。 
此外,我們意外地發現模型具備時序感知能力。通過設定模型學習的終止時間,我們可以使模型按時序動態調整答案內容。
如果告訴模型「訓練知識截止到 1940 年」。模型就不會給出涉及 1940 年之後知識的答案。例如,它不知道誰贏得了二次世界大戰。此外,訓練知識截止到 2023 年的模型會根據 GPS 衛星的情況認爲地球是圓的,而訓練知識截止到 852 年的模型則不知道地球是圓的還是扁平的。
那麼,RLHF 背後有多強大魔力?
一開始,我認爲我們無法讓模型接受寫作訓練,人類的寫作水平會明顯高於機器,SFT 會更好。
但現在,讓我們思考這樣一個問題:寫一首關於大語言模型的短詩。
對於人類來說,要給出一個有創意答案非常難。而模型瞬間就能生成以下內容:
In silicon halls(硅基聖殿之中)
Linguistic Leviathans dwell,(沉睡着語言的巨獸)
Wisdom's spawn they are.(他們是智慧的產物)
這首詩甚至超越了大多數人的創作水平。
早在項目初期,我們就發現只需極少量的監督微調,我們的模型就已經超越了普通標註者的平均水平。RLHF 真正的魔力在於,模型的能力已經達到了超人類的水平。如今,人類的標註已經不再是黃金標準。
與模型相比,人類更強的能力在於判別答案好壞的能力,而不是自己創作出好的答案,這正是 RLHF 的魔力源泉。
從 RLHF 我們可以引申出 RLxF 的概念。RLHF 強大背後的祕密並非是強化學習或人類反饋。要想創造出超越人類水平的標註,需要結合人類和 AI 的能力。

未來,LLM 研究將走向何方?

如今,GPT-4o 向我們指出:「多模態輸入輸出」是未來的趨勢。通過預訓練和後訓練的結合,我們的語言建模技術性能已經較高。接下來,我們要整合更多樣化的信息(圖片、聲音、視頻等),使模型能自如處理它們。
智能體也是當下火熱的研究話題。得益於語言建模任務的成果,以及多模態輸入輸出技術,我們可以構建一個包含規劃、記憶模塊及圍繞這些核心模塊的協調機制的系統作爲智能體。
過去,語言模型僅能實現文本交流的功能。有了智能體,它可以完成數學、執行代碼、觀測環境反饋等任務。一旦代碼出錯,模型能夠識別並作出響應。當模型缺乏信息時,它能在互聯網上檢索信息並自我修正。
機器人的相關研究也正在崛起,這是未來的趨勢。Hugging Face 剛發佈了針對此領域的開源庫,研究成本正逐年呈指數級降低。我們會將智能體實體化,使其融入物理世界,提供更爲堅實的實踐基礎。使用十倍、百倍增強的算力訓練的模型,將會取得更高水平的成果,這是一個明確的趨勢。
最近十年人工智能發展突飛猛進,從 ImageNet 競賽促使視覺模型的發展,到 AlphaGo 攻克圍棋難關,如今的模型已具備接近乃至超越人類的理解力。這些模型在數學難題和邏輯推理上接連取得突破,儘管還未達到世界上最佳數學專家的水平,但遠超大多數普通人。
一路走來,AI 領域取得了許多突破。AI 是一個很年輕的新興研究領域。我們期待看到意想不到的突破。
或許,AGI 正是我們這代人的「哥白尼革命」。就像當初人類發現地球其實沒什麼特別的,只是一個位於普通的星系之中,圍繞普通恆星旋轉的普通行星。AI 也沒有什麼瘋狂的,就是一堆矩陣運算罷了。

Q&A

Q:Llama 未來五到十年內會怎樣發展?
Thomas:這是個好問題。我或許可以預測一年左右的發展,預測未來十年就太難了。Meta 對 Llama 的願景是朝着 AGI 發展。
目前,我們基於 Llama 推出了一些項目。例如,Meta Live。你可以把它視爲免費的 ChatGPT,它目前已在美國推出,很快將擴展到其他國家。
此外,我們已經開始將其應用到內置攝像頭、聲音傳感器的雷朋眼鏡這樣的產品上,未來有可能取代部分手機。人們可以通過它們與個人數碼助手實時交流,數碼助手擁有強大的智能體能力和計算能力。
企業不要站在技術的對立面,要創建能從下一代模型中受益的業務。
Q:嵌入式智能設備的算力有限。Llama 對於將大語言模型應用於智能設備有何計劃?
Thomas:Meta 已經與雷朋建立了合作關係,並且已經發布了搭載 Llama 功能的最新款雷朋眼鏡。雖然 Scaling Law 是有效的,但要實現實時地與智能體的交互仍然有待進一步的研發。
Q:從 Llama 2 開始,你們採用了“拒絕採樣”方法,爲何要這樣做?
Thomas:重要的是,我們要迭代式地改進標註數據的模型。每一輪我們都會收集數據,關鍵在於使用更好的模型。 
我們希望在每一輪中充分調整數據分佈,獲取新數據後,訓練新的獎勵模型,調整數據分佈。這種方法的可擴展性和魯棒性非常重要。
Q:語言模型未來能否進化到能夠泛化推理,接近人類的思維方式?
Thomas:這是業界尚未攻克的難題。兩三年前,在 GPT-2 的時代,我們關注的焦點還只是如何讓模型連貫地組合詞語。隨着模型規模的不斷擴大,之前的難題已被攻破,模型的推理能力提升到了新的高度。研究者們會通過持續擴大模型的規模、優化算法,採取創新的訓練策略,使用高質量的數據等方法,逐步提升模型的推理能力。
Q:Llama 3 還有哪些可以進一步提升的地方?Llama 4 的計劃是怎樣的?
Thomas:目前還沒有關於 Llama 4 的具體計劃。Llama 4 應該是一個飛躍,這體現在模型的能力、涉及的模態、後訓練處理等方面。但我現在還不確定 Llama 4 將會如何,但我能保證的是,我們會努力逐步將它提升到新的水平。
- 點擊“查看原文” ,觀看完整大會視頻回放 -

GPT-4o、SAM、DiT、DCN、SegGPT作者共話多模態模型前沿進展


Sora團隊負責人Aditya Ramesh對話謝賽寧丨壓縮一切!視覺與語言模態的融合