文本、多模態與意識：誰來決定AGI？｜甲子光年

2024-06-25 20:05
甲子光年

“萬博士，快手什麼時候開源可靈，讓我們白嫖？”

作者｜劉楊楠‍‍

編輯｜趙健

AGI是什麼？今天再看這個問題，依然滿眼混沌，無從拆解。

AGI一詞，是由DeepMind聯合創始人戴米斯·哈薩比斯在2010年提出的概念，他將AGI定義爲“應該能夠完成人類可以完成的幾乎所有認知任務的系統”。去年，DeepMind發佈論文，提出了AGI的五個分級：

OpenAI對AGI的定義是“在最具經濟價值的工作中表現優於人類的高度自主系統”。OpenAI的使命是確保AGI造福全人類。

然而，近期一位谷歌軟件工程師卻表示，OpenAI“憑一己之力改變了遊戲規則”，同時也使AGI的發展推遲了5-10年。

今時今刻，AGI近乎成爲一種人類世界的新興“宗教”，身處其中的人們各有各的信仰，也各有各的掙扎。有趣的是，儘管不同的人對AGI有不同的定義，但每個人都認爲AGI是未來。

那麼，“未來”又是什麼？

在近期舉辦的2024智源大會上，智源學者、崑崙萬維2050全球研究院院長顏水成，百川技術聯合創始人謝劍，零一萬物聯合創始人黃文灝，快手視覺生成與互動中心負責人萬鵬飛，與甲子光年創始人及CEO張一甲展開了一場觀點交鋒。

這是一場沒有不限主題、不限時長的圓桌。一個多小時的時間裏，五位嘉賓圍繞端側智能、多模態模型、AGI的定義以及前段時間沸沸揚揚的價格戰展開討論，並在論壇結束後和現場觀衆展開一番有趣互動。

縱然AGI的命題無比恢弘，今時今刻業內外關於AGI的想象又略顯混沌，但在場觀衆的提問卻極其“具體”：

“萬博士，快手什麼時候開源可靈，讓我們白嫖？”

1. 未來，端上智能是非常重要的

張一甲：今天的配置非常有意思，有大廠，有創業公司，有產業派，聽了今天所有的分享，大家有哪些新收穫？

黃文灝：大部分的觀點都已經形成行業共識，比如對Scaling Law和數據的認知。

謝劍：我基本也是贊同黃文灝的，我的感受是，去年國內的大模型技術生態沒有那麼大，今年很多技術做得都已經很好了。

顏水成：大家沒有真正觸及最最關鍵、最最隱祕、有價值的部分，都是講自己有什麼樣的能力，但是我覺得從今年快手的可靈來看，能做到當前這個結果，絕對不僅僅是屏幕上展示的信息，應該有很多不便於分享的技術和創新，所以過去半年多的時間，還是在技術維度上有很多創新和進展。

智源學者、崑崙萬維2050全球研究院院長顏水成

萬鵬飛：我們做視頻生成時面臨挑戰，相對來說不是很開放，整個事情做下來，創新點是有的，但是一些大的方向上我今天聽下來，普遍認知是一致以及趨同的，大家對視頻生成的關注度也比較高。大模型、AI被大家越來越關注，是很好的事情，各行各業能力和資源投進來，我相信我們是可以做得越來越好。

張一甲：蘋果最近熱度很高，對於前幾天蘋果在WWDC上發佈的內容，哪些和你們心中的預期契合，哪些有不同意見？

萬鵬飛：首先蘋果做的事情和我之前做的很多事情有非常大的關係，我還是非常肯定這家公司的。比如他們在端側模型上也做了很多，讓移動端幾億用戶用到AI能力，他推出的3B模型可以在iPhone 15運行。

很多應用場景確實不需要非常大的模型，包括現在的小模型通過更多的數據訓練，展現出很好的性質，把成本問題解決；同時模型跑到用戶手機上也有很好的隱私保護功能，綜合能力非常強。

另外，蘋果讓我們意識到，生態位非常重要。從這個角度出發，我非常看好蘋果在AI領域未來的應用。快手也有類似的生態，我們天然有很多應用場景，有一個很好的生態閉環和應用閉環。

快手視覺生成與互動中心負責人萬鵬飛

張一甲：包括我退休的父母都在用AI產品，用起來AI就是很AI了，更多是從視覺、交互、觸感。水成師兄怎麼看蘋果這次發佈？

顏水成：最初我有很強的期待，因爲最近出現一些模型和AI原生應用都非常智能的，你可以想象無窮無盡的場景。後來看到蘋果在端側的努力，恰好我當時在UIUC的室友去蘋果做這一塊的分享，讓人覺得這個路徑是對的。

有幾個原因，原生多模態的大模型，受網絡帶寬和速度覆蓋的影響，體驗並不是特別好，必然有一部分東西上不到雲端，最後一定需要有一個模式能在特殊的場景下，用端上的智能。未來端上智能是非常重要的，而且模型的體量和蘋果手機所具備的相關的計算能力是綽綽有餘去應付的，這可能會成爲未來的趨勢。小米、華爲等也會同樣重視端上智能。這一點值得期待。

謝劍：我分享兩點，蘋果一如既往地在產品定義和把握用戶心智上非常成功，核心是希望做雲端，核心貫穿的思想是智能只爲你，一方面是“只爲你”，另外一方面是“爲你隱私考慮”。第二，技術上來說，如果是siri這麼大的入口，更好的是變成和人一樣的交互，但是這一次至少沒有把原生的模型用上，一方面是蘋果內部自己技術還沒有做到，第二是如果和OpenAI合作可能更好。

張一甲：現場有一個很有趣的細節是，蘋果每介紹完一個很牛的功能，就會緊接着強調一遍他們很安全。

顏水成：這是蘋果的典型操作，就像其他手機廠商都出了摺疊機，但蘋果摺疊機沒有達到他們的要求，就一直沒出一樣，可能是蘋果的原生大模型還沒有達到他們的期待，還有更好的東西值得等待。

謝劍：如果蘋果手裏有技術，可能也是協同的技術，實時交互的數據太隱私了。

黃文灝：可以從三個層面講，蘋果的發佈會給大家看到了很多應用的可能性，我們也提出了“模應一體”，模型和應用一塊做，應用是很重要的一部分。

第二，從技術層面來看，我們有一個技術判斷，我們先把模型做大，這個過程符合Scaling Law的法則。等模型能力夠強之後，再想辦法把模型做小，我們現在差不多可以做到參數規模縮小10-100倍，但模型能力基本不掉。

第三，從AGI的實現進度方面，會失望一點，包括蘋果發佈會、GPT-4o，我覺得這些技術都沒有提高智能的上限。

2.多模態和語言，誰是實現AGI的主軸？

張一甲：今年整體上多模態的更新頻率比較高，包括Pika、Luma AI、蘋果和快手，基本都是原生多模態。而小川總之前經常表達，語言纔是智慧的皇冠，纔是實現AGI的唯一可取之路，其他都不是智慧的主軸，謝劍總你認同嗎？

謝劍：首先把幾個概念分一下，多模態不等於文生圖、文生視頻。多模態模型分成兩部分，生成（text to any）和理解（any to text）。

第二，百川內部，我們對未來技術的大判斷是，語言是智能的中軸心，但說“唯一路徑”就太過於嚴格了。我們內部也在判斷應該以什麼樣的方式投入多模態。

從技術上來看，Sora是text to video，文生視頻過程中，語言模型沒有發揮足夠大的“中軸心”作用。未來我們希望實現any to any，現在any to text這個“理解”的過程已經通過scaling law等方法都可以做到，例如谷歌的Gemini；text to any這個“生成”的過程在diffusion架構上更加成功，這兩個部分也許未來會匯合。

我們會持續聚焦提升智力的角度上，以語言爲中軸心，any to text的多模態模型依然會做。當然也會有其他考慮，你看快手有這麼多的視頻data，也有text to video的應用前景依然非常廣闊。

百川智能技術聯合創始人謝劍

張一甲：你所謂的“中軸心”，是從概念、產品視角，還是從智能目標的視角看？

謝劍：更多是從智能目標來看，語言更多是把人類的知識做抽象和壓縮。從學習效率來看，把其他模態和語言做對齊，能夠更好地提升智能學習效率是核心的點。

黃文灝：我發表一下我的看法，這裏面有很大的探索空間，不一定是完全收斂的狀態，可以說幾個點：

一個是剛纔提到的any to text，我的分享裏面也提了，我們現在證明了一個事情，是說不同模態數據在同一個壓縮空間做表示的，多模態數據可以提高智能的上限，這是一個很重要的事情。

第二，要實現any to any，大家要解決的問題是，生成和理解一起做，生成部分的loss對理解有沒有幫助，有沒有提升智能的上限。我們之前實驗結果不是很驚喜，但最近對多模態數據做了很多處理，已經有一些實驗結果，當然不是十分確定的結論，所以這是一個比較開放的問題，自己的實驗條件下找到一個路。

最後，上午OpenAI的Sora負責人Aditya Ramesh（阿迪提亞·拉梅什）說過，LLM不一定是通向AGI的唯一路徑，視頻其實是可以通向AGI的路徑，某種程度上我是同意的。現在我們優化的目標是給定算力條件下的智能水平，我同意謝劍的觀點，語言效率更高，但是語言的數據會碰到瓶頸，或在scale up的時候學習效率是否能保持高水平的一致性？視覺數據可能比較少，效率低，但是可以利用更多算力，這是一個開放問題。只能說現在的算力條件和實驗結果證明，語言是更加高效的表示方法，但不代表未來也一定是這樣的，大家可以開放的探索，多模態沒有一個最好的方法，有很多可以探索的東西。

張一甲：硅谷很多公司似乎對技術路線的選擇沒有太多執念，只要能達成他們的願景，比如打造一款偉大的產品，採用什麼技術路線其實無所謂。各位的核心目標是什麼？

黃文灝：我們同意這個觀點，但是每家公司願景不一樣，我們公司認爲這個時代最大的機會以及公司的終極目標都是AGI，技術上更快達到AGI，就會有更多模型和應用的機會。

零一萬物聯合創始人黃文灝

顏水成：專注語言維度，已經可以造就偉大的公司了。我們的公司目標是實現通用人工智能，讓每個人更好的造就塑造表達自己。

萬鵬飛：我們的目標是做“偉大的產品”。其實在這個時代，打造一個偉大的產品，最大的變量還是技術突破。如果做出一個非常好的產品，核心驅動力是技術突破，那這不就是殊途同歸了？

謝劍：補充一下，百川也是超級模型+超級應用雙輪驅動的，小川也表達過相似的觀點，什麼技術派和市場派都是盲人摸象。大家一談AGI非常興奮，但最終怎麼做到那一步，一定是有和市場的結合，應用的結合，很多時候也需要用戶的反饋，現在世界上唯一一家以AGI爲目標的只有OpenAI了。

3.意識是AGI的關鍵嗎？

顏水成：其中涉及一個很重要的問題，“如何定義AGI”，這個東西定義清楚了，這家公司到底是不是以AGI爲目標就越來越清晰了。

謝劍：百川內部把ChatGPT的出現叫作“智能紀元”，ChatGPT的出現讓我們看到了AGI的曙光。如果以自然語言處理爲例，所謂的人工智能1.0時代，困擾大家的是，爲什麼所有任務都要用一個深度學習模型來做，能不能打造一個“all in one，one to all”的模型？ChatGPT語言模型讓我們看到了曙光，打開了智能紀元的大門。

黃文灝：我比較驚訝，大家對於AGI沒有很統一的定義，但在硅谷是有統一定義的，當AI能夠替代人類白領80%-90%的工作，AGI就到了，這是一個完全量化的指標。按照這個標準，硅谷預計6年後會實現AGI，我們公司也按照這個標準來做規劃。你可以理解6年做不到80-90%，OpenAI就失敗了，OpenAI和Anthropic和投資人講的都是這個問題。

謝劍：一定程度上我是贊同的，但是某些場景下，人類能很輕鬆解決的問題，萬億大模型才十幾分的水平，所以還有很長的路要走。至於AGI到底什麼時候實現，我很難預測，有人說是3年，有人說是6年。

顏水成：開始大家在講AGI，定義都不一樣，前面兩位講的評判標準是有道理的，AI能完成人類60-80%的事情就實現了AGI。同時，大部分人完成的事情AI都能完成，某種意義上AI也就具備了人的意識。

意識是什麼呢？在心理學角度，在人的大腦裏面，system 1到system 2有一個專門的空間，有點類似於總導演，會決定人的各種模態的信息，同時會提取記憶，比如說做邏輯推理等，大腦的各個區域合在一起，把信息廣播到所有的系統裏，產生視覺、聽覺等，這就是Global workspace theory（全局工作空間理論）。

這個角度來說，要想實現AGI，首先必須要有意識。AGI一定是多模態的，相當於AGI最好的表現形式是超級智能體，它能夠access到不同的單模態，可以去訪問到各種不同的工具，可以去訪問demo，去update memory，可以去更新各個單獨的多模態模型。從這個角度來說，我們研究多模態還是非常有必要的。

另外，因爲我自己是做多模態出身的，人有70%的信息是通過視覺獲得，而且視覺是一個3D信息，語音是一個1D信息，所以它的信息量就比其他的模態要多很多。因此從信息量來說，我們每天所消耗的信息，包括抖音和快手基本上都在消耗視覺數據。從這個角度來說，純粹的文字要和視覺、音樂的東西結合。

萬鵬飛：整體上我是贊同的。首先，ChatGPT是偉大的產品，iPhone是偉大的產品，但偉大的產品往往離不開牛逼的技術，技術和產品不能割裂來看。

第二，AGI一定是一個能移動的東西，一部分的智能應該是與世界交互中提取的。如果AI替代我們的工作，不單單是語言的能力，一定是多模態的，心理學家、社會學家做過實驗，視覺信息量約佔50%，語音和文本各佔30%、20%，有非AI人士做的實驗。在我看來，真正達到剛纔AGI的模型一定是多模態的。

顏水成：還有一個有趣的結論，不同的模態，最終進行交互、推理的時候，他用的表述形式是語言，從某種程度上說明了語言的重要性，只有語言纔可能實現自我反饋的，他是一個自我完善的模型，從裏面生成的東西一定還在裏面，圖像是不行的，所以從這個角度說明了，現在爲什麼做多模態大模型，把其他模態插進去，還有一些相似性。

張一甲：你們如何判斷AI是否擁有意識？

顏水成：客觀來說，剛纔講的Global workspace和自我的關係不是特別強。子模塊對子模塊地把信息考慮進來了，這時候認爲有了意識。但到底什麼是意識，我們不是特別清楚，這是用一種偏數學的語言表述，但是self到底是什麼東西，根本說不明白。

謝劍：其實我覺得現在我們討論AGI，基本上都沒有在談意識。至少從判斷標準來看，AI替代人類80%的工作，或者說智力上達到人類80%-90%和建立自我意識還是兩個概念。比如讓一個智能體擁有自我意識，他自己有自己的目標，有自己的使命，和讓一個智能體能夠接受你的command，完成任務，是兩個不同的概念。我們的Levels of AGI的劃分和讓AI擁有意識兩件事不是直接連接的，這是我的看法。

黃文灝：我有些個人觀點，不代表我公司。前段時間，我思考了一些問題，假設一個模型聽你說話時能自主決定我什麼時候打斷你，它可能就有意識了。人在對話時，有人會插話表示自己的觀點，因爲我是在思考你說的話，我一直在思考什麼時候需要打斷。

4.中美的AGI故事，註定有不同版本

張一甲：接下來快問快答一下。大家知道，在座沒有字節和火山，阿里雲和百度雲的人，各位怎麼看價格戰？

顏水成：一開始我們就避開了這件事情，對於我們中型公司來說，新的產品非常重要。我們在做大模型時，先是有5個不同的APP事先定義好，有一個音樂APP、漫畫APP、陪伴APP、遊戲APP等。我們認爲這些APP會是大模型落地的場景，所以我們模型的研發，至少有90%以上是對to C場景。

我們一直做出海的業務，中國一直卷，可能會出現類似於當年安防市場的情況，受價格戰影響很大，我們覺得有可能在大模型也會發生類似的事情，本來是很好的生意，因爲價格之爭會變得沒有那麼好了。

萬鵬飛：背後的本質問題不是價格，如果ROI是正的，價格低一點，成本更低，是可以的。快手的商業模式可以跑通，我們基於大模型產品，在整個生態的運轉能以一個非常容易的方式創造價值，這個價值成本高一點、低一點不是那麼關鍵。其他的公司本質上也是這個邏輯，客戶滿意的，公司跑通ROI，就是健康的範疇。

謝劍：回顧一下整個事件，其實雲廠商沒有降價，而是做了降本的技術優化，雲廠商做的是“羊毛出在豬身上”的生意，我API給了你，哪怕這裏不賺錢，可以在雲的其他服務賺錢。對於百川而言，顯然不是我們能做的商業模式。對創業公司來說，C端超級應用的突破是未來最大的商業模式，B端可能有其他附加價值的打法。

黃文灝：我提供兩個視角，最早把價格降下來的是MoE，有些不一樣的技術思路，都可以把成本降到1%。第二，大家仔細看一下每個公司的價格戰，大家把價格降下來的都是最弱的模型，在低端模型做價格戰意義不是特別大。

張一甲：商業邏輯大家看得比較清楚，大廠大閉環，小廠小閉環，大公司是用戶買產品，產品買模型，模型買雲計算，雲計算買卡，然後順手做二級市場。

甲子光年創始人及CEO 張一甲

5.“快手什麼時候開源可靈，讓我們白嫖？”

觀衆提問：萬博士好，剛纔聊到快手的使命，擁抱每一種生活。根據AGI的發展，每個人生成自己的視頻，未來快手上是否會出很多理想美好的生活，而不是真實的生活呢？

萬鵬飛：好問題，大模型回答的內容獲取也依然要遵循內容社區的規範，用戶的需求依然是以和現在相同的方式滿足，並不一定會破壞短視頻生態的結構，肯定會帶來挑戰，更會帶來機會，我還是比較樂觀的。

觀衆提問：既然如此，每個人都能生成視頻，是否可以生成一個爽劇腳本，我去當女主呢？

萬鵬飛：會考慮很多不同的方方面面，也許某種特定場景下，需要釋放壓力，給你帶來一些快樂。視頻創作者相對比較複雜，不太好預測，整體的發展很快，我們可以拭目以待。

觀衆提問：我也是快手的忠實粉絲，快手對普通用戶推流更多一點，快手又比較接地氣。剛剛的問題，什麼時候全面開源，是大家比較關注的。

第二個問題，快手視頻生成，算力等等都已經有定向內容，現在關心的是安全問題，如何保證前期數據的投入，生成，產品設計等等方面，保證生成的內容是在法律和道德允許的，請萬總回答一下。

萬鵬飛：首先關於開源白嫖，感謝你的坦誠，暫時不考慮，但是會逐步開放一些東西出去。第二個問題，社區治理肯定是重要的問題，這個問題需要一個階段想辦法解決，AI發展很快，帶來新的挑戰和問題。回答上一個提問，內容的社區，生態治理和規範，不管什麼時代都是存在的，新的思路，新的想法，解決新的挑戰。

觀衆提問：零一萬物和百川都沒有開放多模態，是因爲資金不到位，還是技術問題，你們的規劃是怎樣的？

謝劍：您定義的多模態是文生圖，文生視頻嗎？我們推出了百小應，不僅僅是文生圖，文生視頻，我們說上傳一張圖片，去交流，本質上也是多模態的輸入，文本的輸出，百小應現在就有這樣的能力。

黃文灝：我們的多模態模型去年就開源了，剛纔謝劍補充了，之前的觀點是生成和理解統一來做，並不一定對智能的有幫助，所以沒有走這條路徑，今年會有增強的動態模型推出，我們覺得多模態的核心作用是提升智能的上界，而不是在應用上拓寬可玩性。

觀衆提問：我想問一下萬博士，現在英偉達的GPU是全世界最領先的，快手也是第一陣營的，是不是在GPU方面發力，爲我們國家爭一口氣呢？另外，快手和抖音在國內競爭比較激烈，想看一下快手是否逐漸超越抖音。

萬鵬飛：第一個問題，我們還是有自知之明，非常期待我們國家能夠突破各種算力的限制和瓶頸。第二個問題，快手超過抖音，我是有信心的，要是全國十幾億人都有信心，是不是就超過了，很多人沒有使用過，不妨試一試。

張一甲：你能給現場的朋友做流量傾斜嗎？

萬鵬飛：我們是一個公平普惠、有規則的平臺。

觀衆提問：各位老師好，問一下計算卡方面的問題，回望去年大模型技術不斷爆發時，大模型廠商之間的競爭彷彿是卡數量的競爭，現在大模型後半場階段，越來越多新的技術不斷湧現，似乎發現用更少的資源達到更好的效果。卡的競爭不再是需要考慮的，我們發現技術生成的模型又出來了，卡肯定又是需要考慮的問題，我想問四位老師，未來還是會把囤卡放在首要考慮和現有的卡呢？

黃文灝：我沒有說我們有多少卡。卡的數量是絕對算力，算法是相對算力，這兩個肯定都是越大越好，作爲創業公司來講，和大廠很難比拼絕對算力，就要發揮創業公司的優勢，人均卡比大廠多，其實就可以發揮卡的優勢，研究提升相對算力的算法。模型做的好了，模型算力也會提升，隨着商業化的模式，兩者相輔相成的關係。我覺得在絕對量上很難短期之內有突破時，相對算力做突破，期待有一點可以做指數級突破。

觀衆提問：請教一下，去年各個做大模型的廠商和業務方向比較統一，今年近期很多公司往to C方向出了很多APP，這個方向怎麼考慮和思考呢？

黃文灝：去年可能也不是很統一，提到了大家的技術發展路徑都是不一樣的，比如說我們做全球化的模型和應用，中國也是非常重要的市場。比如說在中國沒有特別想做to B，因爲還是有一些傳統問題，中國和美國不一樣。大家都有自己的主張，並沒有說開始就做to B賽道，現在都是沿着當時的主張，繼續往下做，差異化也做的越來越大，AGI路上大家都是同行者，逐漸做了一些分化。

顏水成：to B的速度會更快一些，大模型出來做POC可以很快的賣給第三方，to B到最後上線獲客，週期比較長，可能是一種感覺，很多公司開始做的時候，想清楚自己到底是toC還是to B。

謝劍：百川成立時更大的目標是在C端，我自己的感覺和解讀，去年沒有那麼多C端應用，去年模型水平本身也沒有到很好的水平，前期如果3.5都做不到，這個時候的模型能力想要支撐很好的應用不現實。今年逐步接近4，在很多場景下，C端能夠真正做到價值增益。

張一甲：今天的圓桌論壇就到這裏，今天的論壇到此結束，謝謝大家！

（封面圖及文中配圖來源：2024北京智源大會）

【甲子直播間預告】

知名投資人朱嘯虎不久前進行了一場題爲《生成式AI：金礦還是泡沫？》的分享，對於分享中提到的觀點，甲子光年認爲都對，但都只說了一半。

本週五（6月28日）10:00，甲子光年創始人&CEO 張一甲將結合甲子光年智庫最新成果《2024年中國AIGC行業應用價值研究報告》，用“0.5倍速”通俗易懂的方式，把朱嘯虎沒說的“另一半”補全。直播解析第一批AIGC開始盈利的背後那些值得探究的地方，同時分享關於AIGC的最新判斷。過程中甲小姐將會回答觀衆提問並與大家一起交流，千萬不要錯過！

掃描海報上二維碼即可預約直播並提前進入直播交流羣👇，同時歡迎大家掃碼獲取報告，提前掌握學習資料。

END.