谷歌再遭OpenAI截胡！多模態AI概念股暴漲，蘋果市值一夜激增3500多億元

2024-05-15 17:18
時代週報

北京時間5月14日凌晨1點，繼在AI搜索和GPT-5上虛晃一槍後，OpenAI公司推出了可實時進行音頻、視覺和文本推理的全新旗艦AI模型GPT-4o。

相比於去年11月的開發者大會，此次的發佈會十分倉促。前後共持續26分鐘，OpenAI首席技術官Mira Murati帶着兩位員工一起現場展示了新模型，一向高調的首席執行官Sam Altman並沒有出現。值得玩味的是，明天Google將召開一年一度聲勢浩大的I/O開發者大會。

△圖源：Pexels

GPT-4o仍屬於GPT-4系列，是GPT-4的升級款模型，其名字裏的“o”是拉丁詞綴“omni”的縮寫，有包羅萬象、全知全能的意思。Mira Murati在模型演示中稱，相比GPT-4 Turbo，GPT-4o的速度快了兩倍，成本降低了50%，API速率限制（用戶可發出的請求調用額度）提高了五倍。

Mira Murati還表示，ChatGPT-4o將免費向所有用戶開放，付費和企業用戶可以搶先獲得體驗。她稱：“這是我們第一次在便於使用方面真正邁出的一大步。”

△圖源：OpenAI發佈會

升級版多模態大模型

據OpenAI介紹，GPT-4o是邁向更自然的人機交互的一步。此前，GPT-4已經可以分析圖像和文本，完成從圖像中提取文本、以文本描述圖像內容這類任務。GPT-4o則是增加了語音功能，並針對原有功能進行了升級。

具體來看，GPT-4o的亮點表現在四個方面：更強的多模態能力、多語言能力的提升、更強的視覺和音頻理解、更快的速度。

首先，GPT-4o能夠接受文本、音頻和圖像的任意組合作爲輸入，並生成文本、音頻和圖像的任意組合輸出，是兼具了“聽覺”、“視覺”的多模態模型。對於這項能力，OpenAI做了17個案例展示，其中包括照片轉漫畫、3D物體合成、海報創作、角色設計等樣本。在角色設計案例裏，用戶向模型輸入角色的相關指令，就可以得到一個機器人角色形象。

其次，GPT-4o 中50種不同語言性能得到了提高，包括改進了分詞器以更好地壓縮其中的許多語言。相比Whisper-v3，GPT-4o 顯著提高了所有語言的語音識別性能，特別是對於語料包匱乏的語言。

第三，與現有模型相比，GPT-4o在視覺和音頻理解方面尤其出色。根據傳統基準測試，GPT-4o 在文本、推理和編碼智能方面實現了GPT-4 Turbo級別的性能。

在演示中，OpenAI 研究主管 Mark Chen拿出手機打開ChatGPT，用語音模式（Voice Mode）現場演示，向GPT-4o支持的ChatGPT徵詢建議。GPT聽到Chen過度呼氣時，似乎察覺到了他的緊張。反饋道：“Mark，你不是吸塵器”，並告訴Chen要放鬆呼吸。

另一項演示中，OpenAI的後訓練團隊負責人Barret Zoph在白板上寫了一個方程式3x+1=4，ChatGPT給他提示，引導他完成每一步解答，識別他的書寫結果，幫助他解出了X的值。

OpenAI 稱，GPT-4o還可以檢測人的情緒。演示中，Zoph將手機舉到自己面前，要求ChatGPT告訴他自己長什麼樣子。最初，GPT參考了他之前分享的一張照片，將他識別爲“木質表面”。經過第二次嘗試，GPT注意到了Zoph臉上的微笑，對他說:“看起來你感覺非常快樂，喜笑顏開。”

Mira Murati表示，GPT-4o將提供與GPT-4同等水平的智能。同時，GPT-4o的運行速度大大提升，最大亮點在於其語音交互模式採用了全新技術，讓聊天機器人對話的響應速度大幅提高。OpenAI官網博客顯示，GPT-4o在談話中對音頻輸入的平均響應時間爲320毫秒，最短的響應時間爲232毫秒，與人類的響應時間相似。

“炸裂”背後的侷限

即便GPT-4o再次引發了鋪天蓋地的關注，但多位業內專家、分析師向時代週報記者表示，GPT-4o的多模態能力並沒有實現真正意義上的突破。

“模型能力迭代的速度在變慢，就算發佈了新的模態能力也掩飾不了基礎LLM能力迭代速度放緩的事實。”科技分析師劉璟珊向時代週報記者稱，這些多模態能力並沒有本質突破，只是變得更好。原因很簡單，大模型企業此前一定程度上忽視了推理優化，降低延遲實際上是產品工程化和英偉達GB200芯片提供了更強的算力。

“OpenAI並未展示對於視覺多模態來說真正稱得上‘突破’的功能，我們依舊要考慮大模型解釋準確性、空間推理、數目計量、違規內容等方面的侷限性。”劉璟珊補充道。

她還稱：“雖然GPT-4o可以在對話中增加語氣，甚至唱歌的功能，但呈現的內容還是與GPT-4一樣缺乏細節校準和創造力。至於OpenAI在發佈會後發佈的GPT-4o的應用案例探索，如會議記錄、手寫體和草稿生成等，也是一些比較普通的AI大模型功能。”

對於GPT-4o免費向用戶開放，劉璟珊表示，此“免費”並非真正意義上的免費，這背後是OpenAI打造產品閉環的邏輯。她稱：“此前GPT的訂閱收入不多，OpenAI可能放棄了讓用戶直接付費。此外，隨着英偉達提供的算力逐漸強大，大模型推理成本實現下降。”

“把大模型的收費模式從直接付費變爲先體驗後付費，OpenAI可通過GPT-4o所宣稱的多模態能力擴大用戶池，真正想付費的開發者自然會付費且大額付費。”劉璟珊稱。

市場分析平臺Sensor Tower公佈的數據顯示，過去一個月，ChatGPT在全球App Store中的下載量爲700萬，訂閱收入1200萬美元；全球Google Play市場的下載量爲9000萬，訂閱收入300萬美元。

目前，ChatGPT 在兩個應用商店的訂閱價格均爲19.99美元/月。由訂閱收入推斷，ChatGPT Plus在過去一個月通過應用商店付費的訂閱用戶數爲75萬。雖然ChatGPT Plus還有大量的直接付費用戶，但從手機端的營收看似乎很難匹配OpenAI幾近千億元的估值。

多模態AI概念股暴漲

GPT-4o的發佈帶動了相關概念股暴漲。

截至美東時間週一美股收盤，蘋果（AAPL.NASDQ）股價上漲1.76%，報186.28美元/股，市值一夜大漲495億美元（約合人民幣3583億元），總市值2.856萬億美元。

此前，OpenAI稱將爲蘋果電腦用戶帶來一款爲macOS設計的ChatGPT桌面應用，用戶可以通過快捷鍵“拍攝”桌面並向ChatGP提問，OpenAI還表示，Windows版本將在今年晚些時候推出。

還有媒體稱，蘋果公司被曝正與OpenAI敲定一項協議，預計今年將後者的部分技術引入iPhone。藉此，蘋果將能提供由ChatGPT支持的“聊天機器人”，作爲iOS 18中人工智能功能的一部分。

在國內，由於多模態AI題材的活躍，A股開盤後網絡遊戲方向領漲。其中，大晟文化股價漲停，位列漲幅榜首位。湯姆貓股價上漲超過8%，因賽集團、聲迅股份、迅遊科技、盛天網絡、凱撒文化、電魂網絡等公司股票亦呈現高開態勢。

對於GPT概念股的股市表現，劉璟珊總結道：“雖然OpenAI短暫地偏離了AGI主航道，但是這次的多模態更新對GPT和應用生態有很大幫助。”

記者丨申謹睿

編輯丨史成超

值班丨滿滿

‍‍‍

-END-

☞尹錫悅上任兩週年：韓國GDP排名跌至全球14，支持率跌破30%

☞杭州、西安同日全面取消住房限購，樓市限購正在成爲歷史？

☞罰款180萬後，5萬8一瓶的聽花酒旗艦店恢復了營業

☞萬科開始“瘦身”，深圳灣超總項目起價22億轉讓，商辦業務踩剎車

☞沒編制的教師崗在廈門不香了？行內：該考的還是考，“有的依舊擠破頭”

轉載|商務合作|時代週報讀者交流羣

加微信：ningmengshu17

▼