谷歌再遭OpenAI截胡!多模態AI概念股暴漲,蘋果市值一夜激增3500多億元
![](https://img1.headline01.com/images/f0/28/f02800d68eadf8087a8d92584b229cf59568a042.jpg?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1)
北京時間5月14日凌晨1點,繼在AI搜索和GPT-5上虛晃一槍後,OpenAI公司推出了可實時進行音頻、視覺和文本推理的全新旗艦AI模型GPT-4o。
相比於去年11月的開發者大會,此次的發佈會十分倉促。前後共持續26分鐘,OpenAI首席技術官Mira Murati帶着兩位員工一起現場展示了新模型,一向高調的首席執行官Sam Altman並沒有出現。值得玩味的是,明天Google將召開一年一度聲勢浩大的I/O開發者大會。
△圖源:Pexels
GPT-4o仍屬於GPT-4系列,是GPT-4的升級款模型,其名字裏的“o”是拉丁詞綴“omni”的縮寫,有包羅萬象、全知全能的意思。Mira Murati在模型演示中稱,相比GPT-4 Turbo,GPT-4o的速度快了兩倍,成本降低了50%,API速率限制(用戶可發出的請求調用額度)提高了五倍。
Mira Murati還表示,ChatGPT-4o將免費向所有用戶開放,付費和企業用戶可以搶先獲得體驗。她稱:“這是我們第一次在便於使用方面真正邁出的一大步。”
△圖源:OpenAI發佈會
升級版多模態大模型
據OpenAI介紹,GPT-4o是邁向更自然的人機交互的一步。此前,GPT-4已經可以分析圖像和文本,完成從圖像中提取文本、以文本描述圖像內容這類任務。GPT-4o則是增加了語音功能,並針對原有功能進行了升級。
具體來看,GPT-4o的亮點表現在四個方面:更強的多模態能力、多語言能力的提升、更強的視覺和音頻理解、更快的速度。
首先,GPT-4o能夠接受文本、音頻和圖像的任意組合作爲輸入,並生成文本、音頻和圖像的任意組合輸出,是兼具了“聽覺”、“視覺”的多模態模型。對於這項能力,OpenAI做了17個案例展示,其中包括照片轉漫畫、3D物體合成、海報創作、角色設計等樣本。在角色設計案例裏,用戶向模型輸入角色的相關指令,就可以得到一個機器人角色形象。
其次,GPT-4o 中50種不同語言性能得到了提高,包括改進了分詞器以更好地壓縮其中的許多語言。相比Whisper-v3,GPT-4o 顯著提高了所有語言的語音識別性能,特別是對於語料包匱乏的語言。
第三,與現有模型相比,GPT-4o在視覺和音頻理解方面尤其出色。根據傳統基準測試,GPT-4o 在文本、推理和編碼智能方面實現了GPT-4 Turbo級別的性能。
在演示中,OpenAI 研究主管 Mark Chen拿出手機打開ChatGPT,用語音模式(Voice Mode)現場演示,向GPT-4o支持的ChatGPT徵詢建議。GPT聽到Chen過度呼氣時,似乎察覺到了他的緊張。反饋道:“Mark,你不是吸塵器”,並告訴Chen要放鬆呼吸。
另一項演示中,OpenAI的後訓練團隊負責人Barret Zoph在白板上寫了一個方程式3x+1=4,ChatGPT給他提示,引導他完成每一步解答,識別他的書寫結果,幫助他解出了X的值。
OpenAI 稱,GPT-4o還可以檢測人的情緒。演示中,Zoph將手機舉到自己面前,要求ChatGPT告訴他自己長什麼樣子。最初,GPT參考了他之前分享的一張照片,將他識別爲“木質表面”。經過第二次嘗試,GPT注意到了Zoph臉上的微笑,對他說:“看起來你感覺非常快樂,喜笑顏開。”
Mira Murati表示,GPT-4o將提供與GPT-4同等水平的智能。同時,GPT-4o的運行速度大大提升,最大亮點在於其語音交互模式採用了全新技術,讓聊天機器人對話的響應速度大幅提高。OpenAI官網博客顯示,GPT-4o在談話中對音頻輸入的平均響應時間爲320毫秒,最短的響應時間爲232毫秒,與人類的響應時間相似。
“炸裂”背後的侷限
即便GPT-4o再次引發了鋪天蓋地的關注,但多位業內專家、分析師向時代週報記者表示,GPT-4o的多模態能力並沒有實現真正意義上的突破。
“模型能力迭代的速度在變慢,就算發佈了新的模態能力也掩飾不了基礎LLM能力迭代速度放緩的事實。”科技分析師劉璟珊向時代週報記者稱,這些多模態能力並沒有本質突破,只是變得更好。原因很簡單,大模型企業此前一定程度上忽視了推理優化,降低延遲實際上是產品工程化和英偉達GB200芯片提供了更強的算力。
“OpenAI並未展示對於視覺多模態來說真正稱得上‘突破’的功能,我們依舊要考慮大模型解釋準確性、空間推理、數目計量、違規內容等方面的侷限性。”劉璟珊補充道。
她還稱:“雖然GPT-4o可以在對話中增加語氣,甚至唱歌的功能,但呈現的內容還是與GPT-4一樣缺乏細節校準和創造力。至於OpenAI在發佈會後發佈的GPT-4o的應用案例探索,如會議記錄、手寫體和草稿生成等,也是一些比較普通的AI大模型功能。”
對於GPT-4o免費向用戶開放,劉璟珊表示,此“免費”並非真正意義上的免費,這背後是OpenAI打造產品閉環的邏輯。她稱:“此前GPT的訂閱收入不多,OpenAI可能放棄了讓用戶直接付費。此外,隨着英偉達提供的算力逐漸強大,大模型推理成本實現下降。”
“把大模型的收費模式從直接付費變爲先體驗後付費,OpenAI可通過GPT-4o所宣稱的多模態能力擴大用戶池,真正想付費的開發者自然會付費且大額付費。”劉璟珊稱。
市場分析平臺Sensor Tower公佈的數據顯示,過去一個月,ChatGPT在全球App Store中的下載量爲700萬,訂閱收入1200萬美元;全球Google Play市場的下載量爲9000萬,訂閱收入300萬美元。
目前,ChatGPT 在兩個應用商店的訂閱價格均爲19.99美元/月。由訂閱收入推斷,ChatGPT Plus在過去一個月通過應用商店付費的訂閱用戶數爲75萬。雖然ChatGPT Plus還有大量的直接付費用戶,但從手機端的營收看似乎很難匹配OpenAI幾近千億元的估值。
多模態AI概念股暴漲
GPT-4o的發佈帶動了相關概念股暴漲。
截至美東時間週一美股收盤,蘋果(AAPL.NASDQ)股價上漲1.76%,報186.28美元/股,市值一夜大漲495億美元(約合人民幣3583億元),總市值2.856萬億美元。
此前,OpenAI稱將爲蘋果電腦用戶帶來一款爲macOS設計的ChatGPT桌面應用,用戶可以通過快捷鍵“拍攝”桌面並向ChatGP提問,OpenAI還表示,Windows版本將在今年晚些時候推出。
還有媒體稱,蘋果公司被曝正與OpenAI敲定一項協議,預計今年將後者的部分技術引入iPhone。藉此,蘋果將能提供由ChatGPT支持的“聊天機器人”,作爲iOS 18中人工智能功能的一部分。
在國內,由於多模態AI題材的活躍,A股開盤後網絡遊戲方向領漲。其中,大晟文化股價漲停,位列漲幅榜首位。湯姆貓股價上漲超過8%,因賽集團、聲迅股份、迅遊科技、盛天網絡、凱撒文化、電魂網絡等公司股票亦呈現高開態勢。
對於GPT概念股的股市表現,劉璟珊總結道:“雖然OpenAI短暫地偏離了AGI主航道,但是這次的多模態更新對GPT和應用生態有很大幫助。”
記者丨申謹睿
編輯丨史成超
值班丨滿 滿
-END-
![](https://img1.headline01.com/images/18/1a/181a78533ec8f64c2590a52d57f160d8227297ca.jpg?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1)
![](https://img1.headline01.com/images/57/96/5796a3af9670495de32ea74b7ca9a76f98fcf113.jpg?wx_fmt=png&from=appmsg)
時代週報系列微信公衆號