大模型時代,AI芯片「破局」之戰

這一次,中國企業也準備好了。


文|曉曦

說起半導體行業面臨的難題,人們第一時間想到的是什麼?是光刻機?是5nm?是一塊方方正正的芯片,我們造不出來?
是,但也不完全是。
人們往往將芯片半導體劃分爲硬件產業,但事實上,這是一個高度軟硬件集成的產業——軟件甚至更多時候佔了大頭。

所以,即便我們在20年前就研發出了CPU,現在仍會面對如此局面。同樣,如今更受人關注的GPU產業也遇到了同樣困局,因爲我們面臨的真正難題,不是硬件,而是軟件。

當我們說芯片困局時,我們在說什麼?

芯片的硬件指的是運行指令的物理平臺,包括處理器、內存、存儲設備等等。芯片數據中常出現的“晶體管數量”、“7nm製程”、“存儲”等,往往指的就是硬件參數。
軟件則包括固件、驅動程序、操作系統、應用程序、算子、編譯器和開發工具、模型優化和部署工具、應用生態等等。這些軟件指導硬件如何響應用戶指令、處理數據和任務,同時通過特定的算法和策略優化硬件資源的使用。芯片數據中常出現的“x86指令集”、“深度學習算子”、“CUDA平臺”等,往往指的就是芯片軟件。 
沒有硬件,軟件就無法執行;可沒有軟件,硬件就只是一堆毫無意義的硅片。
以英偉達的CUDA平臺爲例。
2012年,隨着深度學習+GPU的組合在ImageNet大賽上一炮打響,人工智能一夜之間火遍全球,全球科技界都將目光轉向了這一領域。多年深耕CUDA人工智能計算平臺的英偉達股價自然是一路走紅,成爲了新時代的霸主。 
軟件,成爲了人工智能時代的核心技術壁壘。
爲了打破英偉達一家獨大的局面,前任全球芯片老大英特爾和多年老對手AMD對標CUDA都分別推出了OneAPI和ROCm,Linux基金會更是聯合英特爾、谷歌、高通、ARM、三星等公司聯合成立了民間號稱“反CUDA聯盟”的UXL基金會,以開發全新的開源軟件套件,讓AI開發者能夠在基金會成員的任何芯片上進行編程,試圖讓其取代CUDA,成爲AI開發者的首選開發平臺。
反過來,英偉達也在不斷深挖CUDA的護城河。
早在2021年,英偉達就曾公開表示過“禁止使用轉換層在其他硬件平臺上運行基於CUDA的軟件”,2024年3月,英偉達更是將其升級爲“CUDA禁令”,直接添加在了CUDA的最終用戶許可協議中,已禁止用轉譯層在其他GPU上運行CUDA軟件
對於中國用戶而言,這一禁令的打擊面要更大。
早在2022年,英偉達就已被要求對中國市場斷供高端GPU芯片,死死地卡住中國GPU芯片購買渠道。

如今連在其他芯片上運行CUDA軟件都被英偉達禁止了,中國人工智能公司們,怎麼辦?

國內AI芯片全面崛起

其實,在這條禁令下發之前很久,中國芯片公司們就已經有所準備了。
2015年,國內人工智能產業如火如荼,“AI四小龍”崛起,連帶着整個產業步入發展快車道。
在這波由CNN(卷積神經網絡)技術引領的人工智能行業熱潮之中,就有大量中國企業看到了打造國內AI芯片的重要性。
在此期間,國內陸續湧現出了近百家國內AI芯片公司,其中既有如寒武紀、地平線、壁仞科技、後摩智能等的明星創業公司,也有如華爲、阿里、百度等的科技巨頭,還有傳統芯片廠商與礦機廠商。
各家紛紛入局,產業如烈火烹油、鮮花着錦,大家的共同目標只有一個,打造自主可控的國內AI芯片生態。
國內AI芯片玩家們早早就意識到了軟件、工具、生態對於芯片的重要性,因此在不斷升級迭代硬件產品之餘,也投入了大量的時間、精力,試圖解決軟件生態建設中存在的問題。
CUDA是一個封閉的軟件平臺,因此,從底層開始打造原創的軟件棧是打破CUDA生態壁壘的關鍵路線。

部分國內AI芯片軟件平臺信息盤點

我國AI芯片創業公司在雲、邊、端等領域百花齊放,它們在各自的細分領域都有着突出的表現。以硬件架構創新和軟件架構通用性見長的壁仞科技爲例,BIRENSUPA軟件平臺是一個包括硬件抽象層、編程模型和BRCC編譯器、深度學習和通用計算加速庫、工具鏈,支持主流深度學習框架和自研推理加速引擎,配備有針對不同場景的應用SDK,是國內少有的具有完整功能架構的AI軟件開發平臺。
此外,面向雲端AI芯片、車載AI芯片的寒武紀曾推出寒武紀基礎軟件平臺;面向存算一體智駕芯片的後摩智能曾推出後摩大道軟件平臺;面向全功能GPU的摩爾線程曾推出MUSA SDK與AI軟件平臺;面向GPGPU的天數智芯也曾推出天數智芯軟件棧等等,國內玩家可謂百花齊放。
與我國最早一批篳路藍縷的芯片研究人員不同,當代的國內AI芯片玩家大多都有着資深的芯片行業從業經驗,深知CUDA類軟件工具生態對於AI開發者而言有多麼重要。
因此,在2015~2022年期間,雖然國內芯片玩家不斷努力打造屬於自己的AI芯片軟硬件生態,但也只能說是追上了國際中上游水平,離英偉達這種全球巨頭還有明顯差距。 
在此期間,英偉達也沒閒着,它乘着深度學習的浪潮一躍而起,不斷鞏固其在AI深度學習領域的優勢地位,最終徹底坐穩了全球芯片老大哥的寶座。
從CPU到GPU,從x86到CUDA,從英特爾到英偉達,歷史從來都是驚人的相似。
但沒有人想到,這一次,新一輪機遇來得那麼快。

2022年11月,命運的齒輪再次轉動——ChatGPT橫空出世,一下踢翻了AI芯片的產業天平。

大模型:天賜良機

2022年11月,隨着ChatGPT在全球範圍內一炮打響,大語言模型突然成爲全球追捧的技術前沿,其熱度遠超CNN之上。
這簡直是國內AI芯片廠商“換道超車”的天賜良機。
更絕的是,大語言模型的技術基底是Transformer網絡,其誕生之初有BERT、T5、GPT三種不同的路徑。
但是自從ChatGPT震撼亮相之後,GPT成爲了絕對的主流。全球人工智能產業突然前所未有地達成了統一認知——GPT路線。
在人工智能技術發展的歷史上,這幾乎是絕無僅有的統一。
CUDA的先發優勢,突然被急劇縮小。
由於人工智能技術路徑快速收斂,在大模型時代,國內AI芯片廠商可以快速上手針對這些模型進行調校和適配,讓大模型軟件研發人員可以快速上手。
更重要的是,此時,國內AI芯片玩家、與國際頂尖選手,站在了同一起跑線上。
歷史經驗告訴我們,只要拉平起跑線,論業務的“卷”,國內玩家是不怕的。
當前,英偉達嚴令禁止CUDA運行在其他AI芯片硬件平臺之上,再疊加以美國進一步收緊芯片禁令、全球算力緊缺的大背景下,國內大模型軟件廠商無法買到最前沿的GPU芯片。
因此,對於大模型公司而言的第一痛點,就是如何將現有大模型進行計算平臺的遷移。
鑑於大模型訓練對算力集羣的迫切需求,當前,國內各大AI芯片企業都在致力於加強集羣能力的構建。
以GPGPU架構的壁仞科技爲例:據客戶測試反饋,儘管作爲初創公司,壁仞的SUPA與成熟的CUDA之間仍然存在差距,但在軟件團隊的支持下,順利在較短時間完成實際應用的遷移,並且針對主流開源大模型展示實際性能也達到可喜的水平。
對於大模型廠商而言,AI芯片廠商如果能提供易用且低成本的遷移工具、完備的模型適配能力,以及具備成熟的集羣部署經驗,都都對於大模型的快速落意義重大。
據行業人士透露:國內幾家公司包括壁仞科技,都已經完成了對國內大部分開源大模型的適配,積累了很多千卡集羣部署的經驗,適配數據也表明了國內大模型合作伙伴在進行自研模型適配的時間有了顯著縮短。
36氪也瞭解到:“除了幫助用戶迅速從CUDA遷移到SUPA生態中外;大模型廠商還能借助壁仞科技的架構創新特點和SUPA編程模型獨特能力,對CUDA生態進行拓展,從而進一步提升性能。”
由於從底層指令集開始全部自研,擁有完全的自主權,可以最大化發揮壁仞產品具有優勢的硬件性能,從硬件到終端應用無論發生哪些變化,軟件棧都能隨時進行優化、迭代和調整。”
在“卡脖子”現象的普遍存在的當下,除了芯片層外,大模型的軟件層、算力層、雲計算層等,都在積極進行國產化的推進。
而AI芯片企業作爲大模型AI算力生態的最底層建築,則跟需要與模型、框架、集羣企業深度合作,實現整體性能的最大化。
比如,壁仞科技不僅與PaddlePaddle等國內外多款主流算法框架企業達成合作,滿足企業用戶與國際主流接軌的開發需求,還特別針對國內環境進行了深度適配,實現了與PaddlePaddle的2級兼容,爲國內AI大模型廠商提供了更加順暢的接入路徑。
同時,壁仞科技還與無問芯穹等國內算力優化玩家達成了深度合作,從芯片、算法、算力等層面對國產AI算力軟硬件平臺進行綜合優化與提升,進一步推動AI算力生態的全面國產化發力。 
對於“隱形卡脖子”最爲嚴重的軟件生態領域,壁仞科技則通過建設算力平臺、開源相關工具和庫,以及開放上層模型三個維度推廣軟件平臺;與框架、大模型合作伙伴開展聯合適配優化,建立廣泛生態合作;與高校、科研機構、最終客戶通過產學研用多種手段進行推廣落地。面向教育、科研領域,壁仞科技積極與高等教育機構合作,致力於培養新一代的軟件生態建設者。 
軟件生態無疑是最難突破的算力軟實力壁壘,也是當前各大AI芯片企業的攻關共識。力圖通過產、學、研的多方發力,實現破局。以浙江大學的AI教學平臺Mo平臺爲例,該平臺採用了壁仞科技的硬件和軟件資源作爲教學實踐的基礎,這不僅爲學生提供了實踐機會,也爲國產軟件生態的長遠發展播下了希望的種子。
自2022年底以來,大模型的熱火燒遍了全球。2024年更是大模型集中落地的爆發元年,越來越多新興的AI應用集中出現,改變着人們生活的方方面面。
新一輪產業機遇,這纔剛剛開始。

我們如今看到的,是芯片行業下一個二十年的微弱曙光。

結語

毫無疑問,算力,已經成爲人工智能時代的全球兵家必爭之地。
在當前全球大模型的產業熱潮之中,算力嚴重緊缺問題已經成爲限制各國人工智能技術發展的重要原因之一。
正如OpenAI的CEO Sam Altman在其7萬億美元AI芯片計劃中所展露出的野心,他說:“算力將成爲未來最寶貴的財富之一,會成爲未來的’貨幣’,人工智能的發展將是一場巨大的權力鬥爭,公司、組織、國家都可能爲了爭奪這份未來的“貨幣”而展開競爭。”
當前,以英偉達爲首的GPU硬件,因爲其在CUDA軟件方面的優勢,受到了市場的熱烈追捧,長期處於供不應求的狀態。而大模型取代深度神經網絡成爲新一代人工智能技術的領導者,恰恰給予了我國國內AI芯片一個數十年難遇的“換道超車”良機。
在當前的數字經濟時代,新興AI算力已成爲時代的“新質生產力”,具有高科技、高效能、高質量的特徵,與大數據、雲計算、人工智能、大語言模型等新技術緊密結合。
歷史從來都是螺旋上升的。
回望過去近二十年,英偉達之所以能在AI時代全面稱王,憑藉的正是在人工智能領域的先發優勢,乘着深度學習的東風,以CUDA軟件平臺對英特爾實現了全面“換道超車”。
如今大模型技術崛起,又一條嶄新的賽道出現在了所有芯片廠商面前。
只是這一次,中國企業也準備好了。