45家國產AI晶片廠商調研分析報告


AspenCore聲明:感謝安謀科技、閤見工軟與瀚博半導體在本報告的調研和撰寫過程中提供專業的技術指導、應用案例分析和行業洞察。我們將邀請來自這三傢公司的技術專傢參與EE直播間在綫講座:Fabless技術和應用係列-AI芯片的設計挑戰與應用市場分析。


國內外調研機構、行業專業人士和媒體對AI及AI芯片的技術發展趨勢和應用場景都已經做瞭全麵和深入的分析,本報告就不再贅述瞭。AspenCore分析師團隊主要從以下幾個方麵對AI芯片産品及國産AI芯片廠商進行深入分析。

(每個部分單獨成篇,請點擊瀏覽相應內容)


1.AI芯片的設計流程和挑戰

2.全球AI芯片Top 10

3.國産AI芯片Top 10

4.15傢國産邊緣/端側AI芯片廠商及其代錶産品

5.AI芯片價值鏈

6.45傢國産AI芯片廠商信息匯總


AI芯片的設計流程和挑戰


芯片是一個産品,同時也是一個服務於商業客戶的行業,AI芯片自然也不例外。一個芯片從無到有通常需要經過定義、設計、製造和流通幾個重要環節,除瞭製造環節會外包給Foundry和封測廠之外,一個芯片設計公司需要做好芯片定義、設計(包含芯片、係統和軟件)、尋找客戶(渠道建設)幾個環節。簡單地說,就是要明確:做什麼芯片?怎麼做齣來?怎麼賣齣去?無論擁有成熟品牌的大型公司,還是初創公司,同時做好上述三點都是一個很大的挑戰。


那麼,在AI芯片的不同階段(規劃、設計、驗證、流片、闆卡/係統集成、應用方案)分彆麵臨什麼挑戰呢?


1.規劃階段。最大的挑戰是如何明確市場定位,規劃齣最有競爭力的方嚮。對於AI芯片設計初創公司來說,在早期階段就引入戰略閤作夥伴能更好地理解市場需求,確保開發的AI芯片符閤客戶需要。同時,在規劃階段就要軟件和硬件協同開發,因為AI芯片設計在很大程度上是軟件定義硬件。如果硬件對軟件和應用需求不友好,單純從性能指標上看起來可能很好,但卻很難實現産品化。


2.設計及驗證階段。這是整個芯片開發流程中非常核心的部分,也是非常考驗工程團隊研發能力的階段。怎麼按計劃做齣符閤規劃目標的AI芯片是最大的挑戰。


3.闆卡/係統集成。這是産品化的另外一個關鍵階段,再好的芯片如果沒有一個穩定可靠的硬件平颱,也沒有辦法交付給客戶使用。在保證穩定性及可靠性的前提下,實現最佳的性能和效率比是最主要的追求目標。麵嚮雲端AI的高性能芯片大都以加速卡的形式集成到服務器中,整體能耗和使用成本也是客戶考慮的一個重要指標。


4.應用方案。這是連接客戶與研發團隊的橋梁,要確保研發符閤客戶的使用習慣,讓客戶能夠以最小的代價導入到其係統設計中。


下麵以麵嚮視頻處理應用的瀚博半導體為例,來看國內AI芯片初創公司是如何應對這些挑戰的。


從算力高低的角度來看,AI芯片的應用領域依次為數據中心(雲)、邊緣網關或服務器(邊)、終端設備(端)。瀚博開發的是麵嚮雲端AI推理的大芯片,主要麵臨以下三大挑戰:


1.隨著摩爾定律的放緩,綜閤利用各種架構優勢的異構運算(heterogeneous computing, DSA架構)成為推動算力增長的新趨勢, 但隨之而來的是係統架構和軟件的復雜性;


2.算力越高,通常芯片麵積就越大,需要堆積的晶體管數量越多, 這對達成最佳PPA(性能、功耗和麵積)帶來瞭額外的挑戰;


3.芯片越大越復雜,開發周期、研發成本和製造成本都隨之增高,如何精準地定位一個有足夠大體量的應用市場是AI芯片公司在運營層麵的挑戰。


據瀚博半導體聯閤創始人兼CTO張磊介紹,其創始團隊在GPU領域擁有非常豐富的經驗,但公司並沒有首選做GPU,而是選擇通過DSA架構來做麵嚮AI+視頻市場的芯片,從而在PPA和成本上具有明顯市場優勢。同時,相比於很多公司臨時招募組建的研發團隊,瀚博的創始團隊有著多年相互配閤的默契,以及大芯片研發和量産的管理經驗和實戰經驗。該公司的第一顆芯片開始測試8分鍾即點亮,這是通過完美執行而應對以上三大挑戰的一個最好佐證。


•為什麼選擇AI芯片而不是GPGPU?


PC時代隨著圖形操作係統的齣現,大量需要3D圖形運算的工具軟件和遊戲對於浮點運算的要求急劇升高,傳統的X86 CPU處理器並不擅長這類任務,於是誕生瞭更擅長浮點運算的GPU。在這類應用中,係統會把圖形渲染等任務offload到GPU上去。隨著神經網絡研究和應用的發展,GPU中的浮點運算能力在這些領域的應用逐漸發展起來,英偉達敏感地抓住瞭市場機會,將其GPU在保留傳統渲染能力的同時增加瞭對於通用計算和神經網絡運算的能力,並稱之為GPGPU。


英偉達的GPGPU是包含渲染以及神經網絡(“NN”)運算的。這種架構在同時需要兩個能力的應用上會有一定的優勢,但很顯然對於技術積纍要求也非常高。目前一些AI芯片初創公司所自稱的GPGPU架構是指沒有渲染的NN運算,而有一些聲稱做GPU的公司則是狹義的渲染GPU,二者都不是通常英偉達所指的GPGPU。英偉達由於有長年渲染GPU的技術積纍,同時基於先發優勢通過CUDA積纍瞭生態優勢,因此選擇瞭GPGPU路綫。但是,其他公司在這條路綫上與其正麵競爭是勝算很小的,即使國際知名公司(像英特爾和AMD)在GPGPU市場與其競爭都有相當的難度。


然而,沒有一個技術是完美的,由於GPGPU保留瞭大量神經網絡運算所不需要的單元,在單純的神經網絡運算上並不是最高效的,因此榖歌基於特定域架構(DSA)為自己的特定應用做瞭TPU。DSA架構給其他芯片公司帶來瞭希望,包括Intel、特斯拉等知名公司都開始在這條路綫上發力。


芯片設計是一個國際化的産業,知識産權在其中扮演著很重要的角色。渲染GPU由於發展曆史久遠,專利壁壘較高,即使與之相關的不帶渲染的GPGPU也容易踩雷。相反,DSA由於齣現較新,國際大企業和創業公司在知識産權上的差距並不大。選擇針對AI+視頻市場來做DSA架構的AI芯片,這對瀚博來說也是最明智的選擇,其研發團隊在視頻領域的經驗和對於大芯片的駕馭能力也得到瞭充分發揮。


•項目研發團隊是如何分工協作的?


瀚博SV100研發團隊成員主要來自AMD、Cisco、意法半導體、華為、高通和Microchip等公司,其核心團隊都有超過十年的開發協作經驗。具體來說,瀚博有架構/IP開發、芯片驗證、SoC實現、矽後驗證,以及軟件5大部門。


架構/IP團隊負責芯片的整體架構規劃以及核心IP的設計開發,某種程度來說架構和IP直接決定瞭一個産品的成敗;芯片驗證團隊負責IP以及SoC驗證,確保功能和性能符閤設計要求;SoC實現團隊基於架構設計,將各種IP集成到SoC,並且以盡量小的麵積和盡量低的功耗來實現最大的性能;矽後驗證團隊主要負責芯片的功能性能驗證,以及驗證闆和係統闆的開發,同時也負責芯片産品化的各個方麵;軟件團隊負責固件、驅動和編譯器等軟件方麵的開發,可以說硬件定義産品的“身體”,而軟件賦予産品的“靈魂”。


•國內AI芯片公司相比國際巨頭有什麼優勢和劣勢?


與大多數科技行業的企業一樣,國內AI芯片公司的最大優勢就是貼近市場和客戶,近水樓颱先得月。中國市場對於AI芯片的發展有如下幾個優勢:


1. AI應用本身就是一個新興市場,很多應用場景都是在摸索中成長的。國內企業在近20年的迅速發展中耳濡目染,對於新鮮事物的嘗試意願是很高的。


2. 中國近年的數字化基礎設施建設帶來的紅利,比如中國擁有世界上最大規模的寬帶及4G/5G通信網絡;中國的互聯網企業迅速成長為全球巨頭,這些都為AI應用創造瞭良好的發展土壤。


3. 中國很多傳統行業處在轉型期,比如中國的工業升級是天然建立在數字化前提上的,這給AI帶來瞭巨大的發展空間。


4. 國傢政策鼓勵芯片創業,新基建和“東數西算”等重大工程都為AI芯片公司提供瞭堅強的後盾。


國內AI芯片企業的劣勢在於技術和IP積纍不足,具體體現在:軟硬件生態、知識産權和人纔等方麵。


AI芯片價值鏈


自從上世紀50年代人工智能(AI)齣現以來,AI的發展已經取得瞭極大的進步,但真正的技術突破和AI應用爆發還是最近10年的事。從2012年開始,AI開發者開發齣復雜的機器學習(ML)算法,尤其是深度學習(DL)算法,藉助GPU及AI硬件來處理大量的數據集,處理效率和準確度都得到瞭極大提升。


根據麥肯锡的一份有關AI技術及半導體價值的報告,要實現高效而準確的AI訓練和推理,需要九層AI技術堆棧(見下圖),其中最底層的硬件加速器可以實現高能效的並行處理,涉及處理器、內存、儲存和網絡方麵的芯片。目前,執行AI加速的處理器仍然以GPU為主,雖然CPU、FPGA和ASIC也有各自特定的AI應用優勢。


九層AI技術堆棧,其中硬件加速器提供AI訓練和推理所需要的算力。(來源:McKinsey)


據麥肯锡研究報告預測,AI 芯片將是半導體産業在未來20 年內最佳的應用市場機遇。在其它科技領域,芯片通常隻占整個技術價值鏈10%的價值。但在AI領域,芯片將從整體人工智能的技術價值鏈中獲得40~50%的價值。AI芯片已經成為半導體增速最快的細分市場之一,預計到2025年全球AI芯片市場將達到100億美元的規模,現已成為國際芯片廠商、互聯網巨頭和初創公司爭相角逐的前沿陣地。


作為一個新興的半導體市場,AI芯片的産業鏈涉及多個價值節點,其中有一些是高性能處理器芯片所共用的,但也有AI芯片所獨有的價值鏈節點。從半導體産業的角度來看,AI芯片價值鏈包括風險投資(VC)、技術人纔(Talent)、芯片設計工具(EDA)、晶圓代工(Foundry),以及封裝測試(OSAT)。下麵我們將逐一闡述每個環節的價值。


•VC


從AI爆發中獲益最大的當數英偉達,其GPU至今仍是全世界絕大多數數據中心AI加速的首選。英特爾和並購賽靈思之後的AMD也都在加大數據中心AI訓練/推理及邊緣計算AI推理方麵的資源投入。作為雲端AI加速最大的應用場閤,雲計算平颱服務商都在開發和部署各自的AI芯片和AI加速器。Google基於特定域(DSA)架構的TPU已經發展到第四代,據稱其第五代TPU將能夠利用AI自動進行芯片布局設計。AWS自研的高性能機器學習推理AI芯片Inferentia也已經批量部署到AWS EC2中。


再看國內AI芯片市場,阿裏平頭哥於2019年發布的數據中心AI推理芯片含光800基於自研架構,采用12nm工藝,集成170億晶體管,性能峰值算力達820 TOPS,主要應用於阿裏雲服務平颱。從百度獨立齣來的昆侖芯科技開發的R係列昆侖芯2代芯片是第二代雲端通用AI推理處理器,基於Arm處理器平颱,采用XPU-R架構和7nm先進工藝,算力達到256 TOPS@INT8;128 TFLOPS@ XFP16/FP16。該芯片及加速卡已經在百度搜索引擎等廣告等業務平颱中部署超過2萬片。


除瞭半導體和互聯網巨頭外,風險投資也紛紛在AI芯片賽道布局。據統計,截止2022年1月,2021年國內AI芯片相關領域的融資共計92起,總金額約300億人民幣。下錶列齣瞭2021年國産AI芯片初創公司的融資情況。




2021年中國AI芯片公司VC投資情況。(來源:億歐智庫)


獲得融資的AI芯片公司超過25傢,其中多傢公司獲得多輪融資,比如專注於雲端AI推理芯片的瀚博半導體分彆在4月和12月完成A輪和B輪融資,纍積融資金額超過21億元;地平綫從1月到6月完成從C1輪到C7輪的融資,總額高達15億美元;昆侖芯融資金額20億元;燧原科技融資金額18億元;芯馳科技融資金額近10億元。


•技術人纔


工信部人纔交流中心發布的數據顯示,人工智能不同技術方嚮崗位的人纔供需比均低於0.4(人纔供需比=進入該崗位的人纔意嚮數量/崗位需求數量),其中AI芯片崗位人纔供需比為0.32;機器學習、自然語言處理等技術人纔供需僅0.2;而更為專業細分的智能語音、計算機視覺的人纔供需比低至0.09。



AI領域和半導體領域的人纔都比較短缺,而融閤AI和芯片設計的分支領域更是急缺技術和設計人纔。我們以“中國AI芯片第一股—寒武紀”為例,來看一下AI芯片設計公司都需要哪類技術人纔。


1.芯片類:芯片設計工程師、芯片驗證工程師、智能芯片(架構/設計)研究員、數字芯片設計工程師(DFT/綜閤/時序)、數字芯片設計工程師(邏輯設計/SOC設計)、芯片後端工程師、邏輯驗證工程師、ESL建模工程師、處理器開發工程師、前端CAD工程師、SRAM版圖工程師


2.硬件類:SPICE Model工程師、工藝工程師、固件開發工程師、芯片應用工程師、封裝設計工程師、自動化測試開發工程師、SIPI工程師


3.軟件類:分布式訓練研發工程師、深度學習圖編譯器工程師、AI平颱研發工程師、高性能機器視覺庫軟件開發工程師、AI高性能計算庫研發工程師、AI應用工程師、工程效率研發工程師、編譯器研發工程師、計算機視覺軟件工程師、虛擬化研發工程師、軟件測試開發工程師、係統軟件開發工程師、深度學習框架研發工程師、性能優化工程師


4.算法類:高性能深度學習庫開發工程師、媒體算法工程師、深度學習算法研究員、AI/算法技術研究員(博士後)


5.智能駕駛類:芯片、軟件和算法方麵的工程師。


國內AI芯片設計初創公司的創始團隊大都擁有英偉達、AMD和英特爾等全球高性能處理芯片巨頭的工作經曆,而一傢融資過億元的AI芯片公司的錢主要就是花費在技術研發人纔的工資和福利待遇上,雖然芯片流片也花費不菲。經常有媒體報道芯片設計工程師的工資高達百萬元,就連剛齣校門的畢業生工資都達到40多萬。這麼高的工資待遇是不正常的,但市場供需就是這樣也不得不接受。


國內大學開始設立集成電路學院和學科,但從頭培養需要時間,有經驗的研發工程師更需要實際設計的實踐纔行。芯片設計公司融資難,但拿到錢後招人更難。國內AI芯片公司去颱灣、美國和歐洲招人,去國際芯片公司挖人,以及相互之間挖牆腳,自然也就不足為怪瞭。


•EDA


芯片的前端設計、驗證和仿真,以及後端的工藝設計,都離不開EDA工具。據Global Industry Analysts(GIA)最新發布的EDA工具報告統計預測,全球EDA工具市場規模2020年約有91億美元,2021年約為99億美元,預計到2026年將增長到149億美元,從2020到2026的年復閤增長率(CAGR)為8.7%。2021年,美國市場約有18億美元,占全球EDA市場的19.5%。中國市場的增長率為9.8%,預計到2026年將達到28億美元。


多年來,全球EDA市場一直被EDA三巨頭所統治,中國市場也不例外。EDA可謂是半導體這個皇冠上的明珠,隻有100億美元規模的EDA卻驅動著5000億美元規模的全球半導體産業。鑒於其高度集中的技術和智力含量,以及其重要的“咽喉要塞”地位,EDA也成瞭美國限製中國先進半導體發展的“卡脖子”武器。


半導體業界人士都知道EDA全流程的重要性,但國內EDA公司很少能夠覆蓋設計和驗證全流程,大部分還是在“點工具”上突破,然後再往外拓展。像華大九天、概倫電子、國微思爾芯,以及芯和半導體等國産EDA廠商都在各自擅長的EDA流程上深耕多年,同時開始藉助資本市場融資或上市,以便為快速增長和長遠發展奠定堅實的基礎。


最近幾年有50多傢本土EDA初創公司進入市場,我們以“閤見工軟”為例來看一下國産EDA的技術水平、解決棘手問題的能力及未來發展潛力。2021年3月投入運營的閤見工軟由武嶽峰資本創始人潘建嶽擔任董事長,原Cadence 副總裁、中國及東南亞區總經理徐昀和原Synopsys Fellow、研發副總裁郭立阜擔任聯席總裁,員工超過400人。閤見工軟擁有強大的投資人團隊,除瞭武嶽峰科創、國傢集成電路産業投資基金(“國傢大基金”)、紅杉資本、中國互聯網投資基金外,閤見工軟的股東還包括聯發科、韋爾股份、聞泰科技、瀾起科技、瑞芯微、卓勝微、中興通訊、華勤通訊等領先的芯片設計公司及其關聯基金。到目前為止,閤見工軟融資近20億元。


AI芯片大都采用先進工藝節點(16nm以下至5nm,甚至3nm)。隨著芯片規模、集成度及設計復雜度的大幅提升,芯片設計、封裝設計到係統設計的各個環節都對EDA工具提齣瞭更高的要求。因此,先進的EDA解決方案是確保並加速AI芯片成功實現的強大支撐。閤見工軟著眼於數字驗證全流程覆蓋和係統級電子設計的EDA解決方案布局,已經陸續發布和規劃瞭多款EDA産品以滿足AI芯片的開發需求,其中包含原型驗證係統、數字仿真器、驗證效率提升平颱、協同設計環境,以及設計數據管理平颱等。


  • 原型驗證係統是AI芯片數字驗證必不可少的EDA工具。閤見工軟的原型驗證係統除瞭具備超大容量、高性能和縮短芯片開發周期等特點,還可以支持不同場景下不同硬件平颱的自由切換,可以執行應用軟件驅動的係統級驗證、性能和調試並重的軟硬件係統驗證、仿真加速、虛擬原型、混閤仿真驗證等任務。已經發布的UVAPS-VU19P還提供瞭豐富的接口子卡,以適配各種接口驗證,提供充足的互聯通道;同時,它還能夠配閤深度調試方案,縮短測試周期,加快AI芯片上市。該産品采用Xilinx VU19P FPGA,適用於大規模ASIC原型驗證及SoC開發,容量高達46億門,可靈活堆疊,以滿足超大規模原型驗證需求。



  • 數字仿真器是數字驗證解決方案的核心引擎。閤見工軟已發布的數字仿真器産品(UVS)利用業界領先的編譯及運行性能提升技術,可為客戶設計提供可靠的數字驗證運行環境。該産品支持業界標準的Verilog、System Verilog以及UVM驗證方法,且支持通過DPI進行混閤協同仿真。為便於産品快速升級迭代,該仿真器基於組件式設計,支持用戶需求定製化,也可以分布式實施與雲部署。此外,UVS采用處理器架構原生目標代碼生成方式和高性能約束求解引擎等先進技術,可將仿真容量提升到數億門級的設計規模。


  • 閤見工軟正在逐步建立完善的數字驗證生態體係,其中“驗證效率提升平颱”是一套完整的方法學、工具與解決方案的有機集成,可幫助AI芯片設計公司有效縮短産品開發周期。該平颱可幫助用戶精確對齊項目實施需求,從初期的驗證計劃製定、對所有驗證任務的整體規劃,到計算資源的高效分配與管理,再到對項目進度及覆蓋率目標的精確追蹤管理,並最終提供直觀有效的分析報告,實現對驗證計劃的閉環迭代,進而從不同維度提升整體驗證效率。另外,在驗證過程中還可以對問題進行快速定位,這也是保證驗證效率的必備組件。



  • 眾所周知,AI芯片大都采用先進封裝技術。先進封裝設計與傳統封裝設計存在較大差異,除電磁場、熱、應力等問題以外,使用傳統設計工具或方法無法應對協同設計上的挑戰。閤見工軟針對這一痛點發布的協同設計環境(UVI)采用瞭業界首創的係統級網絡連接檢查技術,可在同一設計環境中導入各種格式的IC、Interposer、Package和PCB數據,並支持設計數據的靈活操作。UVI能夠基於物理、圖形和數據等信息,根據不同應用需求,自動産生係統級互連關係網錶、互連錯誤信息、網絡斷開類型及互連疊層信息等關鍵報告。此外,UVI在處理大規模互連管腳數據時非常迅速,無論是命名一緻性檢查、鏈路通斷檢查還是管腳缺失互連檢查,對於100萬Pin的規模都可以在8秒內完成,並且可以支持一對多Pin的基於麵積算法的互連檢查。開發人員利用UVI工具可以簡化設計流程、提升工作效率、提高設計質量、精準定位設計錯誤,並覆蓋所有節點和網絡的檢查。



除瞭閤見工軟外,很多國産EDA公司的産品也都獲得瞭市場認可和客戶驗證,比如杭州行芯的Signoff工具鏈,鴻芯微納的布局布綫工具軟件。EDA這一利基市場的本土廠商將對中國半導體産業的長遠發展創造巨大價值。


•IP/Chiplet


現在的高性能AI芯片大都是采用異構集成、芯粒(Chiplet)和先進封裝的係統級芯片。除瞭微處理器內核、GPU、高速網絡互聯NiC和eFPGA等高性能IP外,AI芯片設計越來越多開始集成類似樂高積木的Chiplet。英特爾、AMD、TSMC、三星、Arm等最近聯閤發布統一的Chiplet接口標準Universal Chiplet Interconnect Express (UCIe)。


UCIe是一種開放的行業標準互連,可在芯粒(Chiplet)之間提供高帶寬、低延遲、高能效且具有成本效益的封裝連接,它解決瞭跨越雲端、邊緣、企業、5G、汽車、高性能計算和移動設備的整個計算領域對計算、內存、存儲和連接的增長需求。UCIe 可支持來自不同廠傢芯片的集成,包括不同的晶圓廠、不同的設計和不同的封裝技術。



芯粒的封裝集成能夠以快速且經濟高效的方式提供定製解決方案。例如,不同的應用可能需要不同的算力,但卻采用相同的內核、內存和I/O,如上圖所示。芯粒技術還可以根據功能需求選擇最適閤的芯粒進行封裝,比如內存、邏輯、模擬和一起封裝的光學器件都需要不同的工藝,這些不同工藝的芯粒可以封裝在一起。由於封裝走綫較短並可以提供密集布綫,高帶寬存儲器(HBM)訪問等應用就可以實現封裝集成。


Chiplet對於AI芯片的發展會有積極的影響,主要體現在以下幾個方麵:


1.工藝選擇靈活性


Chiplet封裝模式的最大優勢之一就是在一個係統裏可以集成多個工藝節點的芯片,因此可以支持AI芯片的快速開發,並降低設計實現成本。在目前的單芯片設計模式下,係統隻能在一個工藝節點上實現。而對於很多功能來說,使用成本高、風險大的最新工藝即沒有必要又非常睏難,比如一些專用加速功能和模擬設計。采用Chiplet模式,AI芯片開發商在做整體係統設計的時候則有瞭更多的選擇。對於追求性能極緻的功能模塊,比如高性能CPU,可以使用最新工藝。而其它特殊的功能模塊,比如存儲器、模擬接口和一些專用加速器,則可以按照需求選擇性價比最高的方案。


Chiplet對於AI芯片初創公司的快速發展尤其有利。AI加速本身就是一個DSA(專用域架構),其架構本身就是專門為特定運算定製的,具有很高的效率,即使選擇差一兩代的工藝也可以滿足很多應用場景的要求。但目前大多初創公司都麵臨工藝選擇的睏境,如果選擇先進工藝,可能一次投片就需要數韆萬元。如果不選最新工藝,好像就輸在瞭起跑綫上。如果Chiplet模式可行,工藝選擇就會更加理性,工藝雖不是最新但性價比最好的Chiplet會讓所開發的AI芯片更有競爭力。


2.架構設計靈活性


以Chiplet構成的係統可以說是一個“超級”異構係統,可以為傳統異構集成SoC增加新的維度,至少包括空間維度和工藝選擇的維度。首先,先進的集成技術在3D空間的擴展可以極大提高芯片規模,這對AI算力的擴展和成本的降低有很大好處。第二,結閤工藝靈活性,可以在架構設計上有更閤理的功能/工藝權衡,有利於AI SoC或者AIoT芯片更好的適應特定應用場景的需求。第三,係統的架構設計,特彆是功能模塊間的互聯,有更多優化的空間。在當前的AI芯片架構中,數據流動是主要瓶頸。雖然HBM可以在一定程度上解決處理器和DRAM之間的數據流動問題,但價格過於昂貴。對於雲端AI加速,Host CPU和AI加速芯片之間,以及多片加速芯片之間的互聯,目前主要通過PCIe、NvLink或者直接用SerDes等。如果采用Chiplet方式,則是裸片之間的互聯,帶寬、延時和功耗都會有很大的改善。最後,目前的片上網絡NoC是在一個矽片(2D)上的,而未來的NoC則可以擴展到矽片之間,特彆是和Active Interposer結閤,就可能構成一個3D網絡,其路由、拓撲及QoS都可以有更大優化空間。


3.商業模式靈活性


在傳統的IP供應商和芯片開發商之外,Chiplet提供瞭一個新的選擇。對於目前的AI芯片廠商來說,要麼聚焦在AI加速部分,以IP形式或者外接硬件加速芯片的形式提供産品,要麼走垂直領域,做集成AI加速功能的SoC。對於前者來說,Chiplet可以提供一個新的産品形式,增加潛在的市場應用,或者拉長一代産品(工藝)的生命周期。對後者來說,可以直接集成閤適的AI chiplet而不是IP,從而大大節省項目開發的時間。因此,可以預見,AI Chiplet會成為AI硬件復用和集成的重要形式。


采用芯片設計平颱即服務(Silicon Platform as a Service, SiPaaS)模式的芯原微電子提齣芯粒平颱服務(Chiplet as a Platform)的理念,從實現IP芯粒化 (IP as a Chiplet)進一步提升至實現芯粒平颱化 (Chiplet as a Platform),將為客戶提供更加完備的基於Chiplet的平颱化芯片定製解決方案。該公司去年開發的高端應用處理器平颱采用Chiplet架構設計,從定義到流片返迴僅用瞭12個月的時間。此外,這個高端應用處理器平颱還集成瞭芯原的很多IP,包括神經網絡處理器NPU、圖像信號處理器ISP、視頻處理器VPU、音頻數字信號處理器和顯示控製器等。芯原計劃今年在其高端應用處理器平颱的基礎上,進一步推進Chiplet技術和項目的産業化,主要麵嚮手機、平闆電腦、筆記本電腦等應用,同時還適用於自動駕駛應用。


在微處理器內核IP方麵,AI芯片大都采用高性能的Arm Cortex A係列處理器內核,最近兩年基於RSIC-V內核的AI芯片設計也開始多起來(特彆是邊緣AI)。針對中國市場和客戶,安謀科技除瞭繼續提供Arm微處理器係列IP外,還自主研發推齣瞭XPU係列智能數據流計算平颱,包括“周易”NPU、“星辰”CPU、“山海”SPU以及“玲瓏”ISP和VPU處理器産品綫。安謀科技董事長兼總經理吳雄昂錶示,該公司將采用兼容Arm架構CPU +自研架構XPU的‘雙輪驅動’戰略,繼續在自研架構智能數據流處理器和自主高性能處理器上充分發力,在智能汽車、邊緣計算、數據中心、智能物聯網、移動設備等各個領域全麵支持中國半導體和科技産業的未來發展。這些應用領域都跟AI息息相關,自然AI芯片的設計也離不開XPU係列IP。


•晶圓代工(Foundry)和封裝測試(ATP)


AI芯片大都采用16nm或更為先進的晶圓工藝。2021年有多傢國産AI芯片公司發布瞭采用7nm工藝的AI芯片,其中包括:昆侖芯2、寒武紀思元290、天數智芯GPGPU芯片BI、芯擎科技“龍鷹一號”智能座艙芯片SE1000,以及瀚博半導體SV102等。7nm工藝芯片的流片成本高達數億元,而芯片能否量産及未來應用前景尚不明確,為什麼這些AI芯片初創公司仍趨之若鶩呢?難道隻是拿著投資人的錢玩競跑遊戲嗎?


美國喬治城大學發布的一份AI芯片研究報告對采用不同工藝節點的AI芯片進行瞭經濟效益分析,通過量化模型揭示齣先進工藝芯片相比舊的工藝節點的性能、效率和成本收益。


具有5nm芯片相對數量晶體管的不同工藝節點芯片的成本對比。(來源:CSET at Georgetown University)


該分析模型基於這樣的假設:一顆跟英偉達16nm Tesla P100 GPU裸片尺寸類似的服務器級彆5nm芯片包含約907億個晶體管(P100裸片麵積為610平方毫米,集成瞭150億個晶體管)。假如從7nm往前直到90nm工藝節點的芯片都包含跟5nm芯片同樣的晶體管數量,每個工藝節點的芯片在設計、晶圓代工、封裝測試和工作運行階段的不同成本有什麼差彆呢?


1.晶圓代工廠給IC設計公司的價格(摺閤到每顆裸片):5nm為238美元;7nm為233美元;16/12nm為311美元


2.IC設計公司的設計成本(假設芯片齣貨量為500萬顆):5nm為108美元;7nm為110美元;16/12nm為136美元


3.裝配、測試和封裝成本(摺閤到每顆芯片):5nm為80美元;7nm為78美元;16/12nm為92美元


4.總生産成本(摺閤到每顆芯片):5nm為426美元;7nm為421美元;16/12nm為487美元


5.每年運營能耗成本(摺閤到每顆芯片):5nm為194美元;7nm為242美元;16/12nm為404美元


研究人員從該成本分析模型得齣兩個結論:第一,在正常運營兩年內,先進工藝(7/5nm)芯片的能耗成本就超過瞭其生産成本,采用舊工藝的芯片(10nm及以上)能耗成本增長更快。若綜閤考慮生産成本和運營成本,先進工藝芯片的成本效益是舊工藝芯片的33倍。


第二,對比7nm和5nm芯片,當正常運營使用8.8年時,二者的成本相當。這意味著,如果在8.8年以內更換芯片,7nm更劃算。鑒於數據中心AI訓練和推理所用的AI加速器大都是3年更換一次,單從成本效益來看7nm芯片比5nm更劃算。


以上分析也許適用於麵嚮數據中心AI訓練和推理的高性能AI芯片,但對麵嚮邊緣計算和終端設備的AI芯片來說,未必閤適。針對高性能計算和雲端AI的國産AI芯片設計公司為數不多,大部分AI芯片公司都是麵嚮邊緣和終端應用市場,尤其是AIoT和智能安防應用場景。


45傢AI芯片廠商詳細信息


下麵我們將從核心技術、代錶産品、典型應用場景和競爭優勢等方麵對這45傢公司逐一分析。



瀚博半導體

核心技術:高性能通用AI處理架構

代錶産品:SV100係列AI推理芯片、VA係列通用AI推理加速卡

應用場景:計算機視覺、智能視頻處理應用、自然語言處理、雲端和邊緣計算應用

競爭優勢:引入阿裏巴巴和快手兩傢戰略投資,在雲端和邊緣AI推理和視頻處理方麵已經落地。目前擁有超過400人的研發團隊。


燧原科技

核心技術:麵嚮數據中心的雲端AI訓練和推理計算芯片、原始創新的“馭算”計算及編程平颱

代錶産品:邃思2.0雲端AI訓練芯片、邃思2.5雲端AI推理芯片、雲燧T20 AI訓練加速卡、雲燧T21 AI訓練加速模組、雲燧i20雲端推理加速卡

應用場景:麵嚮數據中心的高性能雲端訓練和雲端推理,針對泛互聯網、傳統行業如金融,交通,能源,醫療,以及智慧城市新基建等三大業務方嚮和應用場景。

競爭優勢:2021年1月獲18億人民幣C輪融資,國內首傢同時擁有第二代高性能雲端訓練和雲端推理産品綫的公司。


靈汐科技

核心技術:類腦芯片領啓® KA200采用異構融閤、眾核並行、存算一體的架構技術,支持計算機科學和神經科學的神經網絡模型,並支持兩者融閤的混閤神經網絡計算模型。

代錶産品:類腦芯片領啓® KA200、基於 KA200的類腦計算闆卡和服務器、軟件工具鏈和係統軟件。

應用場景:腦科學及腦仿真領域、拓展新的人工智能應用市場。

競爭優勢:集成30個類腦計算核,各核可獨立運行,支持矢量圖計算。大規模片上分布式存儲,計算存儲融閤,高帶寬,算傳並行。支持深度學習模型(DNN)、類腦計算模型(SNN)以及二者融閤的異構模型,融閤計算機科學的高精度和類腦計算的高能效優點。采用眾核預編譯模式,支持數據驅動的眾核控製模式和自動化物理映射,支持條件跳轉、分支閤並、事件觸發等流水調度模式。


墨芯

核心技術:雙稀疏算法技術

代錶産品:ANTOUM英騰處理器及疏雲AI計算卡

應用場景:加速計算機視覺、自然語言處理、智能推薦、語音識彆與閤成、知識圖譜等諸多雲端推理場景。

競爭優勢:ANTOUM可以支持高達32X稀疏率。相比於目前的行業旗艦産品,英騰處理器(ANTOUM)能效比提高瞭1個數量級,單卡算力提高瞭5-10倍。同時它支持目前市場主流的開發框架及廣泛的AI算子庫和模型,可編譯通過的神經網絡模型超200個。


時擎科技

核心技術:RISC-V端側智能處理器Timesformer

代錶産品:AT1611端側智能處理芯片

應用場景:全嚮麥剋風,如會議寶、拾音器;語音對講,如無綫門鈴、對講機;語音識彆和控製等。

競爭優勢:時擎科技AT1611端側智能處理芯片是一款全部基於RISC-V指令集的人工智能語音芯片,基於自研創新的TIMESFORMER智能計算架構和DSA處理器,從落地場景齣發進行芯片架構層麵的定製與優化,具有待機功耗低(約10uA)、喚醒時間短 (百ms級彆)的特點,芯片能效比、性價比突齣,能以接近MCU的成本、功耗完成應用處理器級彆的應用性能。


深聰智能

核心技術:人工智能語音專用芯片

代錶産品:“算法+芯片”一體化解決方案。其中,太行一代芯片TH1520 是公司第一代人工智能語音芯片産品,高性能、全鏈路語音算法以及低功耗的優勢,可滿足各種IOT産品多設備協同的場景需求。

應用場景:智能傢居,智能車載,智能辦公等。主要客戶包括美的,海信,小米,鬆下,海爾,華為盯盯拍,雅迪集團等。

競爭優勢:軟硬一體化,即“算法+芯片”軟硬融閤解決方案。


埃瓦科技

核心技術:3D視覺技術、AI芯片

代錶産品:追螢3D AI芯片、3D人臉識彆模組、深度相機

應用場景:機器人、掃地機、3D人臉識彆門鎖、刷臉支付、AR/VR等

競爭優勢:自主研發3D+AI融閤芯片,為客戶提供高性價比的3D人臉識彆和3D機器視覺解決方案。


沐曦集成電路

核心技術:高性能通用計算GPU芯片架構

主要産品:高性能GPU芯片及解決方案

關鍵應用:AI訓練、AI 推理、數據中心、科學計算、雲遊戲和元宇宙等多個前沿領域

競爭力:沐曦擁有頂配全建製團隊,豐富GPU量産經驗,完整軟件生態能力和大量自主創新專利等四大核心競爭優勢。


銳思智芯

核心技術:融閤傳統CIS和仿生傳感器的Hybrid Vision技術

主要産品:機器視覺傳感芯片ALPIX

目標市場:汽車、機器人、AR/VR、工業監測、消費電子等。


深思創芯

核心技術:神經元狀態共享技術、多模態感知和神經擬態計算、智能無綫技術

代錶産品:神經擬態芯片DeepBrain SS3301、深度學習芯片Abacus Vi SS6500F、AI Analog係列芯片

應用場景:圖像識彆、智能控製、機器人等領域

競爭優勢:該公司在計算機視覺、智能無綫以及神經形態芯片等多個領域均有完備的技術積纍和成熟的定製方案。


韆芯科技

核心技術:可重構存算一體計算技術

代錶産品:存算一體AI芯片、AI計算IP核、CloudCard AI 推斷/訓練計算卡、EdgeCard邊緣AI計算闆卡

應用場景:自然語言處理、醫藥計算、工業視覺、自動駕駛、智慧城市等

競爭優勢:韆芯科技通過自研存算一體技術,可提供能效比超過10-100TOPS/W,優於其他類型AI芯片10-40倍的算力支持。


芯擎科技

核心技術:智能座艙核心自研技術

代錶産品:“龍鷹一號”智能座艙芯片SE1000

應用場景:智能駕駛、智能座艙

競爭優勢:吉利汽車和一汽戰略投資,從智能座艙芯片切入智能駕駛市場,産品綫將覆蓋智能汽車應用全場景,包括“智能座艙芯片、自動駕駛芯片、車載中央處理器芯片”三條産品綫。


芯馳科技

核心技術:智能駕駛、域控製器網關和微處理器

代錶産品:智能座艙芯片X9;域控製器網關芯片G9;自動駕駛芯片V9;車規級MCU E3

應用場景:智能駕駛、汽車電子

競爭優勢:産品覆蓋智能座艙、自動駕駛、網關和MCU,涵蓋瞭未來汽車電子電氣架構最核心的芯片類彆。獲得ISO 26262功能安全流程認證、AEC-Q100可靠性認證、ISO26262功能安全産品認證以及國密認證。


後摩智能

核心技術:SRAM-CIM技術

代錶産品:存算一體大算力AI芯片

應用場景:智能駕駛、泛機器人、無人車等邊緣AI應用場景

競爭優勢:與傳統馮·諾依曼架構下的大算力芯片相比,後摩智能的存算一體芯片在算力、能效比和成本等方麵,都能體現齣顯著的優勢。該公司最近又完成數億人民幣Pre-A+輪融資。


物奇微

核心技術:人臉識彆和3D深度成像技術

代錶産品:AI能效管理SoC芯片、3D人臉識彆SoC芯片

應用場景:可穿戴設備、智能安防終端應用

競爭優勢:融閤有綫和無綫通信技術,麵嚮物聯網和智能終端産品。


中星微

核心技術:邊緣多維智能協同感知技術

代錶産品:星光智能一號VC0718、星光智能二號VC0718P、星光智能三號VC0768

應用場景:智能安防攝像機、機器視覺AIOT應用

競爭優勢:主導開發公共安全SVAC國傢標準,針對邊緣智能的協同感知機器視覺編解碼標準,參與星光中國芯工程及一係列智能安防視頻應用方案。


聆思智能

核心技術:MCU+DSP+NPU的多核異構芯片架構、BT+BLE+WIFI三閤一無綫通訊單元設計、多級感知音頻處理專用芯片電路設計

代錶産品:CSK係列芯片 已推齣CSK3000、CSK4000兩款芯片;CSK6000係列芯片將於今年Q2正式發售

應用場景:圍繞傢電傢居、辦公教育、車載等多領域定製化研發配套算法庫,打造軟硬一體解決方案。目前已有空調、冰箱、掃描筆、會議寶、頭盔、車載等數十種解決方案。

競爭優勢:軟硬協同的智能算法庫設計,與行業領先的科大訊飛深度閤作,實現“芯片+算法”集成優化,為芯片提供配套的智能算法庫。


愛芯元智

核心技術:混和精度NPU、AI-ISP

代錶産品:AX630A、AX620A。其中AX620A 是一款高算力、高能效比、低功耗的AI SoC芯片,集成瞭四核Cortex A7 CPU,14.4TOPs@INT4 或3.6TOPs@INT8 的高算力NPU,支持4K@30fps的ISP,以及支持H.264、H.265編碼的VPU。

應用場景:智慧城市、智能傢居等領域,尤其在智能網絡攝像機、智能工業相機、門禁設備、運動相機、快速喚醒類産品範疇

競爭優勢:擁有混和精度NPU和AI-ISP兩大自研核心技術,具備高算力、高能效比的技術特點,可有效提高芯片産品的能效比,獲得更優的畫質效果。


九天睿芯

核心技術:模擬預處理與模數混閤信號存內計算技術

代錶産品:ADA200 是基於感存算一體芯片架構的多傳感器芯片融閤處理芯片,可在超低功耗下(低於1mW)下進行聲音、視覺,以及其他時序信號類傳感器的融閤處理,可廣泛應用於智能手機,可穿戴,智能傢居,工業,醫療等一係列對低功耗、高能效比有需求的應用場景。

應用場景:工業領域 -- AON 喚醒下的聲音異常觸發;安防領域 -- AON 下的人形檢測觸發;消費類領域 -- 個人設備(手機,手錶)的人臉喚醒,圖像識彆;XR眼動追蹤,視覺辨識;機器人、自動駕駛領域:視覺輔助係統。

競爭優勢:九天睿芯自主創新的“感存算一體”芯片架構是由ASP(模擬特徵預處理)+ADA(基於6T SRAM 的模數混閤信號存內計算)兩部分組成。ASP類似DSP(數字信號處理)模擬版本,可以在模擬信號端直接進行信號的特徵分析和提取;這樣可以在ADC 之前,有效提取有效信號,去除掉冗餘信號;大大降低ADC 的工作負載,從而實現低功耗,高效率的計算工作。ADA基於6T SRAM 的模數混閤信號存內計算AI 加速器,可實現超高能效比。


時識科技

核心技術:事件驅動的神經形態動態視覺處理、基於脈衝神經網絡(SNN)的低功耗語音信號處理、身體信號實時檢測處理,橫跨類腦感知與計算

代錶産品:SynSense時識科技“感算一體”動態視覺智能SoC—Speck,以單SoC芯片集成獨有的DYNAP-CNN動態視覺專用處理器+DVS傳感器陣列,基於類腦感知及計算、純異步數字電路設計,對像素級大規模動態數據流實時處理,為針對設備端應用的亞毫瓦級、實時視覺邊緣運算解決方案。

應用場景:針對端側感知及計算,適用於手勢控製、行為檢測、跌倒檢測、高速避障等場景,主要可應用於智能傢居、智能玩具、智慧交通、智能座艙、無人機等領域。

競爭優勢:SynSense時識科技仿生類腦智能,實現架構與算法的雙重突破,視覺、語音類産品矩陣基於仿生神經網絡優勢,將響應延遲降低10-100倍,功耗降低100-1000倍,成本降低10倍。


清微智能

核心技術:可重構計算(CGRA)

代錶産品:TX510麵嚮邊緣計算的超低功耗視覺處理芯片,以可重構計算架構實現高性能計算,低功率消耗,能效比達國際知名企業同類芯片的3-5倍,靈活支持多種目標識彆、人臉識彆、3D視覺等算法,支持豐富的擴展應用(在一些垂直領域,市場占有率達到60%以上)。

應用場景:智能安防、智能傢居、機器人、航空航天等。

競爭優勢:清微智能的可重構智能芯片是基於可重構數據流/控製流計算架構的AI芯片類型,具有按需即時重構、高能效、低功耗、通用性特點,可重構計算是後摩爾時代的顛覆性技術之一,清微是第一傢將該技術大規模商用的公司。


華夏芯

核心技術:Unity 指令集架構

代錶産品:GPTX1/GPTX2 CPU內核IP、GP3600 DSP芯片、GP8300 AI處理器

應用場景:嵌入式應用、輔助駕駛(ADAS)、智能監控、機器人、邊緣計算等應用。

競爭優勢:多核異構計算處理器IP。


平頭哥

核心技術:自研NPU架構

代錶産品:含光800 AI芯片

應用場景:阿裏雲平颱、電商智能搜索

競爭優勢:依托阿裏平颱,為阿裏雲提供AI計算能力。


昆侖芯科技

核心技術:自研XPU-R架構

代錶産品:昆侖芯1代和2代芯片、K100/K200 AI加速卡、R200 AI加速卡、R480 -X8 AI加速器組

應用場景:互聯網、智慧城市、智算中心、智慧工業、智慧應急、智慧交通、智慧金融等“智慧+”産業。

競爭優勢:大規模落地驗證、工程化經驗積纍;深刻的場景理解、全方位的産品視角;穩定的核心團隊、全麵的技術沉澱;自研核心架構、頂尖互聯網公司軟件棧水準。


華為海思

核心技術:自研華為達芬奇架構NPU、3D Cube技術;

代錶産品:昇騰(Ascend)310是一款高能效、靈活可編程的人工智能處理器,在典型配置下可以輸齣16TOPS@INT8、8TOPS@FP16,功耗僅為8W。昇騰310采用華為自研達芬奇架構NPU,以高性能3D Cube計算引擎為基礎,大幅提高單位功耗下的AI算力。全AI業務流程加速,大幅提高AI全係統的性能,有效降低部署成本。

昇騰(Ascend)910是海思係列中算力最強的AI處理器,基於自研華為達芬奇架構3D Cube技術,實現最佳AI性能與能效平衡,架構靈活伸縮,支持雲邊端全棧全場景應用。在算力方麵,昇騰910在八位整數精度(INT8)下的算力達到640 TOPS,16位浮點數(FP16)下的算力達到320 TFLOPS,最大功耗僅為310W。

應用場景:海思以全場景AI芯片昇騰係列助力AI從中心側嚮邊緣側延伸,麵嚮數字中心、邊緣、消費終端和IoT場景,可為平安城市、自動駕駛、雲業務和IT智能、智能製造、機器人等應用場景提供完整的AI解決方案。


紫光展銳

核心技術:異構雙核NPU架構、自研API

代錶産品:虎賁T710采用異構雙核NPU架構,支持業界主流AI訓練框架,自研API可提高算法效率。性能:4 x A75 @ 2.0GHz + 4 x A55 @ 1.8GHz;影像:4800萬(4in1)攝像頭、4K@30fps編解碼、超級夜景、防抖等功能。

應用場景:適用工業、商業、醫療、傢居、教育等場景。


地平綫

核心技術:人工智能專用計算架構 BPU

代錶産品:車規級AI芯片徵程2/3/5;AIoT邊緣AI芯片平颱旭日2/3。

應用場景:汽車ADAS/自動駕駛、AIoT邊緣計算。地平綫自主研發兼具極緻效能與高效靈活的邊緣人工智能芯片及解決方案,可麵嚮智能駕駛以及更廣泛的智能物聯網領域,提供包括邊緣 AI 芯片、豐富算法 IP、開放工具鏈等在內的全方位賦能服務。

競爭優勢:中國唯一實現車規級AI芯片前裝量産的企業。地平綫第三代車規級産品徵程5是遵循ISO 26262 功能安全認證流程開發,並通過ASIL-B 認證的車規級AI芯片;徵程係列AI芯片齣貨量已經超過百萬,與眾多主機廠實現前裝量産閤作。


寒武紀

核心技術:智能處理器架構MLUarch03和MLUv02架構、Cambricon NeuWare、推理加速引擎 MagicMind

代錶産品:思元290/270/370/220係列AI芯片;終端智能處理器IP、雲端智能芯片及加速卡、邊緣智能芯片及加速卡以及基礎係統軟件平颱。

應用場景:通用型雲端訓練和邊緣/終端推理AI方案。

競爭優勢:AI核心技術和人纔團隊優勢;同時為雲端、邊緣端、終端提供全品類係列化智能芯片和處理器産品的能力。


比特大陸

核心技術:自主研發TPU架構

代錶産品:智算邊緣AI芯片BM1682和BM1684,終端AI視覺處理器;智算卡和服務器

應用場景:視頻分析、機器視覺、高性能計算環境

競爭優勢:硬件和軟件生態。


雲天勵飛

核心技術:算法+芯片+大數據,構建全棧AI

代錶産品:DeepEye 2000、DeepEdge 10/50/100

應用場景:智能安防、新商業、智慧交通、智能製造、智慧倉儲、智能傢居、機器人、智能超算等多個行業及領域應用。


全誌科技

核心技術:高清音視頻編解碼技術、高清數字電視信號解調技術

代錶産品:V535是全誌科技研發的新一代智能行車專用處理器,是集圖像視頻處理和AI視覺於一體的高性能、高集成度、高穩定性的工業級芯片;V535針對客戶需求實現多項突破性創新設計及優化,可在多路圖像實時編解碼同時具備AI(如:車、人)檢測識彆等功能。

應用場景:智能行車記錄和駕駛行為檢測類産品,包括車載全盲區AI監測預警儀、駕駛員行為檢測儀等。


瑞芯微

核心技術:應用處理器技術

代錶産品:RK3588是瑞芯微新一代旗艦級高端處理器,具有高算力、低功耗、超強多媒體、豐富數據接口等特點。搭載四核A76+四核A55的八核CPU和ARM G610MP4 GPU,內置6 TOPs算力的NPU。其它産品還包括智能應用處理器芯片、智能物聯應用處理器芯片、電源管理芯片等。

應用場景:平闆/筆記本、智能物聯硬件、AIoT行業類應用。


鯤雲科技

核心技術:自主研發推齣定製數據流CAISA架構和編譯工具鏈RainBuilder

代錶産品:數據流AI芯片CAISA搭載瞭四個CAISA 3.0引擎,峰值性能可達 10.9TOPs,具有超過1.6萬個MAC(乘纍加)單元以及所有輔助邏輯。為支持較高的硬件資源利用率,同時設計瞭分布式數據流緩存,為每個CAISA引擎提供超過340Gbps的帶寬,可實現最高95.4%的芯片利用率;CAISA引擎本身基於對常用神經網絡模型的計算量統計進行優化,其不僅為常見的神經網絡計算(如Pooling,ReLU等)實現瞭專用的硬件計算模塊,且與捲積計算的比例經過平衡,可在常用AI算法中實現最佳性能,滿足不斷增長的邊緣側和IDC算力需求,為客戶提供更高的算力性價比。

應用場景:基於CAISA芯片,鯤雲科技推齣麵嚮邊緣端、數據中心進行深度學習推斷的AI專用計算加速的星空加速卡X3,定位於高性能AI推斷加速,星空加速卡兼容TensorFlow、PyTorch、Caffe、ONNX(MXNet) 等主流框架,可簡單快速實現AI算法模型到硬件上的無縫遷移,充分體現其高算力性價比、高通用性和高軟件易用性。目前星空加速卡X3已應用於航空航天、智慧城市、安防、安全生産、電力、工業等領域。


依圖科技

核心技術:計算機視覺技術、語音識彆技術、自然語言理解技術

代錶産品:求索AI芯片,以及基於求索芯片的原石係列服務器、前沿係列邊緣計算設備。

應用場景:人臉識彆、語音識彆、醫療等。

競爭優勢:以人工智能芯片技術和算法技術為核心,研發及銷售包含人工智能算力硬件和軟件在內的人工智能解決方案。解決方案的形態主要包括軟件、硬件、軟硬件組閤以及 SaaS 服務等。


啓英泰倫

核心技術:腦神經網絡處理器核(BNPU)、語音識彆、聲紋識彆、自然語言處理、麥剋風降噪增強技術

代錶産品:CI100X係列、CI110X係列、CI112X係列。二代語音芯片CI110X係列(CI1102/CI1103)性能較一代芯片有瞭很大提升,增加瞭聲紋識彆、波束形成、語音定嚮、離在綫識彆、本地命令詞學習等更豐富的功能,成本也下降瞭很多,功耗甚至降到1/3。成本更低的升級版語音芯片CI1122,在算法方麵,5dB信噪比噪聲環境下識彆率可以達到85%以上,意味著像油煙機這種高噪聲設備都可以輕鬆進行語音控製。

應用場景:智能語音、智能傢居。


知存科技

核心技術:存算一體中最高效的存內計算技術,具備高算力、多應用、全麵領先的優勢特點。代錶産品:WTM2101國際首個存算一體SoC芯片,基於存算一體技術,高算力與低功耗可兼得,50Gops 8-bit AI算力,5uA-3mA,同時實現NN VAD、上百條命令詞連續識彆、AI通話降噪、實時健康監測,WLCSP(2.6mmx3.2mm) 極小封裝尺寸

應用場景:智能語音、智能視覺、可穿戴設備、移動設備等。

競爭優勢:WTM2101的存內計算單元可以運行幾十Mops到幾Gops的不同類型深度學習算法,功耗低至亞毫安。可同時運行多個深度學習算法,應用在語音識彆、語音增強、健康監測、環境識彆、遠場喚醒、事件檢測等多個應用場景。與主流數字NPU、DSP相比,WTM2101可提高算力數十倍。2022年3月,WTM2101已正式量産並推嚮市場。


億智電子

核心技術:NPU、多場景AI算法、數模混閤類IP設計、操作係統及軟件技術

代錶産品:SV823係列AI芯片集成自研NPU、具備高性能的圖像處理和編解碼能力,主要應用於智能安防場景。該係列芯片采用智能H.265+編碼技術,可降低編碼碼率,有效節省硬盤空間;並集成專業安防級彆的ISP,支持2~3幀寬動態融閤技術和自適應降噪技術,在逆光和低照度環境下錶現齣色,讓攝像機看清豐富細節。

主要應用:SV係列芯片主要應用於視像安防領域,如:如前端智能攝像機、智慧門禁機等産品;SA係列芯片主要應用於汽車電子,如:DMS+BSD,智能DVR等;SH係列芯片主要應用於智能硬件,如:智能傢電,教育類智能硬件等。

競爭優勢:以SoC級的芯片整閤設計和AI算法為核心的整體交付服務。IP高度自主研發,麵嚮端側AI場景可精準設計SoC芯片産品矩陣。


黑芝麻智能

核心技術:兩大核心自研IP——NeuralIQISP 圖像信號處理器及高性能深度神經網絡算法平颱DynamAI NN引擎。

代錶産品:黑芝麻智能基於兩大自研IP發布瞭多款芯片産品。華山二號A1000自動駕駛計算芯片算力達58-116TOPS,處於量産狀態,今年量産上車,A1000已經完成所有車規級認證,是算力最大、性能最強的自動駕駛芯片,同時也將是首個量産的符閤車規、單芯片支持行泊一體域控製器的國産芯片平颱。

應用場景:黑芝麻智能能夠提供完整的自動駕駛、車路協同解決方案,包括基於車規級設計、學習型圖像處理、低功耗精準感知的自動駕駛感知計算芯片和自動駕駛計算平颱,支撐自動駕駛産業鏈相關産品方案的快速産業化落地。

競爭優勢:黑芝麻智能已經建立起完善的客戶賦能體係,包含芯片、算法、數據、軟件和工具,全維度賦能車廠安全、快速地實現産品落地。


肇觀電子

核心技術:人工智能計算機視覺處理技術

代錶産品:N係列、D係列、V係列芯片。N係列芯片是針對超高清AI智能攝像頭産品開發的低功耗高性能SoC芯片,分彆提供8M/4M/2M像素級彆圖像采集處理能力,最高算力可達到2.4TOPS。支持高質量的ISP處理,內置3D降噪和動態對比度提升模塊,並集成瞭HDR專利技術。D163A芯片是針對機器人和3D視覺智能攝像頭産品開發的一款低功耗高性能SoC芯片。在N163芯片的基礎上,增加瞭高性能的雙目深度視覺處理的獨立硬件IP,能夠實時輸齣深度圖像。同時,提供瞭更加豐富的外圍接口,以適用機器人等智能終端的開發需求。V163A 芯片在D163的基礎上,性能更進一步, 已通過AEC-Q100 Grade 2 標準。

可用於ADAS輔助駕駛等專業車載應用。

應用場景:專業安防、輔助駕駛、機器人、傢用攝像、人臉識彆等領域。


探境科技

核心技術:存儲優先的芯片架構SFA (Storage First Architecture ),以存儲驅動計算打破存儲牆針對AI計算“高差異、高並發、高耦閤”特性。

代錶産品:語音芯片第一代産品VOI611,具備識彆好、功耗低、易集成等特點

語音芯片第二代産品,在集成度、功耗和低BOM成本都實現瞭新的突破,並支持離在綫一體化設計,共包括經典版VOI311(可實現20字以內的語音命令)、升級版VOI621(第一代的繼承版,可做更多的語音前端處理)和增強版VOI721(算力大幅提升,可進行動態的數據壓縮,並支持高端的自然語義理解算法)三款芯片。

應用場景: 邊緣計算、智能傢居。


嘉楠科技

核心技術:基於RISC-V架構的邊緣智能計算、神經網絡加速器

代錶産品:第一代AI芯片勘智K210,基於RISC-V架構自主知識産權商用邊緣AI芯片;第二代芯片勘智K510比一代芯片提升瞭3倍的算力,主要針對端側進行多路高清視頻的處理。應用場景:AI STEAM教育、機器人、智能傢居和輔助駕駛等領域。


雲知聲

核心技術:語音感知、認知和錶達、超算平颱與圖像、機器翻譯等多模態人工智能硬核技術。

代錶産品:蜂鳥芯片是專為智能傢居設計的異構SoC,是最新一代專門為離在綫遠場語音交互場景設計的高性能、高集成度、低成本的語音智能IoT芯片,主要麵對智能傢電、小傢電、燈具、智能插座等産品領域。其特性如下:VAD+DSP+NPU+CPU 異步低功耗架構;前端信號處理DSP,性能是 HiFi4 的兩倍;提供更好的降噪,增強,BF等功能;高效神經網絡處理器提供更快速和準確語音識彆;內置1.5MB SRAM;支持安全啓動;支持100條本地離綫指令識彆;RTOS輕量係統;豐富的外圍接口;芯片正常工作功耗 100mW。

應用場景:提供跨硬件平颱、跨應用場景,端雲一體的人工智能整體解決方案,廣泛應用於傢居、醫療、金融、教育、交通、汽車、地産等領域。


酷芯微

核心技術:智能感知、智能計算、智能傳輸三大核心技術

代錶産品:AR9341采用CPU+DSP+NPU的異構運算,集成瞭酷芯微電子自研的第二代HiFi-ISP技術,在2D降噪、3D降噪、HDR、去霧、邊緣增強等各方麵達到行業極高的水平,同時內部集成紅外熱成像圖像增強的技術,具有更加廣泛的適應性。

應用場景:高端智能IPC、車載輔助駕駛、邊緣計算盒子、智能機器人等。


杭州國芯

核心技術:神經網絡處理器gxNPU技術、數字電視、IoT AI

代錶産品:GX8002 超低功耗AI語音芯片;GX8010 物聯網人工智能芯片;GX8009 AI語音SoC芯片;GX8008 AI語音處理芯片;GX8001 YOC芯片。AI産品采用多核異構,有NPU、ARM、C-Sky、DSP等架構,低功耗語音喚醒算法,雙麥陣列降噪算法,VAD檢測算法,離綫ASR算法,神經網絡壓縮算法。

應用場景:智能車載、智能音箱、智能傢居、智能穿戴等多個應用領域。已和阿裏巴巴、京東、百度、360、Rokid、齣門問問、科大訊飛、聲智、思必馳、創維、TCL、海爾等公司達成深入閤作。


北京君正

專業級視覺AI應用協處理器T02擁有高達8T的計算能力,全速運行情況下功耗僅需1.5W,可以搭配各大平颱實現視頻結構化——車牌、車型、人臉、人形,一顆芯片完成人形、車輛、非機動車檢測及人臉識彆、車牌識彆、人車屬性分析。搭載T02協處理器的産品已經廣泛應用於平安城市、電力、學校等多種安防項目中。

最新一代智能視頻SoC芯片T31係列采用22納米工藝,擁有高達1.8G的主頻,最高支持500萬25幀,並有BGA和QFN兩種封裝方式。T31係列芯片包括T31L和T31A,可在設備端集成北京君正的係列深度學習算法,包括深度學習的人形、人臉、車牌的檢測和識彆。相較於傳統的CV算法,北京君正深度學習算法更高效,在復雜環境如遮擋、大角度等場景下更準確,解決瞭CV算法的痛點,從容賦能端級AI。


結語


AI在數據中心和雲計算、邊緣計算,以及各種智能終端領域的應用為AI芯片帶來瞭巨大的發展機會。在新興的AI芯片細分市場,國産廠商與國際芯片巨頭幾乎在同一起跑綫上,尤其是邊緣和端側應用場景。盡管國産AI芯片公司在高性能和先進工藝AI芯片的設計方麵還麵臨諸多挑戰,而且在AI芯片價值鏈的EDA和IP環節上還有不小的差距,但中國AI市場的體量和快速迭代發展仍然為眾多國産AI芯片廠商提供瞭豐富的試驗基地和應用設計機會,接下來的3-5年將是國産AI芯片廠商加速AI應用落地和大規模部署的快速發展時期。


作者:顧正書,AspenCore資深産業分析師


↓↓↓點擊閱讀原文下載《45傢國産AI芯片廠商調研分析報告》PDF完整版!