中國科技「亮劍」！十年來，AI領域項目首次問鼎國家科技獎一等獎

2024-06-25 20:53
新智元

新智元報道

編輯：編輯部

【新智元導讀】2023年度國家科學技術大獎公佈了！今年的評選堪稱史上最嚴、最難，競爭最激烈的一屆。這當中，大廠中唯有科大訊飛摘得了國家科學技術進步獎一等獎，成爲過去十年AI領域獲得的首個國獎一等獎。

就在昨天，2023年度國家科學技術大獎一出爐，直接登上了熱搜榜首。

武漢大學李德仁院士、清華大學薛其坤院士獲得了科技界的最高榮譽——國家最高科學技術獎。

此外，還有一大批貢獻卓越的科學家和標誌性成果獲得國家科技獎勵。

綜合來看，今年整體的獲獎情況現狀是：

基礎研究領域重大成果持續產出，自然科學獎連續9次產生一等獎。
中青年科技人才成爲我國科技創新的重要力量。
三大獎通用項目中，45歲以下完成人佔比40%左右。
國家自然科學獎中，45歲以下完成人超過一半。

值得一提的是，2023年度的國獎，百度、阿里雲等企業紛紛參選，但唯有科大訊飛榮獲國家科學技術進步獎一等獎。

這是深度學習引發新一代AI浪潮以來，過去十年人工智能領域獲得的首個國獎一等獎。

科大訊飛作爲第一單位，獲獎項目是《多語種智能語音關鍵技術及產業化》

這也是科大訊飛繼2002年和2011年分別獲得國獎二等獎之後，時隔12年再獲國獎。

不同以往，今年的國獎評選，堪稱史上競爭最激烈的國獎，也是國家科技獎史上最難的一年。

史上最嚴、最難、競爭最激烈的一屆

爲什麼這麼說？

- 國家科學技術進步獎越來越難

宏觀上講，國家科學技術進步獎越來越難，與多次改革息息相關。

自2017年以來，國務院在獎勵制度和獎項瘦身方面做了改革，力度越來越大。

比如在2017年，將三大獎項由總數不超過400項減少到不超過300項，並且明確「推薦制」調整爲「提名制」。

2020年則提出，精簡提名材料、淡化SCI（科學引文索引）論文至上、允許外國人蔘加評選等新的舉措。

可以看到，報獎實行提名制、數量寧缺毋濫，正是國家科技獎勵制度改革的兩大方向。

2020年度國家科學技術進步獎一等獎就是空缺的。

- 暫停兩年之後積累了大量優秀成果

另外一個原因便是，因2021年、2022年國獎暫停申報，使得2023年度積累了大量的優秀成果。

今年，受理通用項目的總數高達1261項，最終篩選通過初評總數爲301項（其中通用項目243項）。

同時，初評環節的特等獎、一等獎項目只有29項（不含專用項目）。

這也就不難看出，2023年是國獎史上最嚴、最難，競爭最激烈的一屆，不僅提名環節指標難拿、初評環節網評難過，而且答辯環節競爭極其激烈。

- 計算機與自動控制組、電子與科學儀器組、網絡與通信組大牛雲集

而且，與計算機、電子信息、AI相關的項目比例衆多。

就連華爲陳海波、百度王海峯、曙光歷軍等科技大廠的AI大牛們，紛紛現身牽頭項目參與評選。

具體來說，在今年評選形式審查階段中，其中信息領域相關的科技進步獎共有86項。

其中，計算機與自動控制組45項、電子與科學儀器組28項、網絡與通信組13項。

經過初評之後，僅剩下了5個項目，獲得了科技進步獎一等獎（其中計算機與自動控制組2項、電子與科學儀器組2項、網絡與通信組1項）。

看得出來，和過往的情況類似，拿獎的以學術機構和央企居多，民企非常罕見。

科大訊飛能夠脫穎而出，足見一家科技企業具備國際領先的科技硬實力，並擁有着強大的AI內核和深厚的AI功底。

十年磨一劍，中國AI「亮劍」

回看這家公司的創業歷程，訊飛自成立以來便在AI領域深耕25年，一直堅持技術頂天、應用立地，將相關人工智能技術和產業都做到第一。

從最初專注於中文語音合成，到逐步拓展至語音識別和語義理解領域；從聚焦中英雙語，到涵蓋多種語言；從單一的語音技術，到融合圖像處理和多模態感知，實現了多維度的信息表達；再到大模型技術與國際領先水平的對標。

這條充滿中國智慧的自主研發之路，不僅彰顯了訊飛的技術實力，更打破了國外企業在該領域的長期壟斷地位。

多語種智能技術，持續攻關近10年，其主要技術獲得幾十項世界冠軍：

在語音合成技術上，從2006年到2019年，訊飛連續14年獲得Blizzard Challenge 國際語音合成大賽冠軍；
在語音識別技術上，2016-2023年，連續獲得國際多通道語音分離和識別大賽CHiME四連冠，2021年在國際低資源多語種語音識別競賽OpenASR中獲得所有15個語種受限賽道和7個語種非受限賽道的冠軍；
在多語種翻譯技術上，訊飛在2021-2023年連續三屆獲得IWSLT（國際口語機器翻譯比賽）冠軍。

這次，科大訊飛之所以能在一衆強悍的對手中「殺出重圍」，正是源於這些年的持續攻關、厚積薄發。

其獲獎項目「多語種智能語音技術」，可以說是中國AI科技的「亮劍」之作。

它由科大訊飛聯合中科大、清華等頂尖院校，以及華爲、中國移動等知名企業共同研發，是多個語種的語音識別、語音合成、機器翻譯集合爲一體的綜合技術，打破了科技封鎖，解決了「卡脖子」難題。

目前，該技術支持的語種數量達到了69個，同時，還覆蓋了維、藏、蒙、哈、朝、壯、彝等24種主要中國方言。

具體來說，項目提出了四個方面的重大技術創新：

1. 複雜語音信號的解耦建模

語音識別中，最有挑戰性的場景就是遠場、噪聲、多人語音混疊下的識別，這是業內有名的「雞尾酒會難題」。

爲了攻克這個問題，科大訊飛提出了多通道語音信號時空分離建模方法，利用自適應語音分離算法估計多個說話人的幀級聲紋表徵，並結合後端語音任務的反饋，迭代指導前端，實現多個說話人和噪聲在空間上的精確分離。

此外，爲了解耦語音信號中說話內容和噪聲，科大訊飛還提出了內容、韻律、音色以及語種多維度屬性解耦表徵方法，使得複雜場景下語音識別準確率得到重大突破。

2. 多語種共享建模

面對國外科技封鎖，訓練多語種、小語種模型，還有一個非常棘手的問題就是知識匱乏、訓練數據稀缺。

科大訊飛的思路是將小語種按照語族進行分類，找到同類語種的共同規律，再進行分析、建模和訓練。

基於這個思路，他們從頭設計了多語種通用音素體系RGP和基本語言單元SE，實現多語種統一音素韻律體系的構建。

訓練過程中，將同語族的多個語种放在一起進行共享建模和基於元學習的共同預訓練，最終顯著提升了小語種語音系統性能。

3. 語音語義聯合建模

在複雜應用場景下的語音交互、語音翻譯技術始終有一個技術難題，就是難以理解深層次的語義，尤其是涉及到專業領域。

如果不能在語音技術中結合對語義的理解，勢必會拉低準確率。爲此，科大訊飛提出了語音語義互增強的魯棒口語理解技術以及多源知識增強的可信文本生成技術。

前者實現了語音語義空間對齊的統一編碼網絡，使用多任務聯合訓練的技術使兩個方面互相增強；後者構建了基於弱監督數據的信息檢索模塊，並用交叉注意力融合在模型中，提升專業詞彙與知識引用的準確率。

4. 國產異構硬件平臺訓練及推理加速

在科技競爭日益激烈的情況下，自主創新是一個重要戰略任務。

然而，構建國產化算力平臺就是一個大難題，而將訓練和推理遷移到國產硬件設備的過程中，許多模型也面臨着性能低、適配難等困境，算力與國際主流芯片存在差距。

爲了徹底解決「卡脖子」問題，科大訊飛提出兩項技術：硬件親和的變長輸入算子融合，以及聯合統一的量化感知訓練。

前者將動態張量算子通過軟硬件協同優化進行自動融合，更適合語音這種變長輸入的模態，性能優化到了國際主流芯片的同等水平。

後者通過多硬件聯合的量化計算模擬，大大降低了模型的部署難度。只需完成一次訓練，即可實現跨硬件平臺的「一鍵部署」。

以相關的技術突破爲基石，科大訊飛勇擔重任，目前已建成了5個國產化集羣，在語音合成、識別、翻譯、交互等應用上的日服務達到8.73億次。

科大訊飛還與華爲合作，聯合攻關大模型國產化算力底座核心難題。目前已建成首個萬卡全國產算力平臺「飛星一號」，填補了國產超大模型訓練平臺的空白。

引人注目的是，訊飛在語音產業國內市場佔有率穩居第一，且在全球多語種市場佔比8.1%，並持續提升。

這得益於項目構建了自主可控的多語種產業生態：

開創引領智能語音產業，在智能軟硬件方面，開創智能翻譯機、智能辦公本、智能錄音筆等智能硬件新品類；在會議、辦公等場景，其服務遍及全球50多個國家和地區，支持了超過40萬場會議，其中包括全國兩會；在普通用戶側，聯合中國移動的電視語音遙控服務超1億家庭。

中國製造出海背後，也有科大訊飛多語種技術的支持。支持各主流手機廠商累計激活設備超10億臺，有效解決華爲等廠商出海的多語種「卡脖子」問題；智能汽車方面，支持奇瑞、一汽、長安等車企超200萬套訂單出海。

在全世界，科大訊飛每年提供翻譯服務51.5億次。

不僅如此，訊飛還發布了「多語種語音雲」平臺，承建智能語音國家新一代人工智能開放創新平臺，開展了「聽見AI的聲音」等多項公益行動。

下一步，智能語音+認知大模型

在通用人工智能時代，科大訊飛多語種智能語音關鍵技術中的創新和大模型技術相互補充、相互促進。

今年1月30日，基於語音屬性解耦、語音信號時空分離等技術突破，科大訊飛首次發佈了「星火語音大模型」，取得了國際領先成果。

在37個主流語種效果上，星火性能顯著超過了OpenAI Whisper V3。在24個主要語種中，Whisper v3平均識別率爲82%，星火語音大模型達到了90%。

緊接着，4月26日，科大訊飛再次首發「多情感超擬人合成」功能，還可以一句話實現聲音復刻。

這讓AI像真人一樣，具備更加豐富的情緒情感、有生動的口語表達，還有笑聲、有語氣、有情調等等。

大模型+語音技術的結合，成爲AI未來發展的一大趨勢。

LLM（大語言模型）加持的語音技術，可以在複雜語義理解、長文本建模能力，進一步提升語音識別、合成和翻譯的效果。

與此同時，基於LLM強大的語音理解、知識問答、多輪對話、多模態建模能力，擴展了智能語音技術的使用場景和應用價值也得到大幅提升。

在語音同傳、自動客服、輔學答疑、虛擬員工、陪伴機器人、服務機器人等賽道上，這項技術將會來帶巨大產業機會，並加速通用人工智能時代到來。

順便提一句，6月27日，訊飛星火V4.0也將正式發佈，底座能力全面對標GPT-4 Turbo。

與此同時，星火語音大模型也將迎來全新升級。

未來，在科大訊飛國際領先的智能語音技術基礎之上，訊飛星火將進一步向着「解放生產力、釋放想象力，爲每個企業和每個人打造專屬AI助手」的更大願景，持續攀登、持續進步，用人工智能建設美好世界！