曾重新整理ImageNet紀錄,UC伯克利博士尤洋歸國創業,如何做好高效率低能耗? | 真格天使故事

獲清華最高奬學金和六所美國名校全奬博士offer;
實習論文曾刷新ImageNet訓練速度的世界記錄;
UC伯剋利博士畢業後收獲眾多常春藤大學教職offer;
入職幾個月便成為NUS“校長青年教授”;
今年入選福布斯30歲以下精英榜 (亞洲);
……
以上便是青年教授尤洋迴國創業的個人經曆。

迴國後,尤洋創辦瞭一傢高性能計算公司“潞晨科技”——主要麵嚮B端企業提供分布式軟件係統,大規模人工智能平颱,以及企業級雲計算解決方案等服務。潞晨科技旨在打造一個高效率低耗能的分布式人工智能係統,可以幫助企業在最大化提升人工智能部署效率的同時,將部署成本最小化。


潞晨科技目前已經獲得由真格基金和創新工場閤投的超韆萬元種子輪融資。今天為大傢帶來真格硬科技被投企業「潞晨科技」創始人尤洋的故事,歡迎閱讀~


本文授權轉載自「量子位」

作者:明敏


曾刷新ImageNet紀錄的尤洋,迴國創業瞭!

尤洋,何許人也?

他是LAMB優化器的提齣者,曾成功將預訓練一遍BERT的時間,從原本的三天三夜一舉縮短到一個多小時。作為一個通用的神經網絡優化器,LAMB優化器無論是大批量還是小批量的網絡都可以使用,也無需在學習率之外調試超參數。據英偉達官方GitHub顯示,LAMB比Adam優化器可以快齣整整72倍。微軟的DeepSpeed,用的也是LAMB方法。而這是尤洋在榖歌實習時作為論文一作提齣的。




現在,他已經在UC伯剋利獲得瞭博士學位,帶著LAMB方法迴國,創立瞭潞晨科技。公司主營業務包括分布式軟件係統、大規模人工智能平颱以及企業級雲計算解決方案。Base北京中關村,目前已經獲得由真格基金和創新工場閤投的超韆萬元種子輪融資。



要高效率,也要低能耗


作為高性能計算領域的優秀青年學者,尤洋迴國將在這一領域繼續深耕。


事實上,高性能計算已經成為眼下前沿AI發展的必然選擇。隨著AI模型的參數量越來越大,所需的算力也就越來越高,訓練一次模型的時間也就變得十分漫長。為此,科技巨頭們紛紛部署瞭自己的集群和超算。比如Google的TPU Pod,微軟為OpenAI打造的1萬GPU集群,英偉達的SuperPOD,以及特斯拉的Dojo計算機。



但是單純地堆硬件,並不能解決所有問題。一方麵,當硬件數量達到一定量後,堆機器無法帶來效率上的提升;另一方麵,中小企業往往沒有足夠的資金支持如此大規模的硬件部署。因此,優化技術成為瞭絕佳選擇。


潞晨科技就是旨在打造一個高效率低耗能的分布式人工智能係統。它可以幫助企業在最大化提升人工智能部署效率的同時,還能將部署成本最小化。而且潞晨打造的係統是一個通用係統,對大部分超大模型都有效。


就目前的Transformer應用而言,該係統在同樣的硬件上相對業界最好的係統,可以提升2.32倍的效率。而且隨著機器數量的增長,這套係統的優勢會越來越大。


從左到右:創新工場執行董事任博冰、潞晨科技創始人尤洋、真格基金董事總經理尹樂


考慮到現在的AI模型其實是往多維度發展的,尤洋在打造這套係統時還選擇瞭動態模型並行技術。這不僅能夠適應現在模型的發展模式,還能極大提升計算效率。


那麼,到底什麼是AI模型的多維度發展呢?比如,BERT是基於Transformer Encoder,GPT-3是基於Transformer Decoder,Switch Transformer和清華智源是基於混閤專傢係統。同樣,超算係統、聯邦學習、跨雲計算等硬件配置也會將係統復雜化。這兩者之間的自適應配置,將對整個訓練係統的性能起著決定性影響。


為此,尤洋他們實現瞭2維網格參數劃分、3維立體參數劃分、以及2.5維通信最小化參數劃分,極大提升瞭計算效率。同時,他們還進行瞭逐序列劃分數據,這可用於處理未來的大圖片、視頻、長文本、長時間醫療監控數據等方麵的問題。



除瞭提升效率,尤洋他們還著重考慮瞭能耗問題。事實上,能耗很可能會成為未來人工智能應用上的一個瓶頸。


根據Emma Strubell等人的研究,從紐約到舊金山每位旅客乘坐飛機産生二氧化碳排放量1,984 lbs。然而,訓練一個2億參數的模型需要的能耗,就能達到626,155 lbs。顯而易見,低能耗計算十分必要。尤洋他們在研究中發現,在不改變硬件設置的情況下,能耗主要來自於數據移動。



數據移動包括集群內服務器之間的通訊、GPU與CPU之間的通訊、CPU與磁盤的通訊等等。為此,他們還實現瞭一套基於通訊避免算法的係統。可以在不增加計算量的情況下有效減少數據移動量,從而減少能耗。



核心技術


據尤洋介紹,以上他們打造的通用係統,依舊離不開LAMB方法。LAMB的全稱是Layer-wise Adaptive Moments optimizer for Batch training,和大傢熟悉的SGD、Adam屬於同類,都是機器學習模型的優化器(optimizer)。



之前我們也提到,LAMB無論是大批量還是小批量的網絡都可以使用,也無需在學習率之外調試超參數。靠著這一特點,此前尤洋等人將批大小由512擴展到瞭65536。這也是第一次有研究用2000以上的超大批量來訓練BERT。


帶來的提升就是迭代次數會大大降低這讓BERT-Large模型原本需要1000000次迭代纔能完成預訓練過程,有瞭LAMB加持用上大批量,隻需要進行8599次迭代,這大幅縮短瞭預訓練時間。此外,尤洋等人最近提齣的在綫演化調度程序ONES,也是這套通用係統調用的一部分。



它可以根據批大小自動管理每個job,從而將GPU的利用率最大化。還能通過演化算法,不斷優化調度決策。評估結果錶明,ONES與當前最先進的方法相比,在平均JCT(job completion time)上能夠縮短45.6%的時間,優於現有的深度學習調度算法。


據悉,尤洋團隊已經與多傢企業展開閤作。


他們錶示,公司的戰略是“先造錘子,再找釘子”。創業初期希望打造一個通用係統,1年內完成係統優化,用於中小型企業。



清華學子歸國創業


說起尤洋,就不得不說一說他的“學霸史”瞭。



尤洋曾以第一名的成績保送清華計算機係碩士。


後來在申請博士時,他從UC伯剋利、CMU、芝加哥大學、UIUC、佐治亞理工、西北大學六所名校的全奬offer中,選擇瞭UC伯剋利。


讀博期間,尤洋先後在Google Brain、英特爾實驗室、微軟研究院、英偉達、IBM沃森研究中心等知名企業、研究院實習,實習期間為TensorFlow、英偉達GPU上部署caffe、英特爾CPU部署caffe等大型知名開源項目作齣瞭貢獻。


博士畢業時,尤洋還獲得瞭頒發給UC伯剋利優秀畢業生的Lotfi A. Zadeh Prize,並被提名為ACM Doctoral Dissertation Award候選人(81名博士畢業生中選2人)


畢業後,他加入新加坡國立大學計算機係,擔任校長青年教授 (Presidential Young Professor)


在學術研究上,尤洋也同樣戰績斐然。


他曾以一作的身份獲得2015年國際並行與分布式處理大會(IPDPS)的最佳論文和2018年國際並行處理大會(ICPP)最佳論文奬。其發錶論文《Imagenet training in minutes》所提齣的方法刷新瞭ImageNet訓練速度的世界紀錄


2021年,他還被選入福布斯30歲以下精英榜 (亞洲)。


潞晨科技創始團隊,中間為尤洋


事實上,潞晨團隊不止尤洋一位大神。其團隊核心成員來自美國加州大學伯剋利分校、斯坦福大學、清華大學、北京大學、新加坡國立大學、新加坡南洋理工大學等國內外知名高校核心團隊在高性能計算、人工智能、分布式係統方麵已有十餘年的技術積纍,並在國際頂級學術刊物或會議發錶論文30餘篇。


此外,還有美國科學院院士,工程院院士James Demmel教授擔任團隊顧問。Demmel教授是加州大學伯剋利分校前EECS院長兼計算機係主任、中關村戰略科學傢、ACM/IEEE Fellow,現任加州大學伯剋利分校傑齣教授。




廣納英纔

目前,潞晨科技正在廣納英纔。招聘全職/實習軟件工程師,全職/實習人工智能工程師。


左右滑動查看更多



  -  推薦閱讀  -