AI“肥料”不足,OpenAI被曝瘋狂轉錄YouTube影片


作者 | 捲毛

編輯 | 鬆露


在大模型競賽中,數據短缺危機正越來越嚴峻。


最近《紐約時報》的一項調查顯示,為瞭獲得大量且高質量的訓練數據,包括OpenAI、Google和Meta在內的科技公司紛紛走捷徑,忽視平颱政策,在違法邊緣瘋狂試探。


其中OpenAI通過語音轉錄工具Whisper,收集瞭超100萬小時的YouTube視頻文本,作為GPT-4的訓練數據。


《紐約時報》報道封麵


AI公司正瘋狂從互聯網上獲取各類數據以訓練AI大模型,但這是否閤法、符閤平颱政策呢?


一場圍繞數據資源的權益爭奪戰已在創作者、內容平颱和AI公司之間展開。



AI“肥料”不足,

OpenAI瘋狂轉錄YouTube視頻


據《紐約時報》報道,OpenAI多年來一直在收集數據、清理數據,並將其輸入到一個龐大的文本池中,以訓練大型語言模型。


這些數據包括來自Github的計算機代碼、國際象棋數據庫、來自Quizlet的高中考試題和作業內容等。


到瞭2021年底,OpenAI已經耗盡瞭互聯網上所有可靠的英文文本資源,急需更多數據來訓練下一代模型GPT-4。


為此,OpenAI內部商量瞭幾個方案:轉錄播客、有聲讀物和YouTube視頻;用AI係統從頭開始創建數據;收購已經收集瞭大量數字數據的初創公司。


OpenAI的研究團隊後來創建瞭一個名為Whisper的語音識彆工具,用於轉錄YouTube視頻和播客,生成新的對話文本,以進一步提高AI的智能程度。


Whisper博客:https://openai.com/research/whisper


三名知情人士錶示,OpenAI員工知道這樣做會涉足法律灰色地帶,可能違反YouTube的規則。Google旗下的YouTube禁止將其視頻用於“獨立”的應用程序,還禁止通過“任何自動化手段(如機器人或爬蟲)”訪問其視頻。


但OpenAI團隊認為用視頻訓練AI是閤理使用,最終還是轉錄瞭超過100萬小時的YouTube視頻。


知情人士稱,OpenAI總裁Greg Brockman領導瞭開發GPT-4的團隊,他親自參與收集瞭這些YouTube視頻,然後將其輸入至GPT-4


除瞭OpenAI,Meta、Google等科技公司也采取瞭類似的措施。


據Meta去年初的內部會議錄音,Meta的生成式AI副總裁Ahmad Al-Dahle稱,團隊已經使用瞭互聯網上幾乎所有可用的英文書籍、論文、詩歌和新聞文章來開發模型,除非Meta獲得更多數據,否則無法匹敵ChatGPT。


2023年3月和4月,Meta團隊考慮收購齣版社Simon & Schuster以獲取其長篇作品的授權,以及討論瞭如何在未經許可的情況下,從互聯網上收集受版權保護的數據,即使這將帶來訴訟。


他們提到,如果與齣版商、藝術傢、音樂傢和新聞行業談判授權的話,會耗費太長時間。


Meta曾錶示,已經從Instagram和Facebook獲取瞭數十億公開共享的圖像和視頻來訓練其模型。


有知情人士稱,Google也轉錄瞭YouTube視頻來訓練自傢的AI模型,並在去年擴大瞭其服務條款。


此前的隱私政策稱,Google隻能使用公開信息來“幫助訓練Google的語言模型並構建Google翻譯等功能”,更改後的條款擴大瞭AI技術適用範圍,Google可以利用數據“訓練AI模型並構建Google翻譯、Bard和Cloud AI等産品和功能”。


Google隱私政策修改


Google的內部消息顯示,這一變化的目的之一是為瞭讓Google能利用公開的Google文檔、Google地圖上的餐廳評論等其他在綫數據,來完善其AI産品。



創作者紛紛起訴AI侵權


開發更大更強的AI,意味著需要看似無盡的數據資源。從新聞報道、齣版作品,到網絡留言、博客文章、社交平颱上的照片和視頻等等,互聯網上的各類數據正成為AI行業發展的重要基石。


而對於創作者來說,AI公司使用他們的作品來訓練模型,存在侵犯版權和道德問題。


《紐約時報》去年底起訴OpenAI和微軟稱其在未經許可的情況下使用受版權保護的新聞文章來訓練AI聊天機器人。OpenAI和微軟迴應稱這是“閤理使用”,或者說受版權法保護的。


去年好萊塢罷工也涉及AI相關權利的爭議。電影製作人、演員Justine Bateman是美國演員工會(SAG-AFTRA)的AI顧問,她認為AI模型在未經許可或付費的情況下獲取內容(包括她的作品和電影),“這是美國最大的盜竊案”。


近期,包括知名歌手Billie Eilish、Nicki Minaj等在內的200多名藝術傢簽署瞭一封公開信,要求科技公司承諾不開發破壞或取代人類創意的AI工具,“我們必須防止AI被掠奪性地用來竊取專業創作者的聲音和肖像,侵犯創作者的權利,並破壞音樂生態係統”。



麵對創作者的抗議,內容平颱也亮明瞭態度。


YouTube首席執行官Neal Mohan近日在接受彭博社采訪時強調,下載YouTube視頻,然後用於訓練Sora等AI模型顯然違反瞭YouTube現行的相關條款。


他承認Google在訓練Gemini模型時“使用瞭YouTube上的一些內容”,但在使用前已得到創作者的授權,這是YouTube與創作者之間的協議所允許的。


Google發言人Matt Bryant針對隱私政策的變更迴應稱,Google沒有在未經用戶“明確許可”的情況下使用Google文檔或相關應用的信息來訓練AI,條款中指的是一個允許用戶測試實驗性功能的自願計劃。



AI閤成數據可行嗎


迴顧AI大模型的進程,2020年之前,大多數AI模型使用的訓練數據比現在小得多。


AI大模型訓練數據量變化,圖源《紐約時報》


直到約翰·霍普金斯大學理論物理學傢Jared Kaplan發錶瞭一篇關於AI的開創性論文,發現訓練大型語言模型所需的數據越多,它的性能就越好。


此後,“規模即一切(Scale Is All You Need)”很快成為AI研究的口號。


論文地址:https://arxiv.org/pdf/2001.08361.pdf


OpenAI在2020年11月推齣瞭GPT-3,它是當時訓練數據量最大的模型——約3000億個token。Google旗下的AI實驗室DeepMind更進一步,在2022年測試瞭400個AI模型,其中一個模型Chinchilla接受瞭1.4萬億token的訓練。


不過這一紀錄沒有維持多久。去年,中國的研究人員發布瞭一個AI模型Skywork,中英文文本訓練數據量達3.2萬億token。Google的PaLM 2更是超過3.6萬億token。


研究機構Epoch錶示,AI公司使用數據的速度比産生數據的速度更快,最早到2026年,互聯網上的高質量數據可能被使用殆盡。


如何解決“數據荒”以及一係列産業問題,成瞭當下AI發展的焦點。


麵對數據短缺危機,科技公司正在開發“閤成數據”(Synthetic data),即使用AI生成的文本、圖像和代碼,讓AI從自己生成的內容中進行學習。


OpenAI發言人Lindsay Held告訴The Verge,OpenAI的每個模型都擁有獨特的數據集,他們的數據來源眾多,包括公開數據和非公開數據的閤作夥伴,並且正在考慮生成自己的閤成數據。


Sam Altman曾錶示,未來所有數據都將變成閤成數據。既然AI模型可以産生類似人類的文本,那麼也可以創建額外的數據來開發更好的AI,這將減少團隊對版權數據的依賴。


不少業內人士推測,Sora可能已經通過使用瞭基於數據驅動的Unreal Engine5大量生成瞭閤成數據作為訓練集。


但構建一個可以自我訓練的AI係統說起來容易,做起來難。從自己的輸齣中學習的AI模型可能會陷入一個死循環,不斷強化自己的怪癖、錯誤和局限。


“這些AI係統需要的數據就像在叢林中尋找齣路,”前OpenAI研究員Jeff Clune說,“如果它們隻在閤成數據上訓練,很可能會在叢林中迷路。”


為瞭對抗這一點,OpenAI和其他公司正在研究兩個不同的AI模型如何閤作生成更有用、更可靠的閤成數據。一個AI産生數據,另一個評估信息以分離好的數據和壞的。不過這種方法是否有效仍未得到研究證實。


此外,目前海外已有Scale AI、Gretel.ai等企業開始給外界提供閤成數據服務。


國內方麵,清華大學蘇世民書院院長、人工智能國際治理研究院院長薛瀾在近期的公開演講中談到,中國的數據量很大,但沒有真正産業化,相對標準化的數據服務商還比較少,因為大數據服務不賺錢,公共數據企業沒有意願去清洗,定製化服務又一般收費比較高。因此,數據市場如何構建也是需要解決的問題。


參考文章:

https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html

https://www.theverge.com/2024/4/6/24122915/openai-youtube-transcripts-gpt-4-training-data-google

https://www.bloomberg.com/news/articles/2024-04-04/youtube-says-openai-training-sora-with-its-videos-would-break-the-rules?utm_source=website&utm_medium=share&utm_campaign=copy

https://baijiahao.baidu.com/s?id=1795539096138279593&wfr=spider&for=pc





頭號AI玩傢交流群」進群方式:添加微信“banggebangmei”並備注姓名+職業/公司+進群,歡迎玩傢們來群裏交流,一起探索見證AI的進化。


歡迎分享、點贊、在看

 一起研究AI