AI廠商拿Robots協議當草紙,互聯網秩序“禮樂崩壞”

就在一衆AI大模型廠商還在爲盈利發愁時,英偉達靠賣算力已成功登頂全球市值第一公司的寶座,再次證明了當淘金熱洶湧時候、只有賣鐵鏟的最賺錢。但訓練大模型不僅要算力、還要有數據,以至於Reddit、X等內容平臺紛紛做起了數據買賣這個生意。只不過,如今這個生意也越來越不好做了。



近日根據路透社報道,內容授權初創公司TollBit近日向出版商發出警告稱,多家人工智能公司正在規避他們用於阻止抓取內容的通用網絡標準,並將抓取的內容用於訓練生成式AI系統。幾乎在同一時間,知名科技雜誌《Wired》也發文稱,AI搜索公司Perplexity存在繞過機器人排除協議(Robots Exclusion Protocol),以獲取受限網絡內容的行爲。


再算上此前OpenAI使用YouTube上的視頻內容訓練打模型,谷歌也曾被曝出修改用戶協議、以免費獲取旗下平臺用戶數據的消息。似乎上至一線巨頭、下至初創企業,AI行業儼然集體化身爲了“數據小偷”。


一直以來,數據無疑是訓練AI大模型的基礎,而高質量數據更是決定了大模型的性能上限,這也正是AI廠商如同饕餮般吞噬數據的真相。爲此他們可謂是滿世界買數據,但現實卻是可供交易的數據已經滿足不了大模型的胃口了。



當正常買賣數據這條路不好走了之後,“偷數據”似乎就變成了AI廠商心照不宣的操作。比如這次被部分AI廠商無視的Robots Exclusion Protocol(以下簡稱Robots協議),其實是一個存放於網站根目錄下的ASCII編碼文本文件,它是控制網站被搜索內容的一種策略,也就是/Robots.txt。


Robots協議的唯一作用,就是告訴user-agent(網絡爬蟲)網站中的哪些內容允許被爬取、哪些內容又不能抓取。以2008年9月宣佈屏蔽百度搜索引擎的淘寶爲例,當時這家電商網站的Robots協議非常簡單,直接就禁止了“Baiduspider”、即百度蜘蛛訪問網站的任何部分。依靠這樣的Robots協議,淘寶避免了流量外溢到百度,進而催生了其站內的競價排名體系。



爲什麼這樣簡簡單單的代碼就能攔住了百度的爬蟲呢?這是因爲百度簽署了《互聯網搜索引擎服務自律公約》,承諾遵守Robots協議,並願意限制搜索引擎抓取應有行業公認合理的正當理由、不利用這一協議進行不正當競爭行爲。這也是後來百度起訴360違反Robots協議時,會大義凜然指責360搜索在明確承認Robots協議約束力後、又規避了這個協議的底氣。


儘管Robots協議並不俱備法律層面的強制力,甚至都不是行業自律公約,實質上僅僅只是一個君子協定,可是在過去三十年裏,Robots協議在事實層面成爲了網站和搜索引擎共同遵守的一個有關數據抓取的規則。一個缺乏強制力的君子協定能存在、並得到不同文化背景互聯網公司的認可,自然是有它的道理。



Robots協議的成功之處,就在於做到了搜索引擎和網站的雙贏。其中搜索引擎抓取了網站的網頁、讓自己的索引庫更加充實,進而滿足用戶對於信息的需求,而網站方則從搜索引擎處得到了流量作爲回饋,進而通過流量變現賺到真金白銀。


以AI搜索獨角獸Perplexity爲代表的一衆AI廠商打破乃至無視Robots協議的趨勢,如果要用一個詞來形容,“禮樂崩壞”似乎是最合適的。


周朝用“禮樂”實現了人人各安其位各樂其業,長幼有序尊卑井然,上下和睦貴賤相安的秩序,而互聯網的奠基人則用開放、平等、協作、快速、分享塑造了互聯網世界的行爲準則。互聯網精神雖然並不要求每一個參與者都具備這種精神,但是Tim Berners-Lee、Marc Andreessen等早期互聯網的締造者,卻在頂層設計中用“無形的大手”促使每一個參與者需要遵循互聯網精神。



一個很簡單的例子,就是如果大家曾經不相信互聯網精神,那麼Copy  to China根本就不會發生。所以問題就來了,爲什麼互聯網世界如今會“禮樂崩壞”呢?韓非子有言,“事異則備變。上古競於道德,中世逐於智謀,當今爭於氣力”。早期的互聯網世界“競於道德”,是因爲彼時的互聯網還是蠻荒之地,大片的處女地等待着參與者來開拓,一旦找對了賽道就能扶搖直上。


可到了移動互聯網時代,隨着互聯網世界的拓荒時代結束,每一條賽道幾乎都站滿了巨頭,創業者就得靠智謀才能成功,否則即使成爲風口上的豬,風停了也得摔下來。


而當下隨着流量紅利的枯竭,互聯網進入存量競爭時期後,就得刺刀見紅了。這時候對於AI廠商來說,獲取更多的數據以訓練更強的模型、再用更強的模型拉到更多的投資纔是王道,遵守Robots協議反而會讓自己在市場競爭中落後。



當然,AI廠商並非就想離經叛道,而是他們拿不出讓數據擁有着滿意的籌碼。此前網站站長願意向Googlebot敞開大門,還不是因爲谷歌搜索能回饋流量,可AI廠商並不像搜索引擎那樣能用流量來作爲報酬,反倒是AI廠商訓練的大模型可能會代替網站。所以指望網站像接納搜索引擎一樣接納AI廠商,無異於難如登天。


所以當數據擁有者不想給、可AI廠商偏偏又很想要的情況下,“禮樂崩壞”也就來了。


【本文圖片來自網絡】

推薦閱讀:


一加平板Pro評測:性能領先,生態是更大的亮點

 以性價比作爲切入點,一加正在建設自有產品生態。


視頻|一加Ace3 Pro評測:性能與長續航、從此不用再做選擇

極致性能的一加Ace系列硬核旗艦,產品力再次提升。