朱開鑫|迴歸實踐:生成式人工智能三大版權問題解析

朱開鑫 騰訊研究院高級研究員


生成式人工智能“顧名思義”就是用來生成創作內容的,所以作爲內容領域定分止爭的版權法一直爲各界高度關注。目前,關於生成式人工智能版權議題的討論也愈發聚焦,主要涉及三個方面:第一,大模型訓練對於作品的利用,是否適用版權法上“合理使用”等限制與例外製度;第二,利用大模型生成的內容,能否受到版權保護;第三,大模型輸出內容發生侵權的情形下,服務提供者的責任承擔和注意義務的界定。本文希望基於國內外相關立法規則和司法實踐的最新動態,並結合當下生成式人工智能產業與技術的發展現狀,就上述三個議題涉及的爭議關注焦點和應對解決思路加以分析、探討。


模型訓練階段:
版權責任豁免問題的思考。
從生成式人工智能全產業週期來看,模型訓練階段的版權問題處於起始環節,因而受到各界的廣泛關注。目前來看,生成式人工智能領域的案件爭議也大都聚焦於這一階段:根據不完全統計,截止2024年4月,美國大模型領域實際在訴案件共有19起,其中14起爲版權侵權案件,核心爭議便是未經授權利用他人作品進行模型訓練。在國內,相關案件爭議實際也已經出現。根據公開報道,2023年11月國內某內容平臺便因未經授權利用他人美術作品,訓練旗下文生圖產品,被四位繪畫創作者起訴至北京互聯網法院,該案件仍在審理階段。目前來看,對於各界廣泛討論的“模型訓練階段的責任豁免問題”有以下四點關注值得思考。

第一,探討前提。

根據法律的基本邏輯,責任豁免的探討應當建立在侵權認定的基礎之上。但當下各界關於大模型訓練能否受到版權法上“合理使用”等制度豁免的論證討論,往往容易忽視了一個前提基礎,即實踐中模型訓練過程到底涉及哪些對於作品的利用行爲。而這些作品利用行爲能否落入到現行版權法賦予版權人的專有權利規制範疇。從技術層面來看,大模型訓練主要涉及作品獲取、作品存儲和作品學習三個階段。對於這三個階段的作品利用行爲是否受到版權法規制,目前各界遠未形成共識。

作品獲取階段,法律層面判斷的核心在於模型訓練廠商在蒐集獲取語料內容的過程中是否存在版權法上破壞“技術保護措施”和刪除“權利管理信息”等違法行爲。作品存儲階段,主要涉及是否存在侵害他人作品“複製權”的行爲,但也有觀點指出這一複製行爲屬於“中間複製”(是後續作品學習行爲的前置環節)和“非公開復制”,並不受到版權法規制。而作品學習階段,是否受到版權法規制更是存在很大爭議。簡單來說,在大模型出現之前,人類學習他人作品進行再創作並不當然被視爲一種侵權行爲。只是當下大模型對於人類在先作品學習利用的效率更高、商業化程度更明顯,故而受到基於上下游利益失衡擔憂帶來的質疑。

第二,競爭環境。

模型訓練階段相關版權規則的設計,還涉及國際層面產業競爭制度環境的問題。因爲模型訓練動輒涉及千億級、萬億級的參數語料訓練,如果一個國家規定模型訓練必須事前完全獲得每一個語料作品的授權,而另一個國家則予以完全責任豁免,則分屬兩國的大模型廠商的發展環境便會存在截然不同的差異。

很多國家和地區其實都已經認識到了這個問題。例如,2024 年 3 月 13 日,歐洲議會批准的《人工智能法案》(最新文本)便強調需要確保通用AI模型服務商之間的公平競爭環境。其第60j條規定,無論支撐通用AI模型訓練的版權利用行爲發生在哪個司法管轄區,任何在歐盟市場上提供通用AI模型的服務商都應遵守歐盟版權法關於“文本與數據挖掘”情形設置的相關義務,任何服務商都不應通過適用低於歐盟版權標準而在歐盟市場上獲得競爭優勢。

第三,現行立法。

應當說我國現行《著作權法》第四節“權利的限制”項下第24條關於“合理使用”的規定以及第25條關於“法定許可”的規定都無法精確涵蓋大模型訓練這一問題。雖然目前立法層面對這一問題無明確規定,但司法層面是存在相關規則適用接口的。2011年12月20日,最高人民法院發佈的《關於充分發揮知識產權審判職能作用推動社會主義文化大發展大繁榮和促進經濟自主協調發展若干問題的意見》第8條規定“在促進技術創新和商業發展確有必要的特殊情形下,考慮作品使用行爲的性質和目的、被使用作品的性質、被使用部分的數量和質量、使用對作品潛在市場或價值的影響等因素,如果該使用行爲既不與作品的正常使用相沖突,也不至於不合理地損害作者的正當利益,可以認定爲合理使用。”一定程度表明,類似於美國版權法中的合理使用“四要素分析法”,在我國存在適用可能性。

也觀察到,在美國司法實踐中已經存在傾向認定大模型訓練符合“合理使用四要素分析法”的裁定。2023年9月25日,美國特拉華州地方法院就“湯森路透訴Ross”人工智能版權侵權案,做出了針對簡易判決動議的駁回裁定。法院傾向於支持複製、利用版權作品用於訓練AIGC模型構成合理使用(符合“轉換性使用”中的“中間複製”標準),前提是如果相關模型僅是學習在先作品中自然語言內含的模式、相關性等,然後根據用戶提問,輸出不同於被訓練語料作品的新內容。但如果只是將原作品複製存儲進人工智能模型,然後以類似檢索工具的方式,根據用戶提問輸出與原作品相同的內容,則無法構成合理使用。

第四,未來方向。

生成式人工智能大模型訓練階段的版權責任豁免問題,涉及版權保護、激勵創作以及技術創新、產業發展等多重價值目標,無疑需要更加平衡和科學的制度設計。如果從大模型領域的國際競爭環境出發,基於促進國內生成式人工智能產業和技術發展,豁免模型訓練階段的版權責任,也需要審慎思考和科學論證是否以及如何設計搭建具有實操性的版權人“退出、保護機制”。值得關注,目前針對“模型訓練”存在成文法規定的國家和地區,在原則上豁免模型訓練廠商事前需獲得作品利用授權的基礎上,也都通過“例外的例外”給予了作品權利人一定的權利保護和訓練退出機制。

2024 年 3 月 13 日,歐洲議會批准的《人工智能法案》(最新版本)關於模型訓練版權責任的要求,實際上轉致到2018年9月12日通過的《單一數字市場版權指令》關於“文本和數據挖掘”的規定。其一,模型訓練版權責任豁免的前提是大模型廠商需要合法獲取作品;其二,商業目的模型訓練,版權人享有通過適當方式(至少包括機器可讀的方式)事先保留這一權利;其三,模型廠商需要制定相應的規則,識別和尊重商業目的下版權人保留自身作品被模型訓練的權利選擇。2024年3月,谷歌便因爲在訓練Gemini產品時違反上述相關要求,而被法國競爭管理局處以2.5億歐元的罰款。

日本2018年修訂《著作權法》提出“非欣賞性利用”條款。該條款雖然不區分商業和非商業情形,完全豁免了人工智能深度學習(也即模型訓練)問題,卻也規定了“但書條款”——即不得對版權人利益造成不當損害。日本文化審議會著作權分科會的相關解讀表示,如果版權人採取了技術保護措施防止自身作品被用於人工智能學習,則規避技術措施進行模型訓練的行爲就落入“但書”的範疇。


內容輸出階段:
生成物可版權性問題的分析。 

第一,爭議聚焦。

關於人類利用人工智能大模型工具創作內容能否構成作品、受到版權法保護的問題,各界的討論由來已久。觀察下來,一個很大的誤區在於有時各方並沒有清晰地界定好討論的前提,將AI自動生成和AI輔助創作下的內容版權屬性判定混在一起。但目前實踐中,該問題的核心爭議其實並不存在於法律層面,而是存在於事實認定層面。

無論是中國還是美國以及國內各界,應當說在法律層面對於版權作品的認定標準並沒有太大爭議,都認爲作品需要體現自然人的獨創性貢獻。也即構成版權法下保護的作品,只能是AI輔助人類創作的內容,而非完全由AI自動生成的內容。當然,在英國、愛爾蘭、南非、烏克蘭(鄰接權模式)等國家現行版權法中存在“計算機作品”的規定,可以對純AI自動生成的內容加以保護。只要該內容經由自然人做出必要的選擇安排便可以,無需獨創性層面的貢獻。但目前來看,畢竟僅是全球立法例中的少數情形。

當下階段,大模型生成內容可版權性問題的關鍵,實際存在於事實認定層面。即在現有生成式人工智能技術原理背景下,人類利用大模型生成內容的過程中能不能體現自身的獨創性貢獻。具體來講是,當使用者利用大模型通過提示詞構思、模型數值設定以及對生成物的多輪選擇和提示詞修改等行爲生成了內容,那麼在這一系列行爲中,使用者是否具有獨創性層面的控制力和可預見性,這是判定相關內容能否受到版權作品保護的核心。目前來看,越來越多的域內外案例實踐也都聚焦於事實層面的認定論證。

第二,案例實踐。

2023年11月27日,北京互聯網法院對國內首例“AI文生圖”案做出判決,明確表示涉案AIGC產品本質是使用者的輔助創作工具,從“構思涉案圖片”(設計人物呈現方式、選擇提示詞、安排提示詞順序、設置相關參數)到“最終選定涉案圖片”(根據初步圖片,增加提示詞、調整參數,多輪最終選擇),能夠體現使用者的獨創性貢獻。因而涉案圖片構成受版權法保護的作品。

此前2023年1月16日,意大利最高法院在“The scent of the night案”中表示,在圖像生成過程中使用軟件,這一事實本身並不足以排除作品創作屬性,而是需要更嚴格地去判斷是否存在一定程度的獨創性。需要法院去評估對工具的使用是否以及在多大程度上反映了使用者的獨創性貢獻。

2023年10月11日,捷克布拉格法院在“S.Š.訴TAUBEL LEGAL案”中也表示,提示詞的設計者是否可以被作爲圖像作者,需要視具體情況而定:如果輸入的提示詞是作者獨特的創作行爲,對生成的圖像有很大程度的貢獻,那麼在這種情況下,設計出提示詞的人因此可以被視爲該圖像的作者,滿足版權法規定的主體要件。

而美國版權局在2023年3月16日發佈的《版權登記指南:包括人工智能生成材料的作品》,及目前決定的四起AIGC註冊案件:2022年2月14日“最近的天堂入口”案;2023年2月21日“黎明的扎里亞”案;2023年9月5日“太空歌劇院”案;2023年12月11日“SURYAST”案,均拒絕授予利用大模型生成的內容以版權保護。美國版權局認爲,不論創建的提示詞多複雜,也不論經過多少輪提示詞修改,使用者在利用大模型生成內容的過程中都無法體現自身的創作貢獻。這明顯也是一個事實判定問題而非法律標準問題。從2024 年 4 月 10 日,美國衆議院司法委員會“人工智能與知識產權”最新聽證會內容來看,各界已經明顯體現出對美國版權局一概拒絕給予利用大模型生成內容以版權保護,對創新激勵機制可能帶來的負面影響的擔憂。

第三,制度思考。

關於人工智能生成內容能否受到作品保護,目前可以從以下幾個層面加以關注探討。

從技術層面來看,生成式人工智能在當下發展階段仍然僅是人類的輔助性創作工具,遠沒有達到突破“主客體、人物二分”的技術臨界點。因此,對於人類利用生成式人工智能大模型創作的內容加以必要保護,可以實現版權法上“激勵自然人創作”的內在制度目標。

從產業層面來看,有恆產者纔會有恆心,不對人類利用大模型生成的內容加以版權法層面的妥當保護,可能會產生一系列負面問題:不僅可能會影響生成內容IP的後續授權和維權穩定性;也存在經由下游大模型使用動力的削減,進而反向影響上游大模型產研發投入的動力。

從制度層面來看,目前AI生成和非AI生成的內容,只是人類利用了不同的創作工具,而在生成內容的外在表現形式層面並無本質差異。因此,在法律層面無需過於激進的制度回應,現行版權法能夠對這一問題加以涵攝回應。不論是創設新的作品類型還是新的鄰接權客體類型,都可能引發與既有作品類型外觀重合的問題。退一步來講,即使借鑑英國的“計算機生成作品”模式,對人工智能生成內容設置權利範疇和保護期限的特殊限制,也存在誘導使用者隱瞞AI生成的反向制度激勵問題,進而導致在實踐中制度難以落地的風險。值得關注的是,自英國1988年創立計算機作品以來,僅衡平法院在2006年1月20日做出一例遊戲畫面被認定爲計算機作品的相關判決,但已經不具備現實參考價值。


侵權責任階段:
服務商注意義務問題的探討。

第一,尊重自治。

根據“權利之所在,責任之所在”的基本原則,哪一方主體享有利用人工智能生成內容的相關權利,哪方主體便需要承擔對應內容可能引發的版權直接侵權責任。從目前各國產業實踐來看,大多數AIGC平臺都會通過“用戶協議”的方式約定生成內容歸使用者所有,並由使用者對生成內容的後續傳播利用承擔相應的責任。

當然,不同的平臺也會從自身商業模式和使用者的不同類型(個人用戶亦或不同規模的企業用戶)出發,對於生成內容的利用權限、範圍加以不同規定,但也都是在尊重用戶選擇和意思自治的範圍內做出的安排。在我國,2023年8月15日起施行的《生成式人工智能服務管理暫行辦法》,也支持生成式人工智能行業通過協議方式約定平臺與使用者之間的權責關係。“暫行辦法”第9條規定,“提供者應當與註冊其服務的生成式人工智能服務使用者簽訂服務協議,明確雙方權利義務。”

第二,技術中立。

值得注意,生成式人工智能的內容輸出模式,決定了其在版權侵權問題判定上存在天然的特殊性。

我們需要首先思考,用戶利用AIGC服務生成內容的行爲究竟是一種版權法規制的“公開傳播”行爲,還是一種不受版權法規制的“個人使用”行爲?目前來看,無論是“文生文”還是“文生圖”領域的AIGC產品,生成的內容都是以對話形式存在於封閉的用戶交互界面之中,原則上都可以被認定爲是一種非公開的個人使用行爲。

從平臺責任角度來看,AIGC服務提供者在平臺屬性和責任判斷上,具有較爲明顯的技術中立性特徵。

從內容生成角度,AIGC平臺本身不會主動輸出任何內容,也不會事前存儲未來將會輸出的內容。從內容傳播角度,前邊也已經提及利用AIGC平臺生成的內容不會向不特定第三方主體呈現展示;此外,對於生成內容後續是否加以公開傳播以及如何進行公開傳播,實際是由使用者而非AIGC平臺享有決定權。

2024年2月8日,廣州互聯網法院在審理的“生成式AI侵權(奧特曼)案”中,就AIGC服務提供者侵權賠償損失責任的認定指出,“……相關類案判決認爲,生成式人工智能具有一定的工具屬性。生成式人工智能既可以用於合法目的,也可以用於非法目的……”2024年3月21日,美國《田納西州確保肖像、聲音和圖像安全法案》通過,強調了對於“內容創造工具開發和提供者的責任認定”需要關注“技術中立性”的要求,“對於軟件提供者,只有當其軟件的‘主要目的’是未經授權生成個人的姓名、照片、聲音或肖像時,纔會承擔責任。如果軟件生成侵權內容的能力是次要的或者與其他目的相關,那麼軟件提供者可能不會承擔法律責任。”

第三,平臺責任。

雖然生成式人工智能的內容輸出模式存在特殊性,並且生成式人工智能服務平臺具備天然的技術中立性,但鑑於其龐大的內容輸出能力,客觀上還是存在提升社會整體版權侵權傳播風險的可能。有研究表明,按照ChatGPT在2023年初的內容生成能力,僅14天便可以輸出相當於1440年古登堡印刷機發明以來,人類社會全部印刷作品的內容總量。

面對新技術、新業態帶來的新平臺責任,應當說版權領域的責任判斷一直都是風向標。作爲全球平臺責任基石的“避風港製度”,便是從版權領域發展而來,並進一步向其他民事權益領域延伸。生成式人工智能技術發展帶來的一個總體趨勢是,使得我們對平臺版權責任的關注,從“內容傳播”領域轉向“內容生成”領域。內容傳播平臺的版權責任判定較爲傳統,而以AIGC服務提供者爲代表的內容生成平臺的版權責任判定則是一個全新的議題。

目前,各界關於大模型服務提供者直接侵權、間接侵權亦或是共同侵權的討論仍在繼續,遠未達成一致意見。但從解決產業發展現實問題的角度,其實更需要關注的是,如何從防範化解社會整體侵權風險、強化版權人利益保護以及促進保障新產業與新技術發展角度,科學的認定AIGC平臺的版權保護注意義務,也即AIGC平臺可以採取哪些實踐中有效、成本上合理、技術上可行的侵權應對措施。整體來看,可以從技術、規則與預防三個層面看待AIGC平臺版權保護注意義務問題。

第四,注意義務。

技術層面,能否通過“調整模型參數”和“刪除被訓練語料庫中的素材”來避免版權侵權?一方面,需要認識到從技術角度着眼,大模型一旦訓練完畢便無法將特定作品內容對應的特定模型參數加以單獨刪除,此外特定作品與特定參數之間也並非簡單的一一對應關係,除非用剔除特定作品後的新語料集對該模型加以再次整體訓練。但明顯這一做法成本過高,實操中很難落地執行。另一方面,刪除語料庫中的特定被訓練作品實操中是可行的,但卻並沒有現實意義。因爲只要訓練完畢,刪除語料的行爲不會對已經訓練好了的模型參數和模型可能輸出的內容產生任何影響。

規則層面,“避風港製度”既有“通知刪除”機制是否仍然有效,科學的必要措施行爲應是如何?一方面,平臺實際上無法直接刪除特定用戶賬號中的侵權內容,因爲該侵權內容存儲在用戶PC或移動端的設備中而非平臺的服務器中。這和此前的內容傳播平臺存在明顯差異,因爲不存在用戶將特定內容上傳到平臺服務器這個環節。但平臺可以採取與其實際技術能力相匹配的措施,例如通知涉嫌侵權的用戶不得進一步傳播侵權內容,並根據侵權行爲的嚴重程度採取類似“三振出局”的手段懲戒相關用戶。另一方面,平臺還需要對生成內容進行打標,否則版權人難以根據侵權內容追溯到特定平臺;同時平臺也需要建立投訴舉報機制,否則權利人也沒法要求平臺採取上述侵權制止舉措。

預防層面,能否通過“內容”和“關鍵詞”過濾機制來避免大模型輸出侵權內容?這裏涉及三個核心問題。第一,過濾機制的運行有賴於侵權內容比對庫的存在。這也就需要權利人與AIGC平臺建立事前的合作機制。第二,過濾比例的技術難題。AIGC平臺可以過濾掉100%或99%相同的內容,但過濾掉10%或20%相似的內容便存在現實困難。需要思考是否平臺積極履行了過濾義務便可以免責,而不應在技術層面過於苛求。最後,過濾機制天然存在“技術誤傷”的問題。特別是針對關鍵詞的過濾,存在很大可能會影響用戶的正常使用,這也是實操中需要關注的問題。