每日經(jīng)濟(jì)新聞 2024-07-08 22:20:03
每經(jīng)記者 文巧 鄭雨航 每經(jīng)編輯 蘭素英
想象一下,在一個巨大的機(jī)房內(nèi),數(shù)不清的服務(wù)器閃爍著點點亮光,隨著數(shù)據(jù)流的進(jìn)入,大語言模型將其一股腦兒“吞食”,隨后開始高速分析和處理。在日復(fù)一日的數(shù)據(jù)“投喂”和深度學(xué)習(xí)技術(shù)的推動下,大模型表現(xiàn)得越來越類人化,OpenAI等一眾AI公司也隨之迎來迅猛發(fā)展。
然而,對于到底“投喂”了什么數(shù)據(jù),是否獲得授權(quán),這些AI公司總是諱莫如深。伯克利計算機(jī)科學(xué)家Stuart Russell等學(xué)者認(rèn)為,大模型吞噬了大多數(shù)互聯(lián)網(wǎng)信息,以復(fù)制人類智能并將其以自動化形式鏡像回饋給我們。
當(dāng)意識到其網(wǎng)站上發(fā)布的故事都被自動抓取成了大模型的“食物”后,以《紐約時報》為首的媒體/出版機(jī)構(gòu)向OpenAI等發(fā)起了版權(quán)訴訟?!睹咳战?jīng)濟(jì)新聞》記者在采訪哈佛法學(xué)院教授麗貝卡·塔什內(nèi)特(Rebecca Tushnet)、安杰世澤律師事務(wù)所合伙人于雯竹后了解到,此類案件判定的難點在于如何確定AI輸出內(nèi)容與媒體報道間的“實質(zhì)性相似”。
另一方面,OpenAI等科技公司也向媒體/出版機(jī)構(gòu)拋出了橄欖枝,因為數(shù)據(jù)總有耗光的一天。研究機(jī)構(gòu)Epoch AI近期預(yù)測,大模型將在2026年至2032年之間消耗完所有可用數(shù)據(jù)。
有外媒評論稱,起訴或許是《紐約時報》談判的手段之一。實際上,在起訴之前,《紐約時報》與OpenAI一直在商談授權(quán)合作協(xié)議。圖為OpenAI創(chuàng)始人兼首席執(zhí)行官阿爾特曼。 視覺中國圖
付費內(nèi)容被抓取
2009年末,媒體大亨默多克曾在一場論壇上說:“有些人覺得他們有權(quán)拿走我們的新聞內(nèi)容,還無需為新聞生產(chǎn)貢獻(xiàn)一分錢。他們幾乎侵吞了我們的全部新聞,這可不是合理使用。說得直白些,這就是偷。”
當(dāng)時,隨著谷歌等新興互聯(lián)網(wǎng)公司的出現(xiàn),美國報業(yè)的廣告收入腰斬。而如今,OpenAI等生成式AI公司的強(qiáng)勢崛起,類似的一幕似乎又開始重演。
新聞集團(tuán)首席執(zhí)行官羅伯特·湯姆森就曾表示,“媒體的集體知識產(chǎn)權(quán)正受到威脅,我們應(yīng)該大聲要求賠償”。新聞行業(yè)律師Steven Lieberman更是直言,OpenAI的巨大成功也要歸功于其他人的工作,它在未經(jīng)許可或付款的情況下獲取了大量優(yōu)質(zhì)內(nèi)容。
據(jù)外媒,ChatGPT主要通過閱讀書籍、文章和公開的網(wǎng)絡(luò)內(nèi)容來學(xué)習(xí),包括來自互聯(lián)網(wǎng)的在線新聞文章。類似的大語言模型也依賴的是社交媒體帖子、博客、數(shù)字化書籍、在線評論、維基百科頁面以及人們能想到的幾乎所有網(wǎng)絡(luò)信息。
在意識到ChatGPT對歷史和時事的了解源自其網(wǎng)站上發(fā)布的故事(甚至是付費內(nèi)容)時,去年底,《紐約時報》對OpenAI以及微軟提起訴訟,指控后者未經(jīng)授權(quán)使用該報版權(quán)內(nèi)容訓(xùn)練AI模型,并在ChatGPT產(chǎn)品中呈現(xiàn)給用戶。
該案打響了媒體機(jī)構(gòu)起訴OpenAI的第一槍,隨后又有多家媒體加入了這一隊列。據(jù)《每日經(jīng)濟(jì)新聞》記者不完全統(tǒng)計,截至今年6月底,已至少有13家新聞媒體機(jī)構(gòu)對OpenAI和微軟提起侵權(quán)訴訟。這里面有Alden Global投資集團(tuán)旗下的地區(qū)性知名報紙,包括芝加哥論壇報、紐約每日新聞、丹佛郵報,還有數(shù)字新聞媒體The Intercept、Raw Story以及非盈利新聞組織The Center for Investigative Reporting。
“判斷這種數(shù)據(jù)抓取行為是否侵犯版權(quán),是一個復(fù)雜且有爭議的問題。”安杰世澤律師事務(wù)所合伙人、中國和美國紐約州執(zhí)業(yè)律師于雯竹在接受《每日經(jīng)濟(jì)新聞》記者采訪時表示。
這些訴訟只是各行業(yè)與生成式AI公司斗爭的縮影。
美國當(dāng)?shù)貢r間6月24日,全球三大唱片公司索尼音樂集團(tuán)、環(huán)球音樂集團(tuán)和華納音樂聯(lián)合多家唱片公司,向AI音樂生成公司Suno和Udio 開發(fā)商Uncharted Labs發(fā)起訴訟,指控后者非法使用版權(quán)音樂來訓(xùn)練模型并提供服務(wù)。唱片公司指控Suno抄襲了662首歌曲,Udio抄襲了1670首歌曲,正在嘗試索取每件音樂作品最高15萬美元的賠償費用。
8個月角力無結(jié)果
越來越多關(guān)于生成式AI技術(shù)的法律之爭也讓人們開始正視媒體/出版商與顛覆性技術(shù)之間的關(guān)系。
據(jù)著名廣告周刊Adweek報道,谷歌去年5月推出了基于AI的搜索引擎 Search Generative Experience(SGE)測試版,接受采訪的媒體高管和搜索引擎優(yōu)化專家稱,出版商必須為自然搜索流量的大幅下降做好準(zhǔn)備,下降幅度可能在20%到60%之間。而出版商在開放網(wǎng)絡(luò)上的搜索流量減少通常意味著數(shù)字廣告收入下降。新型媒體公司Raptive創(chuàng)新執(zhí)行副總裁Marc McCollum估計,在目前的SGE下,整個出版業(yè)每年的廣告收入損失可能高達(dá)20億美元。
而《紐約時報》的起訴不僅是媒體領(lǐng)域的重要里程碑案件,亦可以為法律業(yè)界提供極具參考價值的信息。
“就版權(quán)法而言,本案的重要影響在于版權(quán)法在數(shù)字和AI時代的適用范圍。特別是對于新聞報道這類具有較高公共利益的文本內(nèi)容,如何平衡版權(quán)保護(hù)和信息自由將成為一個關(guān)鍵問題。”于雯竹對記者說道。
在于雯竹看來,如果《紐約時報》的訴訟獲得成功,將樹立一個重要的法律先例,鼓勵其他文字類媒體、版權(quán)機(jī)構(gòu)和作家團(tuán)體組織跟隨起訴OpenAI及類似的AI公司。本案可能會督促AI公司重視AI模型訓(xùn)練的合法性,可能推動相關(guān)行業(yè)規(guī)范的建立。
目前,該案件已經(jīng)持續(xù)將近8個月,但還沒有定論。
“實質(zhì)性相似”難證明
《紐約時報》在起訴書中稱,ChatGPT幾乎逐字復(fù)制了其新聞報道。該報舉例稱,2019年,《紐約時報》發(fā)表了一篇榮獲普利策獎的關(guān)于紐約市出租車行業(yè)掠奪性貸款的系列文章。該報稱,只要稍加提示,ChatGPT就會一字不差地背誦其中的大部分內(nèi)容。
在其他多家媒體的起訴書中,記者發(fā)現(xiàn),其法律論證和主張都基于美國1976年版權(quán)法和《數(shù)字千年版權(quán)法》(DMCA)。
對于這兩部法案中涉及AI的內(nèi)容,于律師告訴記者,“就1976年版權(quán)法而言,侵權(quán)的判定通常依賴于原作品和被指控侵權(quán)作品之間的相似性,以及實際的復(fù)制行為。本案中實際復(fù)制行為相對容易證明,因為OpenAI并未否認(rèn)其訓(xùn)練數(shù)據(jù)中包含《紐約時報》的文章。”
然而難點在于,“證明最終生成的文本構(gòu)成版權(quán)侵權(quán)仍需滿足‘實質(zhì)性相似’測試,因為它有助于判斷受版權(quán)保護(hù)的表達(dá)元素是否被復(fù)制,還是僅復(fù)制了其中的思想。版權(quán)保護(hù)的是表達(dá),而不是思想。你可以用自己的語言重新實現(xiàn)他人的思想,這不構(gòu)成版權(quán)侵權(quán)。但如果你使用他人的語言——即他們的表達(dá)——那就是版權(quán)侵權(quán)。”于律師說道。
談及DMCA,于雯竹解釋道:“其中的一項規(guī)定鼓勵版權(quán)持有者在數(shù)字資產(chǎn)中添加內(nèi)容管理信息(CMI),例如幫助識別創(chuàng)作者或權(quán)利持有者的信息,并禁止他人移除這些信息。”
然而,《紐約時報》起訴書提到,OpenAI在抓取其文章以創(chuàng)建數(shù)據(jù)庫時,移除了這些信息,違反了DMCA。
“實際上,美國是判例法國家,而其版權(quán)法及DMCA并未特別規(guī)定與AI相關(guān)的法律內(nèi)容,對于OpenAI的行為是否屬于侵權(quán)的認(rèn)定,法院依據(jù)的是相關(guān)的先例及其對相關(guān)法律條文的解釋。”于雯竹表示。
公司稱是“合理使用”
在回應(yīng)《紐約時報》版權(quán)侵權(quán)訴訟時,OpenAI強(qiáng)調(diào)使用公開材料訓(xùn)練AI模型屬于合理使用。這一規(guī)則基于美國1976年版權(quán)法第107條規(guī)定。
哈佛法學(xué)院教授麗貝卡·塔什內(nèi)特在接受《每日經(jīng)濟(jì)新聞》記者采訪時認(rèn)為,“美國版權(quán)法既提供了廣泛的權(quán)利,也提供了廣泛的例外。關(guān)鍵問題是AI訓(xùn)練是否構(gòu)成‘合理使用’,以及當(dāng)AI輸出的內(nèi)容與現(xiàn)有作品過于相似時,該問題到底應(yīng)該歸咎于模型還是用戶的濫用”。
塔什內(nèi)特認(rèn)為,“OpenAI提供了有一個有趣的主張,即(AI)要獲得高度相似的輸出,必須故意用《紐約時報》原始文章中的大量引文來提示模型,這表明錯誤在于提示者(用戶的濫用)”。
“‘合理使用’是美國版權(quán)法的一項關(guān)鍵優(yōu)勢,使其能夠應(yīng)對不斷變化的情況。它促成了我們所知道的現(xiàn)代互聯(lián)網(wǎng)的興起,尤其是搜索引擎。按照同樣的推理,只要輸出通常不是從特定作品中復(fù)制而來,創(chuàng)建AI模型就應(yīng)該被視為變革性的和公平的。”她對記者解讀稱,“我認(rèn)為這是一個相當(dāng)標(biāo)準(zhǔn)的有關(guān)‘合理使用’的問題”。
根據(jù)1976年版權(quán)法,判定合理使用的認(rèn)定包括四個因素。其中,于雯竹認(rèn)為,最重要的是第四點:使用對版權(quán)作品的潛在市場或價值的影響。簡而言之,就是新作品是否對原作品構(gòu)成市場損害。
《紐約時報》在起訴書中稱,OpenAI的AI工具不僅未經(jīng)授權(quán)使用了《紐約時報》的數(shù)據(jù)進(jìn)行訓(xùn)練,還分流了《紐約時報》網(wǎng)站的流量,導(dǎo)致公司廣告、訂閱和授權(quán)營收的損失。因此《紐約時報》公司向OpenAI和微軟提出數(shù)十億美元的索賠,并要求他們停止使用自己的內(nèi)容數(shù)據(jù)。
“我認(rèn)為OpenAI的‘合理使用’辯護(hù)在理論上具有較大的合理性,但其成功與否取決于法院對四因素測試的具體評估。”于雯竹說道。
塔什內(nèi)特也表示,“我對法院是否會駁回(OpenAI)的所有辯護(hù)持懷疑態(tài)度,但沒有什么是絕對肯定的”。
窘境之下的合作
目前,OpenAI可以合法地為其模型“喂食”什么內(nèi)容這一問題仍待解決,但媒體機(jī)構(gòu)的策略開始呈現(xiàn)分化趨勢。
當(dāng)?shù)貢r間6月27日,《時代》雜志與OpenAI宣布,兩家公司達(dá)成了一項多年內(nèi)容授權(quán)協(xié)議和戰(zhàn)略合作伙伴關(guān)系。該協(xié)議允許OpenAI將這家出版商的內(nèi)容引入ChatGPT,并幫助訓(xùn)練其最先進(jìn)的AI模型。
據(jù)新聞稿介紹,OpenAI可以通過這筆交易訪問《時代》過去100多年的檔案和文章,以訓(xùn)練其AI模型,并在其面向消費者的產(chǎn)品(如ChatGPT)中用于回復(fù)用戶的詢問。但雙方的交易價值并未透露。
今年5月,OpenAI和新聞集團(tuán)也達(dá)成了類似的合作關(guān)系。在此合作下,OpenAI有權(quán)訪問新聞集團(tuán)旗下媒體的當(dāng)前和存檔文章,包括《華爾街日報》《MarketWatch》《巴倫周刊》《紐約郵報》等。
《每日經(jīng)濟(jì)新聞》記者注意到,過去半年時間,OpenAI已連續(xù)與多家媒體機(jī)構(gòu)達(dá)成協(xié)議。
對媒體機(jī)構(gòu)來說,接受OpenAI等AI巨頭拋來的橄欖枝,與科技公司在AI新時代合作,共同探索新的資訊形態(tài)、商業(yè)模式和分成比例,可能是最好的選擇。與OpenAI合作的媒體公司認(rèn)為,生成式AI將繼續(xù)存在,最好能分一杯羹。此外,與OpenAI合作讓出版物在某種程度上可以控制他們的新聞報道在ChatGPT響應(yīng)中的呈現(xiàn)方式。
正如新聞集團(tuán)首席執(zhí)行官Robert Thomson所稱,“(與OpenAI的協(xié)議)認(rèn)可了頂級新聞應(yīng)有頂級價格。數(shù)字化時代的一大特征是分銷者占據(jù)主導(dǎo)地位,而內(nèi)容創(chuàng)作者經(jīng)常利益受損。很多媒體公司都被無情的科技大潮所卷席。我們現(xiàn)在有責(zé)任抓住這一最大的機(jī)遇”。
有外媒評論稱,起訴或許也是《紐約時報》談判的手段之一。實際上,在起訴之前,《紐約時報》與OpenAI一直在商談授權(quán)合作協(xié)議,但在OpenAI加入了新的免責(zé)條款后,談判破裂。
對科技公司來說,支付授權(quán)費用一方面可以有效化解法律風(fēng)險,另一方面可以獲得更多優(yōu)質(zhì)訓(xùn)練數(shù)據(jù),優(yōu)質(zhì)數(shù)據(jù)才是決定未來AI大模型優(yōu)劣的關(guān)鍵因素。畢竟,當(dāng)前各大科技公司都面臨數(shù)據(jù)枯竭的風(fēng)險。
在6月更新的一項研究成果中,人工智能研究機(jī)構(gòu)Epoch AI稱,據(jù)他們估測,目前人類生成的公開文本總量約為300萬億個Token,但使用數(shù)據(jù)的速度遠(yuǎn)遠(yuǎn)超過了生成數(shù)據(jù)的速度,這意味著大模型將在2026年至2032年之間消耗完所有可用數(shù)據(jù)。
與AI公司合作到底能給媒體機(jī)構(gòu)帶來多大的收益?
以新聞集團(tuán)舉例,《每日經(jīng)濟(jì)新聞》記者注意到,除2024財年第二財季由于圖書出版成本降低以及與宣布的5%裁員計劃相關(guān)的總成本節(jié)省所帶來的高額凈收入之外,新聞集團(tuán)每個季度的凈收入均在6000萬美元以內(nèi)。而《華爾街日報》援引知情人士的消息稱,新聞集團(tuán)與OpenAI的協(xié)議價值在五年內(nèi)可能超過2.5億美元,包括現(xiàn)金和使用OpenAI技術(shù)的積分形式的補(bǔ)償。如此算來,相當(dāng)于OpenAI每年將向新聞集團(tuán)支付高達(dá)5000萬美元的內(nèi)容授權(quán)費用,這幾乎相當(dāng)于新聞集團(tuán)將近一個財季的凈收入。
從近期科技公司與媒體達(dá)成的合作金額來說,這一交易可以算是AI行業(yè)發(fā)展的里程碑事件。而且,新聞集團(tuán)與OpenAI的協(xié)議并非是一份獨家授權(quán)協(xié)議,意味著新聞集團(tuán)還可以從谷歌等其他AI公司繼續(xù)獲得授權(quán)收入。
湯森路透的財報也證實了合作帶來的收益?!睹咳战?jīng)濟(jì)新聞》記者查詢湯森路透公司的財報發(fā)現(xiàn),2024年第一季度,該公司收入為18.85億美元,同比增長8%。該公司在財報中寫道,“(增長)主要是由于‘三大’部門(該公司的法律、企業(yè)和稅務(wù)以及會計部門)的經(jīng)常性收入和交易收入的強(qiáng)勁增長,以及路透社新聞部門的生成式AI相關(guān)內(nèi)容許可收入”。
一季度財報顯示,路透社新聞業(yè)務(wù)的收入為2.1億美元,同比增長3%。這一增長主要是由于湯森路透與倫敦證券交易所集團(tuán)(LSEG)數(shù)據(jù)分析部門簽訂的新聞協(xié)議。根據(jù)該協(xié)議,路透社新聞將向LSEG授權(quán)提供新聞內(nèi)容,后者用于生成AI相關(guān)內(nèi)容。2024年第一季度,僅該協(xié)議為路透社新聞業(yè)務(wù)帶來的收入就高達(dá)9600萬美元。
封面圖片來源:視覺中國
如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP