沒有授權也阻止不了，多家AI公司繞過網絡標準抓取出版商網站內容

作者：時間：2024-06-24 來源：IT之家

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

6 月 24 日消息，據路透社上周六報道，專注于“內容許可”領域的初創公司 TollBit 近日向新聞出版商發出警告稱，多家人工智能公司正在規避出版商用來阻止抓取內容的常見網絡標準，并將抓取的內容用于訓練生成式 AI 系統。

本文引用地址：http://www.j9360.com/article/202406/460214.htm

這一消息是在 AI 搜索初創公司 Perplexity 與媒體《福布斯》之間就同一網絡標準公開爭執的背景下發出的。當前，科技和媒體公司之間正在就生成式 AI 時代的內容價值展開更廣泛的辯論。

Tollbit 將自己定位為內容匱乏的 AI 公司與愿意與他們達成重大許可協議的出版商之間的“媒人”。

IT之家注：《福布斯》曾指責 Perplexity 在 AI 生成的摘要中剽竊其報道內容，然而前者并未標注消息來源，也沒有獲得《福布斯》的許可。

另外，《連線》（Wired）雜志上周也發表了一篇調查報道并指出，Perpexity 可能繞過了（新聞出版商設置的）“機器人排除協議（Robots Exclusion Protocol）”或其他阻止網絡爬蟲的程序。

圖源 Pexels

自稱代表 2000 多家美國出版商的貿易組織“新聞媒體聯盟”也對這一行為表示擔憂 ——AI 公司對出版商設置的“禁止抓取”機制或“robots.txt”等工具置若罔聞。該組織主席 Danielle Coffey 表示，“如果 AI 公司無法停止大規模抓取的話，我們就無法通過有價值的內容獲利，也無法為記者們支付報酬。”

Tollbit 表示，Perplexity 并不是唯一無視出版商網站“禁止抓取”機制的違規者。根據其分析，“大量”AI 平臺繞過了這一機制，而該機制為 AI 平臺抓取自家內容設置了一份“白名單”—— 指示其網站哪些部分可以被抓取。

“這意味著，來自多個來源（而不僅僅是一家公司）的 AI 平臺正在選擇繞過 robots.txt 協議來從網站中檢索內容，”TollBit 寫道，“我們獲取的出版商日志越多，這種模式出現的次數就越多?！?/p>

包括《紐約時報》在內的一些出版商已就這些侵權行為起訴 AI 公司。其他出版商則與人工智能公司簽署了許可協議，AI 公司們也愿意為內容付費，盡管雙方往往對材料的價值存在分歧。許多 AI 開發者認為，他們免費獲取內容并未違反任何法律。