a一级爱做片免费观看欧美,久久国产一区二区,日本一二三区免费,久草视频手机在线观看

新聞中心

EEPW首頁 > 智能計算 > 設計應用 > AI 引發了一場關于網絡爬蟲的戰斗

AI 引發了一場關于網絡爬蟲的戰斗

—— 由于網站限制爬蟲機器人,訓練數據可能最終會供不應求
作者:Eliza Strickland 時間:2024-09-06 來源: 收藏

大多數人認為生成式  會越來越好;畢竟,這是迄今為止的趨勢。它可能會這樣做。但有些人沒有意識到的是,生成式  模型的好壞取決于它們所訓練的巨大數據集,而這些數據集并不是根據 Open 和 Anthropic 等領先 AI 公司擁有的專有數據構建的。相反,它們由我們所有人創建的公共數據組成,包括任何曾經寫過博客文章、發布過視頻、在 Reddit 帖子上發表過評論或基本上在網上做過任何其他事情的人。

本文引用地址:http://www.j9360.com/article/202409/462744.htm

AI 研究人員志愿者團體 Data Provenance Initiative 的一份新報告揭示了所有這些數據的情況。這份題為《危機中的同意:AI Data Commons 的快速衰落》的報告指出,大量感到受到 威脅的組織正在采取措施隔離其數據。IEEE Spectrum 與數據來源計劃(Data Provenance Initiative)的首席研究員 Shayne Longpre 就該報告及其對 AI 公司的影響進行了交談。

Shayne Longpre 發表在:

?  網站如何阻止,以及為什么

?  消失的數據及其對 AI 公司的意義

?  合成數據、峰值數據以及接下來會發生什么

 

網站用來阻止的技術并不新鮮 — 機器人排除協議于 1995 年推出。您能否解釋一下它是什么,以及為什么它在 時代突然變得如此重要?

謝恩·朗普雷: Robots.txt 是一個機器可讀的文件,爬蟲(瀏覽 Web 并記錄所見內容的機器人)使用它來確定是否爬取網站的某些部分。在網站主要使用它來指導 Web 搜索的時代,它成為事實上的標準。所以想想 Bing 或 Google 搜索;他們希望記錄此信息,以便改善用戶在 Web 上導航的體驗。這是一種非常共生的關系,因為 Web 搜索是通過向網站發送流量來運作的,而網站希望如此。一般來說,大多數網站都能很好地與大多數爬蟲配合使用。

接下來,讓我談談對理解這一點很重要的一系列主張。通用 AI 模型及其令人印象深刻的功能依賴于用于訓練它們的數據和計算規模。規模和數據真的很重要,很少有來源像 Web 那樣提供公共規模。因此,許多基礎模型都是在 Web 爬取的 [數據集] 上訓練的。在這些流行和重要的數據集下,基本上只是網站和用于收集、打包和處理這些數據的爬蟲基礎設施。我們的研究不僅關注數據集,還關注來自底層網站的偏好信號。它是數據本身的供應鏈。

但去年,許多網站開始使用 robots.txt 來限制機器人,尤其是通過廣告和付費墻獲利的網站——想想新聞和藝術家。他們特別害怕,也許這是正確的,因為 可能會影響他們的生計。因此,他們正在采取措施保護自己的數據。

當一個網站設置robots.txt限制時,就像豎起了禁止擅自進入的標志,對吧?它不可執行。您必須相信爬蟲會尊重它。

Longpre: 這樣做的悲劇在于,robots.txt 是機器可讀的,但似乎沒有法律效力。而服務條款可能在法律上具有可執行性,但不是機器可讀的。在服務條款中,他們可以用自然語言闡明對數據使用的偏好。所以他們可以說,“你可以使用這些數據,但不能用于商業用途。但是在robots.txt中,您必須單獨指定爬蟲,然后說出您允許或不允許它們的網站哪些部分。這給網站帶來了不必要的負擔,需要在數以千計的不同爬蟲中弄清楚哪些對應于他們想要的用途,哪些對應于他們不喜歡的用途。

我們是否知道爬蟲通常是否遵守 robots.txt 中的限制?

Longpre:許多大公司都有明確說明其規則或程序的文件。例如,在 Anthropic 的案例中,他們確實表示他們尊重 ClaudeBot 的robots.txt。然而,這些公司中的許多公司最近也出現在新聞中,因為它們被指責尊重robots.txt和抓取網站。從外部來看,目前尚不清楚為什么人工智能公司所說的和他們被指控做的事情之間存在差異。但是,許多使用爬蟲的親社會團體——小型創業公司、學者、非營利組織、記者——他們往往尊重robots.txt。他們不是這些限制的預期目標,但他們會被這些限制阻止。

在報告中,您查看了通常用于訓練生成式 AI 系統的三個訓練數據集,這些數據集都是根據過去幾年的創建的。您發現,從 2023 年到 2024 年,此后受到限制的已爬網域數量大幅增加。您能談談這些發現嗎?

Longpre: 我們發現,如果你看一下特定的數據集,讓我們以 2019 年創建的非常流行的 C4 為例——在不到一年的時間里,如果你尊重或遵守底層網站的偏好,它大約 5% 的數據已被撤銷。現在 5% 聽起來并不多,但當您意識到這部分數據主要對應于最高質量、維護最完善和最新的數據時。當我們查看此 C4 數據集中的前 2,000 個網站(這些網站是按大小計算的前 2,000 個網站,它們大多是新聞、大型學術網站、社交媒體和精心策劃的高質量網站)時,前 2,000 個網站中 25% 的數據已被撤銷。這意味著,尊重robots.txt模型的訓練數據分發正在迅速從高質量的新聞、學術網站、論壇和社交媒體轉向更多的組織和個人網站以及電子商務和博客。

如果我們要求某個未來版本的 ChatGPT 或 Perplexity 來回答復雜的問題,并且它從個人博客和購物網站獲取信息,這似乎可能是一個問題。

Longpre: 完全。很難衡量這將如何影響模型,但我們懷疑尊重robots.txt的模型的性能與已經保護這些數據并愿意對其進行訓練的模型的性能之間存在差距。

但較舊的數據集仍然完好無損。AI 公司可以只使用舊數據集嗎?這樣做的缺點是什么?

Longpre:嗯,持續的數據新鮮度真的很重要。目前也不清楚robots.txt是否可以追溯適用。出版商可能會爭辯說他們有。因此,這取決于您對訴訟的胃口,或者您也認為趨勢可能會走向何方,尤其是在美國,圍繞合理使用數據的訴訟正在進行中。最好的例子顯然是《紐約時報》對 OpenAI 和 Microsoft 的反對,但現在有很多變體。關于它會走向何方,存在很多不確定性。

這份報告被稱為《危機中的同意》(Consent in Crisis)。您為什么認為這是一場危機?

Longpre:我認為這對數據創建者來說是一場危機,因為很難用現有協議來表達他們想要的東西。此外,對于一些非商業性甚至可能與 AI 無關的開發人員來說,學者和研究人員發現這些數據越來越難訪問。我認為這也是一場危機,因為它太混亂了。基礎設施的設計并不是為了同時容納所有這些不同的使用案例。由于這些巨大的行業發生碰撞,它最終成為一個問題,生成式 AI 針對新聞創作者和其他人。

如果這種情況持續下去,越來越多的數據受到限制,AI 公司該怎么辦?為了繼續訓練巨大的模型,他們的行動會是什么?

Longpre: 大公司將直接許可它。如果大量這些數據被取消抵押品贖回權或難以收集,對于一些大公司來說,這可能不是一個壞結果,它只會為進入創造更大的資本要求。我認為大公司將加大對數據收集管道的投資,并持續訪問用戶生成的寶貴數據源,例如 YouTube、GitHub 和 Reddit。獲得對這些網站的獨家訪問權可能是一種明智的市場游戲,但從反壟斷的角度來看,這是一個有問題的游戲。我特別擔心由此可能產生的獨家數據獲取關系。

您認為合成數據可以填補空白嗎?

Longpre: 大公司已經在大量使用合成數據。合成數據既有恐懼,也有機遇。一方面,有一系列工作證明了模型崩潰的可能性,即由于對不良合成數據進行訓練而導致的模型退化,隨著越來越多的生成機器人被釋放,這些數據可能會更頻繁地出現在網絡上。但是,我認為大型模型不太可能受到太大阻礙,因為它們具有高質量的過濾器,因此質量差或重復的內容可以被抽走。合成數據的機會在于,它在實驗室環境中創建得非常高質量,并且它特別針對未開發的領域。

您是否相信我們可能處于峰值數據的觀點?或者你覺得這是一個夸大其詞的擔憂?

Longpre: 那里有很多未開發的數據。但有趣的是,很多都隱藏在 PDF 后面,因此您需要進行 OCR [光學字符識別]。許多數據被鎖定在政府、專有渠道、非結構化格式或 PDF 等難以提取的格式中。我認為在弄清楚如何提取這些數據方面將投入更多資金。我確實認為,就容易獲得的數據而言,許多公司開始碰壁并轉向合成數據。

這里的趨勢線是什么?您是否希望在未來幾年看到更多網站設置robots.txt限制?

Longpre: 我們預計,無論是在robots.txt方面還是在服務方面,限制都會增加。這些趨勢線從我們的工作中非常清晰,但它們可能會受到外部因素的影響,例如立法、公司本身改變政策、訴訟結果以及來自作家協會的社區壓力等等。我預計,數據商品化的加劇將導致該領域的更多戰場。

您希望看到行業內的標準化與使網站更容易表達有關抓取的偏好方面發生什么?

Longpre: 在 Data Province Initiative,我們絕對希望出現并采用新標準,使創作者能夠以更精細的方式表達他們對數據使用的偏好。這將使他們的負擔減輕得多。我認為這是不費吹灰之力的雙贏。但目前尚不清楚誰的工作是制定或執行這些標準。如果 [AI] 公司自己能夠得出這個結論并付諸實踐,那就太神奇了。但是,標準的設計者幾乎不可避免地會對自己的使用產生一些偏見,特別是如果它是一個公司實體。

此外,并非所有情況下都不應尊重偏好。例如,我不認為從事親社會研究的學者或記者必須被取消贖回權,不能使用已經公開的機器訪問任何人都可以自己訪問的網站中的數據。并非所有數據都是平等的,也不是所有用途都是平等的。



關鍵詞: AI 網絡爬蟲 生成式 AI

評論


相關推薦

技術專區

關閉