Cloudflare推出封鎖AI內容爬蟲機器人的功能,免費版也適用

ChatGPT的開發商OpenAI在去年公開其網頁爬蟲”GPTBot“相關資訊之後,
個人便立刻按照說明文件著手更新robots.txt,將GPTBot給加入拒絕名單了,
畢竟放給它檢索對吸引新讀者毫無幫助,僅僅就只是增加我的伺服器負擔而已;
然而坊間推出AI相關服務的廠商如雨後春筍,其中大部份卻不見得像OpenAI那樣真小人、
肯光明正大的介紹自己的爬蟲機制,面對如此情況…..又該如何過濾即將湧來的大批bot呢?
根據從iThome看到的報導,Cloudflare日前所推出的AI內容爬蟲封鎖功能,或許可以解決這個問題!

(以下內容引述自iThome)
…..有鑒於OpenAI、Google等AI業者以網頁機器人(bot)未經同意擷取網路論壇或內容出版商公開網頁的內容,
Cloudflare推出防範工具
…..
…..生成式AI正夯,推升業者對模型訓練和推論的需求。
有的AI業者會明白揭露網頁擷取機器人的存在,但不是大家都如此。
例如美國女演員Scarlett Johansson指控OpenAI未經同意使用其聲音整合到個人助理服務,
Perplexity則被控冒充合法用戶以擷取別的網站內容
…..
…..Cloudflare去年就宣布了能封鎖網頁爬蟲機器人的服務給任何Cloudflare方案的用戶,
最基礎的稱為Bot Fight Mode。這服務利用攻擊簽章比對、啟發式技術、
機器學習和行為分析技術,辨別好的或壞的機器人。
所謂好的AI機器人(AI bot)是會尋找robots.txt,試圖遵守合法規範,
也不非法使用網頁內容訓練模型或執行RAG(reinforcement augmented generation)應用。
Clouflare還提供了驗證機器人目錄,允許「好機器人」如GoogleBot註冊,
以便Cloudflare客戶有權放行
…..
…..不過針對排斥所有AI機器人的網站,
Cloudflare最近又加入了一鍵封鎖所有AI機器人的服務,提供給免費或付費用戶。
用戶可以在Cloudflare控制臺的「設定」>「Bots」專頁中的AI Scrapers and Crawlers滑鈕
…..
…..

根據Cloudflare官方Blog的介紹,在所有對Cloudflare服務發送過請求的AI爬蟲中,
請求數量最高的前四名分別為Bytespider、Amazonbot、ClaudeBot和GPTBot,
依序分別屬於字節跳動(ByteDance,擁有TikTok)、亞馬遜(Amazon, 擁有Amazon Alexa服務)、
Claude(擁有Claude聊天機器人),以及OpenAI(擁有ChatGPT):
Cloudflare, Block AI Scrapers and Crawlers
其中字節跳動的AI bot居然是第一名還滿令我驚訝…..Bytespider的臭名就連我也耳聞已久,
其不僅被多次發現完全無視robots.txt的規則,還有著極高爬行頻率(crawling rates),
讓許多網站管理者在stackoverflowReddit上紛紛抱怨被吃掉網路頻寬,
鑒於未來可能有越來越多的AI營運商會使用和Bytespider一樣不要臉的方式爬梳網站,
只寄望於robots.txt只怕已經不夠,Cloudflare這新功能推出的可說是頗為及時呢!

要開啟封鎖AI內容爬蟲機器人的功能還滿簡單的,進入Cloudflare的網站面板後,
點選左側導覽列內”網路安全”之中的”機器人”,即可看到選項:
Cloudflare, Block AI Scrapers and Crawlers
第一個”機器人對抗模式(Bot Fight Mode)”即為iThome報導內提及”辨別好或壞機器人”的選項,
該功能去年就已經釋出,開啟後即可允許遵守robots.txt規則的”好機器人”;
而位於下方的第二個”AI抓取程式和網路爬蟲(Block AI Scrapers and Crawlers)”,
才是Cloudflare最新提供的選項,開啟後便能自動封鎖AI服務供應商的機器人,
以避免網站內容遭到AI服務供應商利用,像是拿去訓練模型等等:
Cloudflare, Block AI Scrapers and Crawlers
我自己應該會選擇打開”AI抓取程式和網路爬蟲”吧,
這個網站純粹是私人興趣,寫文章主要還是為了交流及互動,
給AI服務商爬內容不僅對我無甚好處,還會沒事增加網站資源使用率,
完全想不到有什麼開放的理由…..如同我這樣判斷的人應該也很多,
為了繼續取得資料,想必AI服務供應商那邊也會不斷出新招,
接著大概就看Cloudflare更新機器人指紋特徵的頻率.能否跟得上這場諜對諜了 XD

迴響: 0 則迴響

文章分類:電腦相關

標籤: , , , , , ,

發表迴響

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料