OpenAI新產(chǎn)品GPTBot:可爬取網(wǎng)絡數(shù)據(jù),為GPT-5做準備
激石Pepperstone(http://wargoo.com/)報道:
8月8日,OpenAI在官網(wǎng)介紹了新產(chǎn)品GPTBot,這是一種網(wǎng)絡爬蟲,可大規(guī)模爬取網(wǎng)絡數(shù)據(jù)用于訓練AI模型。(地址:https://platform.openai.com/docs/gptbot)
OpenAI表示,將通過GPTBot抓取海量數(shù)據(jù),用于訓練、優(yōu)化未來模型。國外不少科技媒體指出,這個未來模型指的就是GPT-5。
事實上,OpenAI在今年7月18日提交了GPT-5商標的消息,此時又放出全新網(wǎng)絡爬蟲, 說明GPT-5離我們越來越近了。
GPTBot介紹
GPTBot是OpenAI的網(wǎng)絡爬蟲,可以通過以下用戶代理和字符串來識別,代碼如下。
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
OpenAI會對抓取的數(shù)據(jù)進行過濾,例如,刪除需要付費才能查看、使用的數(shù)據(jù),搜集的個人身份信息(PII)或違反法律法規(guī)的數(shù)據(jù)等,以保證抓取的數(shù)據(jù)符合安全標準。
如果用戶的網(wǎng)站不想被GPTBot抓取數(shù)據(jù),可以將GPTBot添加到站點的robots.txt中,代碼如下:
User-agent: GPTBot
Disallow: /
用戶也可以自定義GPTBot的訪問權限,將其添加到網(wǎng)站的robots.txt中,代碼如下:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
什么是網(wǎng)絡爬蟲
網(wǎng)絡爬蟲,是一種主要通過瀏覽網(wǎng)絡抓取數(shù)據(jù)的工具,方式包括數(shù)據(jù)挖掘,網(wǎng)頁數(shù)據(jù)復制/拍照、網(wǎng)站鏡像等方式。
網(wǎng)絡爬蟲是互聯(lián)網(wǎng)和大數(shù)據(jù)時代最重要工具之一,被譽為“黃金礦工”應用場景非常廣泛。
例如,谷歌、百度等搜索引擎通過網(wǎng)絡爬蟲來收集和建立網(wǎng)頁索引,方便用戶可以通過關鍵字快速找到相關的網(wǎng)頁。
也有商業(yè)機構使用網(wǎng)絡爬蟲實時收集競爭對手的信息,如產(chǎn)品價格、新產(chǎn)品發(fā)布、營銷活動等,以進行市場分析和營銷策略制定。
網(wǎng)絡爬蟲的缺點
雖然網(wǎng)絡爬蟲功能強大,但也存在數(shù)據(jù)質量不穩(wěn)定、版權風險、難以爬取特定內容、爬取頻率等缺點。
數(shù)據(jù)質量不穩(wěn)定:網(wǎng)絡爬蟲抓取的數(shù)據(jù)可能包含大量非法、虛假或質量低下的數(shù)據(jù),例如,爬取了一個非法網(wǎng)站的數(shù)據(jù)。因此,想使用爬蟲的數(shù)據(jù)需要進行清洗和處理。
版權風險:網(wǎng)絡爬蟲可能會侵犯數(shù)據(jù)隱私和版權,違反網(wǎng)站的使用協(xié)議帶來法律風險。例如,非法爬取了目標網(wǎng)站的付費內容。
難以爬取特定內容:對于一些需要用戶輸入或交互才能獲取的內容,例如,網(wǎng)站搜索結果、驗證碼、登錄后才能查看的內容等,網(wǎng)絡爬蟲可能難以抓取。
爬取頻率:網(wǎng)絡爬蟲抓取的數(shù)據(jù)是靜態(tài)的,不能實時反映網(wǎng)頁的變化需要定期重新抓取。但頻率過高會對目標網(wǎng)站的服務器造成巨大壓力影響其正常服務,頻率太低數(shù)據(jù)更新又不及時,需要制定一個合理的頻率。
如今在大模型等AI技術加持下,上述常見的網(wǎng)絡爬蟲缺點已得到克服,并且更注重數(shù)據(jù)版權、安全等問題。
網(wǎng)絡爬蟲抓取的數(shù)據(jù),是訓練大語言模型的重要來源
目前,訓練大語言模型的主要數(shù)據(jù)來源包括自有數(shù)據(jù)集、開源數(shù)據(jù)集和網(wǎng)絡爬蟲等。自有數(shù)據(jù)集主要應用在特定業(yè)務場景的微調,例如,法律領域的使用真實的法律裁決、書籍、法律合同等數(shù)據(jù),訓練專用于法律的生成式AI產(chǎn)品。
開源數(shù)據(jù)集,這種數(shù)據(jù)是很多大型廠商開源的數(shù)據(jù)有的可用于商業(yè)化,有的只能用于技術研究,并且數(shù)據(jù)可能存在老舊的情況。所以,網(wǎng)絡爬蟲成為企業(yè)訓練通用大模型的重要數(shù)據(jù)來源。
例如,OpenAI的GPT-3模型使用了45TB的互聯(lián)網(wǎng)文本進行訓練,包括代碼、小說、百科、新聞、博客等,而這些數(shù)據(jù)來源多數(shù)是通過網(wǎng)絡爬蟲獲取。
所以,我們有時候會看到ChatGPT會生成虛假的信息,就是因為在爬取時本身就抓取了錯誤、虛假的信息,在清洗、預訓練、微調的過程中又沒發(fā)現(xiàn),才會出現(xiàn)這樣的情況(有時也存在AI算法問題等)。
不過OpenAI已經(jīng)制定了嚴格的數(shù)據(jù)獲取、使用標準,避免這種情況發(fā)生。?????????