當前位置：首頁 > 外匯資訊 > 正文內容

OpenAI新產(chǎn)品GPTBot：可爬取網(wǎng)絡數(shù)據(jù)，為GPT-5做準備

激石外匯2023-08-09 12:00:20外匯資訊382

激石Pepperstone(http://wargoo.com/)報道：

8月8日，OpenAI在官網(wǎng)介紹了新產(chǎn)品GPTBot，這是一種網(wǎng)絡爬蟲，可大規(guī)模爬取網(wǎng)絡數(shù)據(jù)用于訓練AI模型。（地址：https://platform.openai.com/docs/gptbot）

OpenAI表示，將通過GPTBot抓取海量數(shù)據(jù)，用于訓練、優(yōu)化未來模型。國外不少科技媒體指出，這個未來模型指的就是GPT-5。

事實上，OpenAI在今年7月18日提交了GPT-5商標的消息，此時又放出全新網(wǎng)絡爬蟲，說明GPT-5離我們越來越近了。

GPTBot介紹

GPTBot是OpenAI的網(wǎng)絡爬蟲，可以通過以下用戶代理和字符串來識別，代碼如下。

User agent token: GPTBot

Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

OpenAI會對抓取的數(shù)據(jù)進行過濾，例如，刪除需要付費才能查看、使用的數(shù)據(jù)，搜集的個人身份信息（PII）或違反法律法規(guī)的數(shù)據(jù)等，以保證抓取的數(shù)據(jù)符合安全標準。

如果用戶的網(wǎng)站不想被GPTBot抓取數(shù)據(jù)，可以將GPTBot添加到站點的robots.txt中，代碼如下：

User-agent: GPTBot

Disallow: /

用戶也可以自定義GPTBot的訪問權限，將其添加到網(wǎng)站的robots.txt中，代碼如下：

User-agent: GPTBot

Allow: /directory-1/

Disallow: /directory-2/

什么是網(wǎng)絡爬蟲

網(wǎng)絡爬蟲，是一種主要通過瀏覽網(wǎng)絡抓取數(shù)據(jù)的工具，方式包括數(shù)據(jù)挖掘，網(wǎng)頁數(shù)據(jù)復制/拍照、網(wǎng)站鏡像等方式。

網(wǎng)絡爬蟲是互聯(lián)網(wǎng)和大數(shù)據(jù)時代最重要工具之一，被譽為“黃金礦工”應用場景非常廣泛。

例如，谷歌、百度等搜索引擎通過網(wǎng)絡爬蟲來收集和建立網(wǎng)頁索引，方便用戶可以通過關鍵字快速找到相關的網(wǎng)頁。

也有商業(yè)機構使用網(wǎng)絡爬蟲實時收集競爭對手的信息，如產(chǎn)品價格、新產(chǎn)品發(fā)布、營銷活動等，以進行市場分析和營銷策略制定。

網(wǎng)絡爬蟲的缺點

雖然網(wǎng)絡爬蟲功能強大，但也存在數(shù)據(jù)質量不穩(wěn)定、版權風險、難以爬取特定內容、爬取頻率等缺點。

數(shù)據(jù)質量不穩(wěn)定：網(wǎng)絡爬蟲抓取的數(shù)據(jù)可能包含大量非法、虛假或質量低下的數(shù)據(jù)，例如，爬取了一個非法網(wǎng)站的數(shù)據(jù)。因此，想使用爬蟲的數(shù)據(jù)需要進行清洗和處理。

版權風險：網(wǎng)絡爬蟲可能會侵犯數(shù)據(jù)隱私和版權，違反網(wǎng)站的使用協(xié)議帶來法律風險。例如，非法爬取了目標網(wǎng)站的付費內容。

難以爬取特定內容：對于一些需要用戶輸入或交互才能獲取的內容，例如，網(wǎng)站搜索結果、驗證碼、登錄后才能查看的內容等，網(wǎng)絡爬蟲可能難以抓取。

爬取頻率：網(wǎng)絡爬蟲抓取的數(shù)據(jù)是靜態(tài)的，不能實時反映網(wǎng)頁的變化需要定期重新抓取。但頻率過高會對目標網(wǎng)站的服務器造成巨大壓力影響其正常服務，頻率太低數(shù)據(jù)更新又不及時，需要制定一個合理的頻率。

如今在大模型等AI技術加持下，上述常見的網(wǎng)絡爬蟲缺點已得到克服，并且更注重數(shù)據(jù)版權、安全等問題。

網(wǎng)絡爬蟲抓取的數(shù)據(jù)，是訓練大語言模型的重要來源

目前，訓練大語言模型的主要數(shù)據(jù)來源包括自有數(shù)據(jù)集、開源數(shù)據(jù)集和網(wǎng)絡爬蟲等。自有數(shù)據(jù)集主要應用在特定業(yè)務場景的微調，例如，法律領域的使用真實的法律裁決、書籍、法律合同等數(shù)據(jù)，訓練專用于法律的生成式AI產(chǎn)品。

開源數(shù)據(jù)集，這種數(shù)據(jù)是很多大型廠商開源的數(shù)據(jù)有的可用于商業(yè)化，有的只能用于技術研究，并且數(shù)據(jù)可能存在老舊的情況。所以，網(wǎng)絡爬蟲成為企業(yè)訓練通用大模型的重要數(shù)據(jù)來源。

例如，OpenAI的GPT-3模型使用了45TB的互聯(lián)網(wǎng)文本進行訓練，包括代碼、小說、百科、新聞、博客等，而這些數(shù)據(jù)來源多數(shù)是通過網(wǎng)絡爬蟲獲取。

所以，我們有時候會看到ChatGPT會生成虛假的信息，就是因為在爬取時本身就抓取了錯誤、虛假的信息，在清洗、預訓練、微調的過程中又沒發(fā)現(xiàn)，才會出現(xiàn)這樣的情況（有時也存在AI算法問題等）。

不過OpenAI已經(jīng)制定了嚴格的數(shù)據(jù)獲取、使用標準，避免這種情況發(fā)生。?????????

掃描二維碼推送至手機訪問。

本文鏈接：http://wargoo.com/news/2008.html

標簽: OpenAI

分享給朋友：

返回列表

上一篇：欣捷高新IPO迎考行業(yè)反腐風暴：九成銷售費投向“學術推廣”

下一篇：英偉達的野心：“AI原生”徹底顛覆數(shù)據(jù)中心

“OpenAI新產(chǎn)品GPTBot：可爬取網(wǎng)絡數(shù)據(jù)，為GPT-5做準備” 的相關文章

OpenAI新產(chǎn)品GPTBot：可爬取網(wǎng)絡數(shù)據(jù)，為GPT-5做準備

“OpenAI新產(chǎn)品GPTBot：可爬取網(wǎng)絡數(shù)據(jù)，為GPT-5做準備” 的相關文章

美最高法院推翻墮胎權，大公司集體怒了

最高1050美元！為對抗通脹，美國加州向公眾發(fā)放補貼

A股三大指數(shù)集體轉綠旅游酒店領跌數(shù)字貨幣、電力股沖高

如何理解“MCU砍單潮”？

A股沖高回落！鋰電股上沖電力、稀土震蕩走強食品飲料、豬肉股疲軟

看似無敵！日本央媽的“軟肋”：進口能源

Copyright ? 2017-2022 激石Pepperstone

OpenAI新產(chǎn)品GPTBot：可爬取網(wǎng)絡數(shù)據(jù)，為GPT-5做準備

“OpenAI新產(chǎn)品GPTBot：可爬取網(wǎng)絡數(shù)據(jù)，為GPT-5做準備” 的相關文章

美最高法院推翻墮胎權，大公司集體怒了

最高1050美元！為對抗通脹，美國加州向公眾發(fā)放補貼

A股三大指數(shù)集體轉綠 旅游酒店領跌 數(shù)字貨幣、電力股沖高

如何理解“MCU砍單潮”？

A股沖高回落！鋰電股上沖 電力、稀土震蕩走強 食品飲料、豬肉股疲軟

看似無敵！日本央媽的“軟肋”：進口能源

Copyright ? 2017-2022 激石Pepperstone

OpenAI新產(chǎn)品GPTBot：可爬取網(wǎng)絡數(shù)據(jù)，為GPT-5做準備

“OpenAI新產(chǎn)品GPTBot：可爬取網(wǎng)絡數(shù)據(jù)，為GPT-5做準備” 的相關文章

美最高法院推翻墮胎權，大公司集體怒了

最高1050美元！為對抗通脹，美國加州向公眾發(fā)放補貼

A股三大指數(shù)集體轉綠旅游酒店領跌數(shù)字貨幣、電力股沖高

A股沖高回落！鋰電股上沖電力、稀土震蕩走強食品飲料、豬肉股疲軟

看似無敵！日本央媽的“軟肋”：進口能源