當(dāng)前位置:首頁 > 外匯資訊 > 正文內(nèi)容

加強(qiáng)版Claude3.5正式上線,一句話操控電腦的時(shí)代真的要來了

激石外匯2024-10-23 11:58:42外匯資訊118

激石Pepperstone(http://wargoo.com/)報(bào)道:

夜里十一點(diǎn),大洋彼岸早上8點(diǎn)整。

Claude帶著大貨閃亮登場了。

升級(jí)版的Claude 3.5 Sonnet,新模型Claude 3.5 Haiku,還有全新的新功能:computer use,翻譯過來后,我把他稱為,“計(jì)算機(jī)操控”。

一個(gè)一個(gè)來說。

首先新模型升級(jí)版Claude 3.5 Sonnet。

Claude的模型一直分為三個(gè)尺寸,分別是Opus、Sonnet、Haiku。從大到小。

3月的時(shí)候,Claude正式推出Claude 3代的全系模型,從Opus到Haiku都有。

然后6月的時(shí)候推出了Claude 3.5 Sonnet,只推了這一個(gè),沒有3.5 Opus和Haiku,參見這篇文章:我體驗(yàn)完剛發(fā)布的Claude3.5,發(fā)現(xiàn)最強(qiáng)的是這個(gè)新功能。

那時(shí)候Claude 3.5 Sonnet的能力就吊打了舊的最大參數(shù)的模型。

而今天,推送的是升級(jí)版的Claude 3.5 Sonnet,還有新的Claude 3.5 Haiku。

有趣的是,Claude 3.5 Haiku還是后訓(xùn)的,知識(shí)截止時(shí)間是7月,而升級(jí)版Claude 3.5 Sonnet知識(shí)時(shí)間并沒有變,也就是加了更多的強(qiáng)化學(xué)習(xí)的合成數(shù)據(jù)以及“計(jì)算機(jī)控制”的訓(xùn)練。

而Claude 3.5 Sonnet的整體性能上,基本傲視群雄。

不管是推理、還是本科的知識(shí)、還是編程能力啥的,都是No.1,而且Claude的跑分不像很多模型那種刷榜,他的跑分是真的可信的。

我相信6月Claude 3.5 Sonnet上線后,直接一波科技躍遷,帶著cursor之類的A編程一波升天,就不會(huì)有任何人會(huì)懷疑Claude的代碼能力了吧。

最特別的評(píng)測基準(zhǔn)其實(shí)是那個(gè)第七行的SWE-bench Verified,大概就是測試寫代碼解決問題的真實(shí)能力,這個(gè)評(píng)測基準(zhǔn)是8月份OpenAI提的,然后這波Claude 3.5直接把這個(gè)基準(zhǔn)加在自己的跑分里。

GPT4o在這項(xiàng)的跑分是33.2%,o1不知道。

但是按Claude的話說,o1是個(gè)什么臟東西,不認(rèn)識(shí)。

而新版的Claude 3.5 Sonnet,目前也在Claude官網(wǎng)上上線了。

可以看到有了new的標(biāo)簽。

我直接發(fā)了最簡單的一句話:給我生成一個(gè)非常精美的俄羅斯方塊游戲。

然后,升級(jí)版Claude 3.5 Sonnet,就開始嘟嘟嘟的生成。

直接一次性生成了280行代碼,而且這個(gè)游戲,是真的可以直接玩的。。

也可以直接讓它生成一個(gè)隨時(shí)可調(diào)可互動(dòng)的動(dòng)效模擬器,徹底改變學(xué)習(xí)方式。

就,非常的酷。

其次是Claude 3.5 Haiku。

這個(gè)其實(shí)就沒太多可說的了,常規(guī)升級(jí),但是是目前最快、性價(jià)比最高的模型。

在跟Claude 3 Haiku的相同成本和速度下,直接擊敗了參數(shù)量最大的Claude 3 Opus。

在編碼任務(wù)上,居然能直接打敗沒升級(jí)前的Claude 3.5 Sonnet,這個(gè)是最離譜的。

只能說,Anthropic的強(qiáng)化學(xué)習(xí)范式走的還是太超前了,合成數(shù)據(jù)的質(zhì)量實(shí)在是太高太高了。

那最后,也是最重磅的一點(diǎn),Claude的“computer use”,也就是新功能,計(jì)算機(jī)控制。

這個(gè)點(diǎn)就非常的科幻,能夠?qū)崟r(shí)分析用戶計(jì)算機(jī)屏幕上的活動(dòng),并自主執(zhí)行在線任務(wù),比如瀏覽、點(diǎn)擊和輸入。

我直接放一個(gè)官方case吧。

Anthropic是這么描述這個(gè)“計(jì)算機(jī)控制”的功能的:“Claude 3.5 Sonnet可以按照用戶的命令在計(jì)算機(jī)屏幕上移動(dòng)光標(biāo),點(diǎn)擊相關(guān)位置,并通過虛擬鍵盤輸入信息,模擬人們與自己計(jì)算機(jī)的互動(dòng)方式?!?/p>

這,就是一個(gè)能理解用戶意圖,并幫他自主實(shí)現(xiàn)的真正的Agent。

以前的Agent,說實(shí)話,看上去更像一個(gè)RPA,就是根據(jù)預(yù)設(shè)好的工作流,一步一步的執(zhí)行下去,但是真正的Agent應(yīng)該是什么樣?

在我看來,他就應(yīng)該跟人一樣,能理解你的復(fù)雜語義,把這個(gè)復(fù)雜語義具象成可執(zhí)行的步驟,就像我說現(xiàn)在“凌晨3點(diǎn)半了我太困了,但是文章還沒有寫完,你幫我看看附近有沒有咖啡買,有的話幫我買一杯,沒有的話就算了。”

如果是個(gè)人,那肯定是會(huì)打開美團(tuán)外賣或者餓了么,看看附近有沒有咖啡店開著,如果有開著的,看看我最喜歡喝的冰美式有沒有的,沒有冰美式的話問我一句要換什么口味?然后下單,等待送達(dá)。

如果3點(diǎn)半附近都關(guān)門了,那也應(yīng)該告訴我,附近沒賣的了,哥們你自己撐一撐吧,一會(huì)就能睡了。

這才是AI,這才是我們身邊,能進(jìn)入到普通人生活中的,最酷的AI助手。

而這種AI助手,它勢必,需要學(xué)會(huì)操作手機(jī)或者電腦。

我們不止要讓AI學(xué)會(huì)寫文章,學(xué)會(huì)畫圖,也要讓他學(xué)會(huì)操作。

這樣,才能有很強(qiáng)的,自主探索、解決問題的泛化能力。

而升級(jí)版Claude 3.5 ,只是在一些簡單軟件上進(jìn)行了訓(xùn)練,就有了操作一些不復(fù)雜軟件的能力,甚至還會(huì)自我糾錯(cuò),不斷重試,這又何嘗不是一種強(qiáng)化學(xué)習(xí)、自我博弈呢?

Anthropic,真的吧Self-Play玩出花了。

目前,在測試開發(fā)者讓模型使用計(jì)算機(jī)的一個(gè)基準(zhǔn)評(píng)估(OSWorld)中,Claude 目前得分為 14.9%。

而人類水平通常為 70-75%,雖然差距很大,還有一些路要走,但已經(jīng)遠(yuǎn)高于目前其他最好AI模型的7.7%這個(gè)分?jǐn)?shù)了。

不過現(xiàn)在這個(gè)功能普通用戶還用不到,只對(duì)開發(fā)者進(jìn)行開放,有API接入,Anthropic的本意是還在前期測試階段,怕有危險(xiǎn),所以讓開發(fā)先幫忙測試一下。

我們也花了N久時(shí)間,把API接入進(jìn)來,做了一些簡單的測試。

先裝了一個(gè)類似于模擬系統(tǒng)的東西,一切行為都會(huì)在這個(gè)模擬系統(tǒng)里運(yùn)行,Anthropic還是怕對(duì)你的系統(tǒng)會(huì)有一個(gè)不可逆轉(zhuǎn)的損害影響。

我測了很多個(gè)case,但是說實(shí)話,一是速度實(shí)在太磨嘰了...二是成功率,確實(shí)還有點(diǎn)低下。

比如這個(gè)案例:“打開淘寶網(wǎng)站頁面,找到小米手機(jī)官方旗艦店,找一個(gè)2000左右的手機(jī),加到購物車。”

其實(shí)不算難,說實(shí)話。

但是Claude翻車了,翻車的點(diǎn)也很搞笑,是在輸入店名上,人明明叫小米官方旗艦店,它非要寫“方店”,后面又試了一次,這次連兩個(gè)字都不寫了,直接寫了一個(gè)字“艦”,這能搜到才有鬼了...

而且,這個(gè)視頻我已經(jīng)兩倍速了,你們可以感受一下它有多慢。。

不過,讓他玩2048,它玩的倒是非常的開心。這一次,是三倍速。

玩的還挺好,我感覺在這放著,他一個(gè)人能玩到天荒地老。這倒也是挺有趣的。

當(dāng)然,也能做一些很實(shí)際的事情,比如給我的瀏覽器裝一個(gè)可以屏蔽廣告的插件。

他居然把插件地址背下來了,直接輸入,給我搜索+安裝一步到位。

起飛。

雖然總體任務(wù)的成功率還比較一般,但是還好,畢竟Claude自己也說了,成功率沒那么高。

而且,這只是第一代。

他們堅(jiān)信,使模型適應(yīng)工具,這是必然,而模型也可以融入我們每天使用的環(huán)境里,成為我們生活的方方面面。

他們的目標(biāo)是讓Claude使用現(xiàn)有的計(jì)算機(jī)軟件,就像人一樣。就像人一樣。

真好。希望這個(gè)愿景,能在不遠(yuǎn)的未來達(dá)成。

我真的,很想擁有一個(gè)自己的。

賈維斯。?????????

掃描二維碼推送至手機(jī)訪問。

版權(quán)聲明:本文由激石Pepperstone發(fā)布,如需轉(zhuǎn)載請(qǐng)注明出處。

本文鏈接:http://wargoo.com/news/3728.html

標(biāo)簽: Claude3.5

“加強(qiáng)版Claude3.5正式上線,一句話操控電腦的時(shí)代真的要來了” 的相關(guān)文章

格力電器被折價(jià)拋售35億,機(jī)構(gòu)接盤30億,外資跑步入場

格力電器被折價(jià)拋售35億,機(jī)構(gòu)接盤30億,外資跑步入場

激石Pepperstone(http://wargoo.com/)報(bào)道:6月24日周五晚間,格力電器公告,收到持股5%以上股東京海互聯(lián)發(fā)來的《減持股份告知函》,京?;ヂ?lián)于今日通過大宗交易方式減持公司股份1.1億股,占格力電器總股本的1.86%。本次減持后,京?;ヂ?lián)持有格力電器股份比例為6....

海外熊市才開始?對(duì)沖基金“用腳投票”的樣子近十年未見,頂尖高手們帶頭做空

海外熊市才開始?對(duì)沖基金“用腳投票”的樣子近十年未見,頂尖高手們帶頭做空

激石Pepperstone(http://wargoo.com/)報(bào)道:交易員對(duì)海外市場的悲觀情緒越來越濃。 近期,摩根士丹利發(fā)給客戶的一份報(bào)告顯示,到本月中旬,美國基金公司已將其凈敞口(做多和做空的差額)下調(diào)至2010年以來的最低水平。與此同時(shí),歐洲和亞洲的基金將凈敞口降至去年的最低水平...

A股三大指數(shù)均漲超1% 旅游等消費(fèi)板塊大漲 房地產(chǎn)回調(diào)

A股三大指數(shù)均漲超1% 旅游等消費(fèi)板塊大漲 房地產(chǎn)回調(diào)

激石Pepperstone(http://wargoo.com/)報(bào)道:6月30日,A股三大指數(shù)早間沖高后小幅回落,隨后再度拉升走強(qiáng)。截至發(fā)稿,深成指漲1.5%,滬指漲1.1%,創(chuàng)業(yè)板指漲1.5% 個(gè)股漲多跌少,兩市超3400股飄紅。 板塊方面,酒店、旅游、民航、飲料制造等大消費(fèi)板塊大漲...

開發(fā)性金融債支持基建透露了什么信號(hào)?

開發(fā)性金融債支持基建透露了什么信號(hào)?

激石Pepperstone(http://wargoo.com/)報(bào)道:周四國常會(huì)決定通過發(fā)行開發(fā)性金融債券籌資補(bǔ)充重大項(xiàng)目資本金至少透露了四個(gè)方面的信號(hào)。 首先,基建和項(xiàng)目投資是現(xiàn)階段穩(wěn)經(jīng)濟(jì)無可爭議的主角,以項(xiàng)目投資為抓手、支持就業(yè),進(jìn)而拉動(dòng)消費(fèi);其次,今年項(xiàng)目推進(jìn)任務(wù)重、可能碰到了瓶...

PMI被算法掩蓋的大幅改善

PMI被算法掩蓋的大幅改善

激石Pepperstone(http://wargoo.com/)報(bào)道:6月制造業(yè)PMI雖僅小幅改善0.6,但主因“供應(yīng)商配送時(shí)間”逆指數(shù)算法影響,真實(shí)的制造業(yè)PMI改善2.8、幅度非常大。 PMI的算法中“供應(yīng)商配送時(shí)間”是逆指數(shù),因?yàn)樵?020年前的經(jīng)濟(jì)活動(dòng)中,供應(yīng)商配送時(shí)間指數(shù)下降...

住房市場降溫!美國房租高增長戛然而止

激石Pepperstone(http://wargoo.com/)報(bào)道:夏季往往是美國租金高峰,但隨著飆升的通脹和經(jīng)濟(jì)衰退前景不斷“侵蝕”美國人的支出能力,美國租賃市場出現(xiàn)顯著降溫。 美國長租平臺(tái)Zumper提供的數(shù)據(jù)顯示,美國6月份全國一居室公寓的租金中值同比飆升11.4%,但環(huán)比增幅僅...