當(dāng)前位置：首頁 > 外匯資訊 > 正文內(nèi)容

加強(qiáng)版Claude3.5正式上線，一句話操控電腦的時(shí)代真的要來了

激石外匯2024-10-23 11:58:42外匯資訊118

激石Pepperstone(http://wargoo.com/)報(bào)道：

夜里十一點(diǎn)，大洋彼岸早上8點(diǎn)整。

Claude帶著大貨閃亮登場了。

升級(jí)版的Claude 3.5 Sonnet，新模型Claude 3.5 Haiku，還有全新的新功能：computer use，翻譯過來后，我把他稱為，“計(jì)算機(jī)操控”。

一個(gè)一個(gè)來說。

首先新模型升級(jí)版Claude 3.5 Sonnet。

Claude的模型一直分為三個(gè)尺寸，分別是Opus、Sonnet、Haiku。從大到小。

3月的時(shí)候，Claude正式推出Claude 3代的全系模型，從Opus到Haiku都有。

然后6月的時(shí)候推出了Claude 3.5 Sonnet，只推了這一個(gè)，沒有3.5 Opus和Haiku，參見這篇文章：我體驗(yàn)完剛發(fā)布的Claude3.5，發(fā)現(xiàn)最強(qiáng)的是這個(gè)新功能。

那時(shí)候Claude 3.5 Sonnet的能力就吊打了舊的最大參數(shù)的模型。

而今天，推送的是升級(jí)版的Claude 3.5 Sonnet，還有新的Claude 3.5 Haiku。

有趣的是，Claude 3.5 Haiku還是后訓(xùn)的，知識(shí)截止時(shí)間是7月，而升級(jí)版Claude 3.5 Sonnet知識(shí)時(shí)間并沒有變，也就是加了更多的強(qiáng)化學(xué)習(xí)的合成數(shù)據(jù)以及“計(jì)算機(jī)控制”的訓(xùn)練。

而Claude 3.5 Sonnet的整體性能上，基本傲視群雄。

不管是推理、還是本科的知識(shí)、還是編程能力啥的，都是No.1，而且Claude的跑分不像很多模型那種刷榜，他的跑分是真的可信的。

我相信6月Claude 3.5 Sonnet上線后，直接一波科技躍遷，帶著cursor之類的A編程一波升天，就不會(huì)有任何人會(huì)懷疑Claude的代碼能力了吧。

最特別的評(píng)測基準(zhǔn)其實(shí)是那個(gè)第七行的SWE-bench Verified，大概就是測試寫代碼解決問題的真實(shí)能力，這個(gè)評(píng)測基準(zhǔn)是8月份OpenAI提的，然后這波Claude 3.5直接把這個(gè)基準(zhǔn)加在自己的跑分里。

GPT4o在這項(xiàng)的跑分是33.2%，o1不知道。

但是按Claude的話說，o1是個(gè)什么臟東西，不認(rèn)識(shí)。

而新版的Claude 3.5 Sonnet，目前也在Claude官網(wǎng)上上線了。

可以看到有了new的標(biāo)簽。

我直接發(fā)了最簡單的一句話：給我生成一個(gè)非常精美的俄羅斯方塊游戲。

然后，升級(jí)版Claude 3.5 Sonnet，就開始嘟嘟嘟的生成。

直接一次性生成了280行代碼，而且這個(gè)游戲，是真的可以直接玩的。。

也可以直接讓它生成一個(gè)隨時(shí)可調(diào)可互動(dòng)的動(dòng)效模擬器，徹底改變學(xué)習(xí)方式。

就，非常的酷。

其次是Claude 3.5 Haiku。

這個(gè)其實(shí)就沒太多可說的了，常規(guī)升級(jí)，但是是目前最快、性價(jià)比最高的模型。

在跟Claude 3 Haiku的相同成本和速度下，直接擊敗了參數(shù)量最大的Claude 3 Opus。

在編碼任務(wù)上，居然能直接打敗沒升級(jí)前的Claude 3.5 Sonnet，這個(gè)是最離譜的。

只能說，Anthropic的強(qiáng)化學(xué)習(xí)范式走的還是太超前了，合成數(shù)據(jù)的質(zhì)量實(shí)在是太高太高了。

那最后，也是最重磅的一點(diǎn)，Claude的“computer use”，也就是新功能，計(jì)算機(jī)控制。

這個(gè)點(diǎn)就非常的科幻，能夠?qū)崟r(shí)分析用戶計(jì)算機(jī)屏幕上的活動(dòng)，并自主執(zhí)行在線任務(wù)，比如瀏覽、點(diǎn)擊和輸入。

我直接放一個(gè)官方case吧。

Anthropic是這么描述這個(gè)“計(jì)算機(jī)控制”的功能的：“Claude 3.5 Sonnet可以按照用戶的命令在計(jì)算機(jī)屏幕上移動(dòng)光標(biāo)，點(diǎn)擊相關(guān)位置，并通過虛擬鍵盤輸入信息，模擬人們與自己計(jì)算機(jī)的互動(dòng)方式?！?/p>

這，就是一個(gè)能理解用戶意圖，并幫他自主實(shí)現(xiàn)的真正的Agent。

以前的Agent，說實(shí)話，看上去更像一個(gè)RPA，就是根據(jù)預(yù)設(shè)好的工作流，一步一步的執(zhí)行下去，但是真正的Agent應(yīng)該是什么樣？

在我看來，他就應(yīng)該跟人一樣，能理解你的復(fù)雜語義，把這個(gè)復(fù)雜語義具象成可執(zhí)行的步驟，就像我說現(xiàn)在“凌晨3點(diǎn)半了我太困了，但是文章還沒有寫完，你幫我看看附近有沒有咖啡買，有的話幫我買一杯，沒有的話就算了。”

如果是個(gè)人，那肯定是會(huì)打開美團(tuán)外賣或者餓了么，看看附近有沒有咖啡店開著，如果有開著的，看看我最喜歡喝的冰美式有沒有的，沒有冰美式的話問我一句要換什么口味？然后下單，等待送達(dá)。

如果3點(diǎn)半附近都關(guān)門了，那也應(yīng)該告訴我，附近沒賣的了，哥們你自己撐一撐吧，一會(huì)就能睡了。

這才是AI，這才是我們身邊，能進(jìn)入到普通人生活中的，最酷的AI助手。

而這種AI助手，它勢必，需要學(xué)會(huì)操作手機(jī)或者電腦。

我們不止要讓AI學(xué)會(huì)寫文章，學(xué)會(huì)畫圖，也要讓他學(xué)會(huì)操作。

這樣，才能有很強(qiáng)的，自主探索、解決問題的泛化能力。

而升級(jí)版Claude 3.5 ，只是在一些簡單軟件上進(jìn)行了訓(xùn)練，就有了操作一些不復(fù)雜軟件的能力，甚至還會(huì)自我糾錯(cuò)，不斷重試，這又何嘗不是一種強(qiáng)化學(xué)習(xí)、自我博弈呢？

Anthropic，真的吧Self-Play玩出花了。

目前，在測試開發(fā)者讓模型使用計(jì)算機(jī)的一個(gè)基準(zhǔn)評(píng)估（OSWorld）中，Claude 目前得分為 14.9%。

而人類水平通常為 70-75%，雖然差距很大，還有一些路要走，但已經(jīng)遠(yuǎn)高于目前其他最好AI模型的7.7%這個(gè)分?jǐn)?shù)了。

不過現(xiàn)在這個(gè)功能普通用戶還用不到，只對(duì)開發(fā)者進(jìn)行開放，有API接入，Anthropic的本意是還在前期測試階段，怕有危險(xiǎn)，所以讓開發(fā)先幫忙測試一下。

我們也花了N久時(shí)間，把API接入進(jìn)來，做了一些簡單的測試。

先裝了一個(gè)類似于模擬系統(tǒng)的東西，一切行為都會(huì)在這個(gè)模擬系統(tǒng)里運(yùn)行，Anthropic還是怕對(duì)你的系統(tǒng)會(huì)有一個(gè)不可逆轉(zhuǎn)的損害影響。

我測了很多個(gè)case，但是說實(shí)話，一是速度實(shí)在太磨嘰了...二是成功率，確實(shí)還有點(diǎn)低下。

比如這個(gè)案例：“打開淘寶網(wǎng)站頁面，找到小米手機(jī)官方旗艦店，找一個(gè)2000左右的手機(jī)，加到購物車。”

其實(shí)不算難，說實(shí)話。

但是Claude翻車了，翻車的點(diǎn)也很搞笑，是在輸入店名上，人明明叫小米官方旗艦店，它非要寫“方店”，后面又試了一次，這次連兩個(gè)字都不寫了，直接寫了一個(gè)字“艦”，這能搜到才有鬼了...

而且，這個(gè)視頻我已經(jīng)兩倍速了，你們可以感受一下它有多慢。。

不過，讓他玩2048，它玩的倒是非常的開心。這一次，是三倍速。

玩的還挺好，我感覺在這放著，他一個(gè)人能玩到天荒地老。這倒也是挺有趣的。

當(dāng)然，也能做一些很實(shí)際的事情，比如給我的瀏覽器裝一個(gè)可以屏蔽廣告的插件。

他居然把插件地址背下來了，直接輸入，給我搜索+安裝一步到位。

起飛。

雖然總體任務(wù)的成功率還比較一般，但是還好，畢竟Claude自己也說了，成功率沒那么高。

而且，這只是第一代。

他們堅(jiān)信，使模型適應(yīng)工具，這是必然，而模型也可以融入我們每天使用的環(huán)境里，成為我們生活的方方面面。

他們的目標(biāo)是讓Claude使用現(xiàn)有的計(jì)算機(jī)軟件，就像人一樣。就像人一樣。

真好。希望這個(gè)愿景，能在不遠(yuǎn)的未來達(dá)成。

我真的，很想擁有一個(gè)自己的。

賈維斯。?????????

掃描二維碼推送至手機(jī)訪問。

版權(quán)聲明：本文由激石Pepperstone發(fā)布，如需轉(zhuǎn)載請(qǐng)注明出處。

本文鏈接：http://wargoo.com/news/3728.html

標(biāo)簽: Claude3.5

分享給朋友：

返回列表

上一篇：低估的“財(cái)富效應(yīng)”？

下一篇：期權(quán)押注比特幣下個(gè)月漲到80000美元，不論誰贏得美國大選

“加強(qiáng)版Claude3.5正式上線，一句話操控電腦的時(shí)代真的要來了” 的相關(guān)文章

格力電器被折價(jià)拋售35億，機(jī)構(gòu)接盤30億，外資跑步入場

激石Pepperstone(http://wargoo.com/)報(bào)道：6月24日周五晚間，格力電器公告，收到持股5%以上股東京海互聯(lián)發(fā)來的《減持股份告知函》，京?；ヂ?lián)于今日通過大宗交易方式減持公司股份1.1億股，占格力電器總股本的1.86%。本次減持后，京?；ヂ?lián)持有格力電器股份比例為6....

海外熊市才開始？對(duì)沖基金“用腳投票”的樣子近十年未見，頂尖高手們帶頭做空

激石Pepperstone(http://wargoo.com/)報(bào)道：交易員對(duì)海外市場的悲觀情緒越來越濃。近期，摩根士丹利發(fā)給客戶的一份報(bào)告顯示，到本月中旬，美國基金公司已將其凈敞口（做多和做空的差額）下調(diào)至2010年以來的最低水平。與此同時(shí)，歐洲和亞洲的基金將凈敞口降至去年的最低水平...

A股三大指數(shù)均漲超1% 旅游等消費(fèi)板塊大漲房地產(chǎn)回調(diào)

激石Pepperstone(http://wargoo.com/)報(bào)道：6月30日，A股三大指數(shù)早間沖高后小幅回落，隨后再度拉升走強(qiáng)。截至發(fā)稿，深成指漲1.5%，滬指漲1.1%，創(chuàng)業(yè)板指漲1.5% 個(gè)股漲多跌少，兩市超3400股飄紅。板塊方面，酒店、旅游、民航、飲料制造等大消費(fèi)板塊大漲...

開發(fā)性金融債支持基建透露了什么信號(hào)？

激石Pepperstone(http://wargoo.com/)報(bào)道：周四國常會(huì)決定通過發(fā)行開發(fā)性金融債券籌資補(bǔ)充重大項(xiàng)目資本金至少透露了四個(gè)方面的信號(hào)。首先，基建和項(xiàng)目投資是現(xiàn)階段穩(wěn)經(jīng)濟(jì)無可爭議的主角，以項(xiàng)目投資為抓手、支持就業(yè)，進(jìn)而拉動(dòng)消費(fèi)；其次，今年項(xiàng)目推進(jìn)任務(wù)重、可能碰到了瓶...

PMI被算法掩蓋的大幅改善

激石Pepperstone(http://wargoo.com/)報(bào)道：6月制造業(yè)PMI雖僅小幅改善0.6，但主因“供應(yīng)商配送時(shí)間”逆指數(shù)算法影響，真實(shí)的制造業(yè)PMI改善2.8、幅度非常大。 PMI的算法中“供應(yīng)商配送時(shí)間”是逆指數(shù)，因?yàn)樵?020年前的經(jīng)濟(jì)活動(dòng)中，供應(yīng)商配送時(shí)間指數(shù)下降...

住房市場降溫！美國房租高增長戛然而止

激石Pepperstone(http://wargoo.com/)報(bào)道：夏季往往是美國租金高峰，但隨著飆升的通脹和經(jīng)濟(jì)衰退前景不斷“侵蝕”美國人的支出能力，美國租賃市場出現(xiàn)顯著降溫。美國長租平臺(tái)Zumper提供的數(shù)據(jù)顯示，美國6月份全國一居室公寓的租金中值同比飆升11.4%，但環(huán)比增幅僅...

加強(qiáng)版Claude3.5正式上線，一句話操控電腦的時(shí)代真的要來了

“加強(qiáng)版Claude3.5正式上線，一句話操控電腦的時(shí)代真的要來了” 的相關(guān)文章

格力電器被折價(jià)拋售35億，機(jī)構(gòu)接盤30億，外資跑步入場

海外熊市才開始？對(duì)沖基金“用腳投票”的樣子近十年未見，頂尖高手們帶頭做空

A股三大指數(shù)均漲超1% 旅游等消費(fèi)板塊大漲 房地產(chǎn)回調(diào)

開發(fā)性金融債支持基建透露了什么信號(hào)？

PMI被算法掩蓋的大幅改善

住房市場降溫！美國房租高增長戛然而止

Copyright ? 2017-2022 激石Pepperstone

加強(qiáng)版Claude3.5正式上線，一句話操控電腦的時(shí)代真的要來了

“加強(qiáng)版Claude3.5正式上線，一句話操控電腦的時(shí)代真的要來了” 的相關(guān)文章

格力電器被折價(jià)拋售35億，機(jī)構(gòu)接盤30億，外資跑步入場

海外熊市才開始？對(duì)沖基金“用腳投票”的樣子近十年未見，頂尖高手們帶頭做空

A股三大指數(shù)均漲超1% 旅游等消費(fèi)板塊大漲房地產(chǎn)回調(diào)

住房市場降溫！美國房租高增長戛然而止