- +1
一手實測Claude3:GPT4啊,你的時代終于要過去了
原創(chuàng) 數(shù)字生命卡茲克 數(shù)字生命卡茲克
大半夜的,一石驚起千層浪。

Claude3,正式上線。
這個由OpenAI分裂出去的兄弟公司Anthropic,在悄然無息之間,就這么默默地把Claude3發(fā)了。
沒有所謂的發(fā)布會,沒有什么華麗的輿論,就僅僅在X上發(fā)了個帖子。

我發(fā)現(xiàn)現(xiàn)在的這些AI公司真挺有意思,都把X當(dāng)成發(fā)布主陣地了。
字很少,但是事挺大。

一口氣發(fā)了3個模型,Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。
這個名字就取地很有故事。
Opus大概意思就是史詩級樂章。
Sonnet是十四行詩。
Haiku是俳句,日本的那種三行短詩。
所以可以簡單的理解成:Opus(超大杯)、Sonnet(大杯)、Haiku(中杯)
這三個的區(qū)別沒什么特別可說的,文章最后放三張截圖就能看明白。
主要還是他們附加的這么一張圖。

Claude3的Opus模型,全面超越GPT4。
而且還是在幾個任務(wù)0-shot的情況下。
我用圖里面的舉下例子,比如MGSM,多語言數(shù)學(xué)推理這個測試集。
Claude3 Opus達(dá)到90.7%的準(zhǔn)確率,用的是0-shot,GPT4是8-shot,達(dá)到了74.5%。
0-shot意味著大模型沒有在Prompt里給任何示例,就直接被要求完成任務(wù)。而8-shot則是在干活前,給了8個示例。
你這就能看出來區(qū)別了。一個沒給示例直接上,一個給了8個示例,給了8個示例的GPT-4反而還打不過Claude3。
在復(fù)雜的推理任務(wù)上,Claude3可以說是全面“吊打”GPT-4。
而在另幾個比如MMLU、GSM8K這種語言類知識類的測試集上,跟GPT4基本上差不太多,所以整體核心上,還是推理能力的巨幅提升。
反正,這個Claude3 Opus還是很吸引我的。
在瘋狂跑了幾個小時之后,也測了很多在2023年8月后的case之后。

我給Claude總結(jié)3個特點,分別是:
獨一檔的推理能力、跟GPT4V打平的多模態(tài)、200K長文本優(yōu)化。
-
一. 獨一檔的推理能力
其實從上文就能看到,Claude3進(jìn)化最大的,就是推理,就是邏輯。
不過單看參數(shù),肯定感受不到,那就放幾個我覺得很有代表性的例子吧。
解釋補(bǔ)集法的概念,并用補(bǔ)集法計算這道概率題:"一家公司有兩個部門,A部門3個男生,2個女生,B部門4個男生,6個女生,現(xiàn)在要派3個人去出差,要求每個部門至少出一人,那么至少有一個女生被派出的概率是多少?"
一道致命題,在已經(jīng)明確補(bǔ)集法的情況下,GPT4的錯誤率依然高達(dá)50%。但是Claude3 Opus,我測了10遍,準(zhǔn)確率90%,就很爽。

張三是一名推銷員,她在綠房子賣掉了三分之一的吸塵器,在紅房子多賣了 2 臺,在橙房子賣掉了剩下吸塵器的一半。如果張三還剩下 5 臺吸塵器,她一開始有多少臺吸塵器?

當(dāng)然,還可以直接上物理題,直接傳圖就行。全對。

化學(xué),也行。

在中文語境下的一些邏輯怪圈,也沒問題。

整體看,Claude在邏輯和推理上的進(jìn)化巨大,初中的理科題基本都能橫著走,不過高中題基本都還是全線陣亡狀態(tài)。
而一些弱智吧的問題或者語義邏輯,都難不倒Claude3了。
二. 跟GPT4V打平的多模態(tài)
GPT4V也出來很久很久了,多模態(tài),絕對是讓人永遠(yuǎn)離不開的功能之一。
這次Claude3,終于把他的視覺能力給補(bǔ)齊了,可以直接扔圖進(jìn)去了。
在玩了幾個小時后,我整體的評價是,跟GPT4V大致打平手。
官方的數(shù)據(jù),也大概是這樣的傾向。

除了在科學(xué)示意圖(Science diagrams)這個領(lǐng)域超得稍微多一些之外,其他基本沒有差別。
放個科學(xué)示意圖的Case,還是很強(qiáng)的。

一個網(wǎng)站的截圖直接還原網(wǎng)頁的源代碼~

猜個地名,那自然更是小Case。

再根據(jù)作品猜個藝術(shù)家?OK。

當(dāng)然,也可以整一些花活。比如這個照片。



Claude3 Opus給出了標(biāo)準(zhǔn)的答案,完美。
整體上,跟GPT4V大差不差,對中文的支持也不錯。算是彌補(bǔ)了一直以來Claude的短板。
三. 200K長文本優(yōu)化
之前我曾寫過一篇文章,怒噴過Claude2.1。
因為他的上下文準(zhǔn)確性實在是太差太差太差了。

就直接紅成半邊天。
這一次,他們終于有了大幅度的改善。

終于達(dá)到了,99%。嗯,還是沒有100%。
我直接甩了我的文章PDF數(shù)據(jù)集上去,測一下我直接寫Kimi的時候,大海撈針里面那個很經(jīng)典的case:
“你寫妙鴨相機(jī)那篇文章時,用了一個人的照片作為案例,那個人是誰?”
在過了很久很久以后,終于給我回復(fù)了。

內(nèi)容倒是對的,沒有問題。

但是這個速度,實在是太慢了,起碼等了1分鐘左右。
但是有比沒有好。
再放一個文檔內(nèi)跨度比較大的查詢的case。

整體精準(zhǔn)度和語義理解都很不錯。
基于超長文本的對話、總結(jié)、查詢的能力,也終于在Claude3中補(bǔ)齊了。只能說補(bǔ)齊,畢竟,這玩意Kimi都做了快半年了,Claude3現(xiàn)在也就剛剛達(dá)到Kimi在長文本這塊的水平。
但是綜合來看,Claude3 Opus,依舊是目前最為水桶的大模型。
或者可以說,就是當(dāng)前的,No.1。
寫在最后
當(dāng)然這次更新,Claude3還有一些別的特點。
比如減少不必要的拒絕,比如準(zhǔn)確性更高等等,但是我覺得就不展開說了。
最后再貼三張圖給大家看一下Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku的區(qū)別。



三張圖一眼就能看明白,牛的更貴,便宜的更快。
總結(jié)一下。
Claude3這次更新后,有獨一檔的推理能力、跟GPT4V打平的多模態(tài)、還有200K長文本優(yōu)化。
可以當(dāng)之無愧地說,就是市面上目前最強(qiáng)的大模型。
OpenAI和奧特曼應(yīng)該忍不了這口氣。
所以評論區(qū)里,網(wǎng)友說出了我的心聲:

奧特曼趕緊的,發(fā)個GPT5狙擊Claude3啊,別慫。
打起來。
那樣我們才能最快速度,迎接加速而來的。
未來。
原標(biāo)題:《一手實測Claude3 - GPT4啊,你的時代終于要過去了》
本文為澎湃號作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司