中文字幕欧美乱伦|手机AV永久免费|澳门堵场日韩精品|日本性爱欧美激情|蜜桃狠狠狠狠狠狠狠狠狠|成人免费视频国|欧美国产麻豆婷婷|99久久久国产精品福利姬喷水|婷婷内射精品视频|日本欧洲一区二区

下載客戶端

登錄

+1

一手實測Claude3：GPT4啊，你的時代終于要過去了

2024-03-05 17:34

來源：澎湃新聞·澎湃號·湃客

原創(chuàng) 數(shù)字生命卡茲克數(shù)字生命卡茲克

大半夜的，一石驚起千層浪。

Claude3，正式上線。

這個由OpenAI分裂出去的兄弟公司Anthropic，在悄然無息之間，就這么默默地把Claude3發(fā)了。

沒有所謂的發(fā)布會，沒有什么華麗的輿論，就僅僅在X上發(fā)了個帖子。

我發(fā)現(xiàn)現(xiàn)在的這些AI公司真挺有意思，都把X當(dāng)成發(fā)布主陣地了。

字很少，但是事挺大。

一口氣發(fā)了3個模型，Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。

這個名字就取地很有故事。

Opus大概意思就是史詩級樂章。

Sonnet是十四行詩。

Haiku是俳句，日本的那種三行短詩。

所以可以簡單的理解成：Opus（超大杯）、Sonnet（大杯）、Haiku（中杯）

這三個的區(qū)別沒什么特別可說的，文章最后放三張截圖就能看明白。

主要還是他們附加的這么一張圖。

Claude3的Opus模型，全面超越GPT4。

而且還是在幾個任務(wù)0-shot的情況下。

我用圖里面的舉下例子，比如MGSM，多語言數(shù)學(xué)推理這個測試集。

Claude3 Opus達(dá)到90.7%的準(zhǔn)確率，用的是0-shot，GPT4是8-shot，達(dá)到了74.5%。

0-shot意味著大模型沒有在Prompt里給任何示例，就直接被要求完成任務(wù)。而8-shot則是在干活前，給了8個示例。

你這就能看出來區(qū)別了。一個沒給示例直接上，一個給了8個示例，給了8個示例的GPT-4反而還打不過Claude3。

在復(fù)雜的推理任務(wù)上，Claude3可以說是全面“吊打”GPT-4。

而在另幾個比如MMLU、GSM8K這種語言類知識類的測試集上，跟GPT4基本上差不太多，所以整體核心上，還是推理能力的巨幅提升。

反正，這個Claude3 Opus還是很吸引我的。

在瘋狂跑了幾個小時之后，也測了很多在2023年8月后的case之后。

我給Claude總結(jié)3個特點，分別是：

獨一檔的推理能力、跟GPT4V打平的多模態(tài)、200K長文本優(yōu)化。

-

一. 獨一檔的推理能力

其實從上文就能看到，Claude3進(jìn)化最大的，就是推理，就是邏輯。

不過單看參數(shù)，肯定感受不到，那就放幾個我覺得很有代表性的例子吧。

解釋補(bǔ)集法的概念，并用補(bǔ)集法計算這道概率題："一家公司有兩個部門，A部門3個男生，2個女生，B部門4個男生，6個女生，現(xiàn)在要派3個人去出差，要求每個部門至少出一人，那么至少有一個女生被派出的概率是多少？"

一道致命題，在已經(jīng)明確補(bǔ)集法的情況下，GPT4的錯誤率依然高達(dá)50%。但是Claude3 Opus，我測了10遍，準(zhǔn)確率90%，就很爽。

張三是一名推銷員，她在綠房子賣掉了三分之一的吸塵器，在紅房子多賣了 2 臺，在橙房子賣掉了剩下吸塵器的一半。如果張三還剩下 5 臺吸塵器，她一開始有多少臺吸塵器？

當(dāng)然，還可以直接上物理題，直接傳圖就行。全對。

化學(xué)，也行。

在中文語境下的一些邏輯怪圈，也沒問題。

整體看，Claude在邏輯和推理上的進(jìn)化巨大，初中的理科題基本都能橫著走，不過高中題基本都還是全線陣亡狀態(tài)。

而一些弱智吧的問題或者語義邏輯，都難不倒Claude3了。

二. 跟GPT4V打平的多模態(tài)

GPT4V也出來很久很久了，多模態(tài)，絕對是讓人永遠(yuǎn)離不開的功能之一。

這次Claude3，終于把他的視覺能力給補(bǔ)齊了，可以直接扔圖進(jìn)去了。

在玩了幾個小時后，我整體的評價是，跟GPT4V大致打平手。

官方的數(shù)據(jù)，也大概是這樣的傾向。

除了在科學(xué)示意圖(Science diagrams)這個領(lǐng)域超得稍微多一些之外，其他基本沒有差別。

放個科學(xué)示意圖的Case，還是很強(qiáng)的。

一個網(wǎng)站的截圖直接還原網(wǎng)頁的源代碼~

猜個地名，那自然更是小Case。

再根據(jù)作品猜個藝術(shù)家？OK。

當(dāng)然，也可以整一些花活。比如這個照片。

Claude3 Opus給出了標(biāo)準(zhǔn)的答案，完美。

整體上，跟GPT4V大差不差，對中文的支持也不錯。算是彌補(bǔ)了一直以來Claude的短板。

三. 200K長文本優(yōu)化

之前我曾寫過一篇文章，怒噴過Claude2.1。

因為他的上下文準(zhǔn)確性實在是太差太差太差了。

就直接紅成半邊天。

這一次，他們終于有了大幅度的改善。

終于達(dá)到了，99%。嗯，還是沒有100%。

我直接甩了我的文章PDF數(shù)據(jù)集上去，測一下我直接寫Kimi的時候，大海撈針里面那個很經(jīng)典的case：

“你寫妙鴨相機(jī)那篇文章時，用了一個人的照片作為案例，那個人是誰？”

在過了很久很久以后，終于給我回復(fù)了。

內(nèi)容倒是對的，沒有問題。

但是這個速度，實在是太慢了，起碼等了1分鐘左右。

但是有比沒有好。

再放一個文檔內(nèi)跨度比較大的查詢的case。

整體精準(zhǔn)度和語義理解都很不錯。

基于超長文本的對話、總結(jié)、查詢的能力，也終于在Claude3中補(bǔ)齊了。只能說補(bǔ)齊，畢竟，這玩意Kimi都做了快半年了，Claude3現(xiàn)在也就剛剛達(dá)到Kimi在長文本這塊的水平。

但是綜合來看，Claude3 Opus，依舊是目前最為水桶的大模型。

或者可以說，就是當(dāng)前的，No.1。

寫在最后

當(dāng)然這次更新，Claude3還有一些別的特點。

比如減少不必要的拒絕，比如準(zhǔn)確性更高等等，但是我覺得就不展開說了。

最后再貼三張圖給大家看一下Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku的區(qū)別。

三張圖一眼就能看明白，牛的更貴，便宜的更快。

總結(jié)一下。

Claude3這次更新后，有獨一檔的推理能力、跟GPT4V打平的多模態(tài)、還有200K長文本優(yōu)化。

可以當(dāng)之無愧地說，就是市面上目前最強(qiáng)的大模型。

OpenAI和奧特曼應(yīng)該忍不了這口氣。

所以評論區(qū)里，網(wǎng)友說出了我的心聲：

奧特曼趕緊的，發(fā)個GPT5狙擊Claude3啊，別慫。

打起來。

那樣我們才能最快速度，迎接加速而來的。

未來。

原標(biāo)題：《一手實測Claude3 - GPT4啊，你的時代終于要過去了》

特別聲明

本文為澎湃號作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

+1

收藏

查看更多

掃碼下載澎湃新聞客戶端

關(guān)于澎湃

聯(lián)系我們

澎湃矩陣

澎湃新聞微博
澎湃新聞公眾號
澎湃新聞抖音號
派生萬物開放平臺
IP SHANGHAI
SIXTH TONE

新聞報料

報料熱線: 021-962866
報料郵箱: news@thepaper.cn

滬ICP備14003370號

滬公網(wǎng)安備31010602000299號

互聯(lián)網(wǎng)新聞信息服務(wù)許可證：31120170006

增值電信業(yè)務(wù)經(jīng)營許可證：滬B2-2017116

? 2014-2025 上海東方報業(yè)有限公司

反饋