- +1
Anthropic發(fā)布Claude 3模型,全面超越GPT-4
原創(chuàng) 趙健 甲子光年

Claude 3發(fā)布了,GPT-5 還會遠嗎?
作者|趙健
大語言模型的競爭越來越白熱化了。
剛剛,OpenAI 的主要競爭對手之一 Anthropic 推出了最新的 Claude 3 大模型,并宣稱為廣泛的認知任務(wù)樹立了新的行業(yè)基準。
Anthropic 由 OpenAI 前高管創(chuàng)立,投資者包括谷歌、Salesforce、亞馬遜、高通等科技巨頭,估值超過 150 億美元。
Claude 3 模型家族包括三種最先進的型號:Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。Haiku、Sonnet 和 Opus 分別指“俳句、十四行詩、音樂藝術(shù)大作”,可見 Anthropic 似乎有很高的藝術(shù)追求。
Anthropic 表示,按照順序 Claude 3 的三個模型性能依次越來越強大,允許用戶為其特定應(yīng)用選擇智能、速度和成本的最佳平衡。
Opus 和 Sonnet 現(xiàn)已可在 claude.ai 中使用,而 Claude API 現(xiàn)已在 159 個國家/地區(qū)(不包括中國大陸)廣泛使用。Haiku 即將推出。

Claude 3模型家族
1.全面超越GPT-4
Anthropic 從不同的角度介紹了 Claude 3 模型家族的能力。
智能的新標準
Anthropic 表示,Opus 是最智能的模型,在人工智能系統(tǒng)的大多數(shù)常見評估基準上都優(yōu)于同行,包括本科水平專家知識(MMLU)、研究生水平專家推理(GPQA)、基礎(chǔ)數(shù)學(xué)(GSM8K)等。Opus 在復(fù)雜任務(wù)上表現(xiàn)出接近人類水平的理解力和流暢性。
所有 Claude 3 模型都顯示出在分析和預(yù)測、細致內(nèi)容創(chuàng)建、代碼生成以及西班牙語、日語和法語等非英語語言對話方面的增強能力。
Claude 3 模型與同行模型在多個性能基準比較中,全面領(lǐng)先 GPT-4、Gemini等模型,成為基準測試中的“最強模型”。

近乎即時的結(jié)果
Claude 3 模型可以支持實時客戶聊天、自動完成和數(shù)據(jù)提取任務(wù),這些任務(wù)要求響應(yīng)必須立即且實時。
Haiku是市場上同類智能模型中速度最快且最具成本效益的。它可以在不到三秒的時間內(nèi)閱讀 arXiv 上包含圖表和圖形的信息和數(shù)據(jù)密集的研究論文(約 10k 個 token)。發(fā)布后,性能預(yù)計會進一步提高。
對于絕大多數(shù)工作負載,Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍,且智能水平更高。它擅長執(zhí)行需要快速響應(yīng)的任務(wù),例如知識檢索或銷售自動化。Opus 的速度與 Claude 2 和 2.1 相似,但智能水平更高。
強大的視覺能力
Claude 3 具有與其他領(lǐng)先型號相當?shù)膹?fù)雜視覺功能。他們可以處理各種視覺格式,包括照片、圖表、圖形和技術(shù)圖表。Anthropic 表示,特別高興能為其企業(yè)客戶提供這種新模式,其中一些客戶的知識庫高達 50% 以各種格式編碼,例如 PDF、流程圖或演示幻燈片。
Claude 3模型具有與其他領(lǐng)先模型相媲美的復(fù)雜視覺能力。它們可以處理包括照片、圖表、圖形和技術(shù)圖示在內(nèi)的多種視覺格式。在視覺能力測試中,Claude 3模型全面領(lǐng)先GPT-4,但部分能力低于Gemini 1.0 Ultra。

Anthropic表示,特別興奮地為企業(yè)客戶提供這種新的模態(tài),其中一些客戶的知識點庫有高達50%的內(nèi)容是以PDF、流程圖或演示幻燈片等各種格式編碼的。
減少拒絕
Claude 過去的模型常常被詬病“過于保守”,經(jīng)常對用戶做出不必要的拒絕。這是模型缺乏語境理解的表現(xiàn)。
隨著 Claude 3 的發(fā)布,Anthropic 在這一領(lǐng)域取得了有意義的進展:與前幾代模型相比,Opus、Sonnet 和 Haiku 拒絕回答接近系統(tǒng)護欄的提示的可能性明顯降低。
如下所示,Claude 3 模型對請求表現(xiàn)出更細致的理解,能夠識別真正的傷害,并且拒絕回答無害提示的頻率要少得多。

提高準確性
Anthropic 表示,各種規(guī)模的企業(yè)都依賴其模型來為其客戶提供服務(wù),因此模型輸出必須保持大規(guī)模的高精度。
為了評估這一點,Anthropic 使用了大量復(fù)雜的事實問題來針對當前模型中已知的弱點。Anthropic 將答案分為正確答案、錯誤答案(或幻覺)和承認不確定性,其中模型表示它不知道答案,而不是提供不正確的信息。與 Claude 2.1 相比,Opus 在這些具有挑戰(zhàn)性的開放式問題上的準確性(或正確答案)提高了一倍,同時也減少了錯誤答案的水平。
除了產(chǎn)生更值得信賴的回復(fù)之外,Anthropic 表示很快還將在 Claude 3 模型中啟用引用功能,以便他們可以指向參考材料中的精確句子來驗證他們的答案。

長上下文和近乎完美的回憶
Claude 3 系列型號在發(fā)布時最初將提供 200K 上下文窗口。然而,所有三種模型都能夠接受超過 100 萬個 token 的輸入,Anthropic 表示可能會將其提供給需要增強處理能力的精選客戶。
為了有效地處理長上下文提示,模型需要強大的記憶能力,“大海撈針”(Needle In A Haystack,簡稱NIAH)評估衡量了模型從大量數(shù)據(jù)中準確回憶信息的能力。
Anthropic 通過在每個提示中使用 30 對隨機的"針/問題"對之一,并在多樣化的眾包文檔語料庫上進行測試,增強了這一基準的穩(wěn)健性。Claude 3 Opus不僅實現(xiàn)了近乎完美的回憶能力,準確率超過99%,而且在某些情況下,它甚至通過識別出“針”句子似乎是被人為插入到原始文本中的,指出了評估本身的局限性。

負責任的設(shè)計
Anthropic 表示,Claude 3 系列型號不僅功能強大,而且值得信賴。
Anthropic 有多個專門的團隊負責跟蹤和減輕各種風險,這些風險范圍廣泛,包括錯誤信息和兒童性虐待材料(CSAM)、生物濫用、選舉干預(yù)和自主復(fù)制技能。Anthropic 表示繼續(xù)開發(fā)諸如憲法人工智能(Constitutional AI)等方法,以提高模型的安全性和透明度,并調(diào)整模型以減輕新模態(tài)可能引發(fā)的隱私問題。
解決日益復(fù)雜的模型中的偏見是一個持續(xù)的努力,Anthropic 在這個新版本中取得了進展。正如模型卡片所示,根據(jù)問題回答偏見基準(Bias Benchmark for Question Answering,簡稱BBQ),Claude 3表現(xiàn)出的偏見比之前的模型要少。Anthropic 致力于推進減少偏見和促進模型更大中立性的技術(shù),確保它們不會偏向任何特定的黨派立場。
雖然 Claude 3模型系列在生物知識、網(wǎng)絡(luò)相關(guān)知識和自主性等關(guān)鍵指標上比之前的模型有所進步,但根據(jù)Anthropic的負責任擴展政策,它仍然處于人工智能安全等級2(AI Safety Level 2,簡稱ASL-2)。Anthropic 的紅隊評估(根據(jù)Anthropic對白宮的承諾和2023年美國行政命令進行)得出結(jié)論,這些模型目前對災(zāi)難性風險的潛在可能性微不足道。Anthropic 表示將繼續(xù)仔細監(jiān)控未來的模型,以評估它們接近ASL-3閾值的程度。

更容易使用
Claude 3模型更擅長遵循復(fù)雜的多步驟指令。它們特別擅長遵守品牌語調(diào)和響應(yīng)指南,并開發(fā)用戶可以信賴的客戶面向體驗。此外,Claude 3模型在生成流行的結(jié)構(gòu)化輸出方面做得更好,如JSON格式——這使得指導(dǎo)Claude進行自然語言分類和情感分析等用例變得更簡單。
2.成本如何?
Claude 3 Opus 是 Anthropic 最智能的模型,在高度復(fù)雜的任務(wù)上具有市場最佳的性能。它可以以驚人的流暢性和類似人類的理解能力來導(dǎo)航開放式提示和看不見的場景。
Claude 3 Sonnet在智能和速度之間實現(xiàn)了理想的平衡,特別是對于企業(yè)工作負載。與同類產(chǎn)品相比,它以更低的成本提供強大的性能,并且專為大規(guī)模人工智能部署中的高耐用性而設(shè)計。
Claude 3 Haiku是最快、最緊湊的模型,具有近乎即時的響應(yīng)能力。它以無與倫比的速度回答簡單的查詢和請求。用戶將能夠構(gòu)建模仿人類交互的無縫人工智能體驗。

表格由KimiChat生成
Anthropic 認為,模型智能還沒有達到極限,并計劃在未來幾個月內(nèi)頻繁發(fā)布 Claude 3 模型系列的更新。Anthropic還會發(fā)布一系列功能來增強模型的功能,特別是對于企業(yè)用例和大規(guī)模部署。這些新功能將包括工具使用(又名函數(shù)調(diào)用)、交互式編碼(又名 REPL)和更高級的代理功能。
當突破人工智能能力的界限時,Anthropic 同樣致力于確保安全護欄跟上這些性能飛躍的步伐。Anthropic 的假設(shè)是,處于人工智能發(fā)展的前沿是引導(dǎo)其走向積極社會成果的最有效方式。
(封面圖來源:Anthropic)
END.
原標題:《剛剛,Anthropic發(fā)布Claude 3模型,全面超越GPT-4|甲子光年》
本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司