下載客戶端

登錄

Anthropic發(fā)布Claude 3模型，全面超越GPT-4

2024-03-05 17:34

來源：澎湃新聞·澎湃號·湃客

原創(chuàng) 趙健甲子光年

Claude 3發(fā)布了，GPT-5 還會遠嗎？

作者｜趙健

大語言模型的競爭越來越白熱化了。

剛剛，OpenAI 的主要競爭對手之一 Anthropic 推出了最新的 Claude 3 大模型，并宣稱為廣泛的認知任務(wù)樹立了新的行業(yè)基準。

Anthropic 由 OpenAI 前高管創(chuàng)立，投資者包括谷歌、Salesforce、亞馬遜、高通等科技巨頭，估值超過 150 億美元。

Claude 3 模型家族包括三種最先進的型號：Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。Haiku、Sonnet 和 Opus 分別指“俳句、十四行詩、音樂藝術(shù)大作”，可見 Anthropic 似乎有很高的藝術(shù)追求。

Anthropic 表示，按照順序 Claude 3 的三個模型性能依次越來越強大，允許用戶為其特定應(yīng)用選擇智能、速度和成本的最佳平衡。

Opus 和 Sonnet 現(xiàn)已可在 claude.ai 中使用，而 Claude API 現(xiàn)已在 159 個國家/地區(qū)（不包括中國大陸）廣泛使用。Haiku 即將推出。

Claude 3模型家族

1.全面超越GPT-4

Anthropic 從不同的角度介紹了 Claude 3 模型家族的能力。

智能的新標準

Anthropic 表示，Opus 是最智能的模型，在人工智能系統(tǒng)的大多數(shù)常見評估基準上都優(yōu)于同行，包括本科水平專家知識（MMLU）、研究生水平專家推理（GPQA）、基礎(chǔ)數(shù)學(xué)（GSM8K）等。Opus 在復(fù)雜任務(wù)上表現(xiàn)出接近人類水平的理解力和流暢性。

所有 Claude 3 模型都顯示出在分析和預(yù)測、細致內(nèi)容創(chuàng)建、代碼生成以及西班牙語、日語和法語等非英語語言對話方面的增強能力。

Claude 3 模型與同行模型在多個性能基準比較中，全面領(lǐng)先 GPT-4、Gemini等模型，成為基準測試中的“最強模型”。

近乎即時的結(jié)果

Claude 3 模型可以支持實時客戶聊天、自動完成和數(shù)據(jù)提取任務(wù)，這些任務(wù)要求響應(yīng)必須立即且實時。

Haiku是市場上同類智能模型中速度最快且最具成本效益的。它可以在不到三秒的時間內(nèi)閱讀 arXiv 上包含圖表和圖形的信息和數(shù)據(jù)密集的研究論文（約 10k 個 token）。發(fā)布后，性能預(yù)計會進一步提高。

對于絕大多數(shù)工作負載，Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍，且智能水平更高。它擅長執(zhí)行需要快速響應(yīng)的任務(wù)，例如知識檢索或銷售自動化。Opus 的速度與 Claude 2 和 2.1 相似，但智能水平更高。

強大的視覺能力

Claude 3 具有與其他領(lǐng)先型號相當?shù)膹?fù)雜視覺功能。他們可以處理各種視覺格式，包括照片、圖表、圖形和技術(shù)圖表。Anthropic 表示，特別高興能為其企業(yè)客戶提供這種新模式，其中一些客戶的知識庫高達 50% 以各種格式編碼，例如 PDF、流程圖或演示幻燈片。

Claude 3模型具有與其他領(lǐng)先模型相媲美的復(fù)雜視覺能力。它們可以處理包括照片、圖表、圖形和技術(shù)圖示在內(nèi)的多種視覺格式。在視覺能力測試中，Claude 3模型全面領(lǐng)先GPT-4，但部分能力低于Gemini 1.0 Ultra。

Anthropic表示，特別興奮地為企業(yè)客戶提供這種新的模態(tài)，其中一些客戶的知識點庫有高達50%的內(nèi)容是以PDF、流程圖或演示幻燈片等各種格式編碼的。

減少拒絕

Claude 過去的模型常常被詬病“過于保守”，經(jīng)常對用戶做出不必要的拒絕。這是模型缺乏語境理解的表現(xiàn)。

隨著 Claude 3 的發(fā)布，Anthropic 在這一領(lǐng)域取得了有意義的進展：與前幾代模型相比，Opus、Sonnet 和 Haiku 拒絕回答接近系統(tǒng)護欄的提示的可能性明顯降低。

如下所示，Claude 3 模型對請求表現(xiàn)出更細致的理解，能夠識別真正的傷害，并且拒絕回答無害提示的頻率要少得多。

提高準確性

Anthropic 表示，各種規(guī)模的企業(yè)都依賴其模型來為其客戶提供服務(wù)，因此模型輸出必須保持大規(guī)模的高精度。

為了評估這一點，Anthropic 使用了大量復(fù)雜的事實問題來針對當前模型中已知的弱點。Anthropic 將答案分為正確答案、錯誤答案（或幻覺）和承認不確定性，其中模型表示它不知道答案，而不是提供不正確的信息。與 Claude 2.1 相比，Opus 在這些具有挑戰(zhàn)性的開放式問題上的準確性（或正確答案）提高了一倍，同時也減少了錯誤答案的水平。

除了產(chǎn)生更值得信賴的回復(fù)之外，Anthropic 表示很快還將在 Claude 3 模型中啟用引用功能，以便他們可以指向參考材料中的精確句子來驗證他們的答案。

長上下文和近乎完美的回憶

Claude 3 系列型號在發(fā)布時最初將提供 200K 上下文窗口。然而，所有三種模型都能夠接受超過 100 萬個 token 的輸入，Anthropic 表示可能會將其提供給需要增強處理能力的精選客戶。

為了有效地處理長上下文提示，模型需要強大的記憶能力，“大海撈針”（Needle In A Haystack，簡稱NIAH）評估衡量了模型從大量數(shù)據(jù)中準確回憶信息的能力。

Anthropic 通過在每個提示中使用 30 對隨機的"針/問題"對之一，并在多樣化的眾包文檔語料庫上進行測試，增強了這一基準的穩(wěn)健性。Claude 3 Opus不僅實現(xiàn)了近乎完美的回憶能力，準確率超過99%，而且在某些情況下，它甚至通過識別出“針”句子似乎是被人為插入到原始文本中的，指出了評估本身的局限性。

負責任的設(shè)計

Anthropic 表示，Claude 3 系列型號不僅功能強大，而且值得信賴。

Anthropic 有多個專門的團隊負責跟蹤和減輕各種風險，這些風險范圍廣泛，包括錯誤信息和兒童性虐待材料（CSAM）、生物濫用、選舉干預(yù)和自主復(fù)制技能。Anthropic 表示繼續(xù)開發(fā)諸如憲法人工智能（Constitutional AI）等方法，以提高模型的安全性和透明度，并調(diào)整模型以減輕新模態(tài)可能引發(fā)的隱私問題。

解決日益復(fù)雜的模型中的偏見是一個持續(xù)的努力，Anthropic 在這個新版本中取得了進展。正如模型卡片所示，根據(jù)問題回答偏見基準（Bias Benchmark for Question Answering，簡稱BBQ），Claude 3表現(xiàn)出的偏見比之前的模型要少。Anthropic 致力于推進減少偏見和促進模型更大中立性的技術(shù)，確保它們不會偏向任何特定的黨派立場。

雖然 Claude 3模型系列在生物知識、網(wǎng)絡(luò)相關(guān)知識和自主性等關(guān)鍵指標上比之前的模型有所進步，但根據(jù)Anthropic的負責任擴展政策，它仍然處于人工智能安全等級2（AI Safety Level 2，簡稱ASL-2）。Anthropic 的紅隊評估（根據(jù)Anthropic對白宮的承諾和2023年美國行政命令進行）得出結(jié)論，這些模型目前對災(zāi)難性風險的潛在可能性微不足道。Anthropic 表示將繼續(xù)仔細監(jiān)控未來的模型，以評估它們接近ASL-3閾值的程度。

更容易使用

Claude 3模型更擅長遵循復(fù)雜的多步驟指令。它們特別擅長遵守品牌語調(diào)和響應(yīng)指南，并開發(fā)用戶可以信賴的客戶面向體驗。此外，Claude 3模型在生成流行的結(jié)構(gòu)化輸出方面做得更好，如JSON格式——這使得指導(dǎo)Claude進行自然語言分類和情感分析等用例變得更簡單。

2.成本如何？

Claude 3 Opus 是 Anthropic 最智能的模型，在高度復(fù)雜的任務(wù)上具有市場最佳的性能。它可以以驚人的流暢性和類似人類的理解能力來導(dǎo)航開放式提示和看不見的場景。

Claude 3 Sonnet在智能和速度之間實現(xiàn)了理想的平衡，特別是對于企業(yè)工作負載。與同類產(chǎn)品相比，它以更低的成本提供強大的性能，并且專為大規(guī)模人工智能部署中的高耐用性而設(shè)計。

Claude 3 Haiku是最快、最緊湊的模型，具有近乎即時的響應(yīng)能力。它以無與倫比的速度回答簡單的查詢和請求。用戶將能夠構(gòu)建模仿人類交互的無縫人工智能體驗。

表格由KimiChat生成

Anthropic 認為，模型智能還沒有達到極限，并計劃在未來幾個月內(nèi)頻繁發(fā)布 Claude 3 模型系列的更新。Anthropic還會發(fā)布一系列功能來增強模型的功能，特別是對于企業(yè)用例和大規(guī)模部署。這些新功能將包括工具使用（又名函數(shù)調(diào)用）、交互式編碼（又名 REPL）和更高級的代理功能。

當突破人工智能能力的界限時，Anthropic 同樣致力于確保安全護欄跟上這些性能飛躍的步伐。Anthropic 的假設(shè)是，處于人工智能發(fā)展的前沿是引導(dǎo)其走向積極社會成果的最有效方式。

（封面圖來源：Anthropic）

END.

原標題：《剛剛，Anthropic發(fā)布Claude 3模型，全面超越GPT-4｜甲子光年》

閱讀原文

特別聲明

本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機構(gòu)觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#Anthropic #Claude