- +1
百度文心一言免費!體驗真不如DeepSeek?我們評測了一番

DeepSeek如同梁文峰投入到AI圈的一顆深水炸彈,它掀起的巨浪依然在洶涌之中。受DeepSeek挑戰(zhàn),2月13日百度宣布,文心一言將于4月1日零時起,全面免費,所有PC端和App端用戶均可體驗文心系列最新模型。同時,即日起,文心一言上線深度搜索功能,該功能也將于4月1日起免費開放使用。當前,用戶可在文心一言官網(wǎng)上體驗深度搜索功能,APP端也即將同步上線。

(圖源:百度微信公眾號)
此前,作為國內(nèi)最早布局AI大模型的企業(yè),百度旗下的文小言(即原文心一言App)還接入了DeepSeek-R1大模型。
在iOS平臺,文小言App已更新至4.9.0版本,更新日志顯示,該版本上線伴學(xué)模式、手抄報和作文等學(xué)習類功能,且接入DeepSeek-R1模型,優(yōu)化拍照解題功能。

(圖源:App Store截圖)
文心一言免費、接入DeepSeek……百度的舉措讓不少網(wǎng)友吐槽,其AI技術(shù)“已經(jīng)掉隊了,居然要為自己的AI工具接入其他企業(yè)的大模型?!?/p>
在AI領(lǐng)域,百度的地位堪稱黃埔軍校,培養(yǎng)了大量技術(shù)人才。文心一言也曾是國內(nèi)AI大模型領(lǐng)域的領(lǐng)頭羊,文心3.5便對標GPT-3.5,如今文心4.0、文心4.0工具版、文心4.0 Turbo三款大模型更是在豆包、Kimi、通義千問等眾多AI大模型免費提供服務(wù)的大環(huán)境下,堅決采取收費服務(wù)模式,優(yōu)惠期間連續(xù)包月費用高達43.9元/月(原價59.9元/月),可見百度的自信。
若討論百度在AI領(lǐng)域是否真的掉隊,最簡單直接的方法就是將文心一言與其他AI大模型進行對比。因此,小雷決定將文心一言最強的文心4.0 Turbo和最近大火的DeepSeek-R1進行對比,觀察文心4.0 Turbo的實力,部分問題還會用其他AI大模型進行測試,并在文中作為參考。
文心一言、DeepSeek大決戰(zhàn):不分仲伯
本次對比測試,小雷不再用AI大模型生成文字或總結(jié)內(nèi)容,而是以測試推理能力為出發(fā)點,項目共分為誤導(dǎo)題、邏輯推理題、數(shù)學(xué)推理題三個部分。
1、誤導(dǎo)題:DeepSeek-R1略勝一籌。
AI大模型爆火之后,用戶們就發(fā)現(xiàn)其普遍存在一個問題,即沒有答案的問題AI也會編造一個答案。AI大模型已多次迭代的今天,小雷十分在意,AI還會編造答案嗎?
第一題,小雷向AI大模型提問“心肌干細胞有什么作用”。心肌干細胞(cKit+心肌成體干細胞)造假是學(xué)術(shù)圈有史以來最大的丑聞,以美國為主的全球多個研究機構(gòu)、大學(xué)、醫(yī)院深陷其中,大量論文被迫下架。目前科學(xué)界已基本達成共識,心肌干細胞并不存在。
然而AI似乎并不這么認為,文心4.0 Turbo給出的回答是,心肌干細胞擁有修復(fù)與再生心肌細胞、促進血管新生、抗炎和免疫調(diào)節(jié)、預(yù)防心臟衰竭等作用。不只是文心一言,豆包、Kimi、ChatGPT等國內(nèi)外AI大模型,全部都給出了心肌干細胞的作用。小雷還特地查看了文心4.0 Turbo提供了9條參考信息,發(fā)現(xiàn)都是半年內(nèi)AI生成的信息。

(圖源:文心4.0 Turbo截圖)
基于過去錯誤的論文,在人為干預(yù)的情況下,AI輸出了錯誤的信息。而后其他AI大模型又根據(jù)錯誤的信息,不斷編造錯誤的信息,這種情況或?qū)⒊蔀槲磥碜璧KAI技術(shù)發(fā)展的關(guān)鍵因素。
不過在該項測試中,DeepSeek-R1卻給出了與眾不同的答案,該大模型生成的內(nèi)容顯示,心肌干細胞理論上擁有潛在作用,但研究存在爭議。盡管DeepSeek-R1的回答仍有為心肌干細胞辯駁的成分,但至少已經(jīng)跳出了問題本身,能夠去分析心肌干細胞是否存在。

(圖源:DeepSeek-R1截圖)
其實直接提問“心肌干細胞是否存在”,大多數(shù)AI大模型會給出存在和不存在雙方的觀點和例證,并加以分析。而向AI詢問心肌干細胞的作用時,AI則普遍依然會出現(xiàn)編造答案的情況。在第一輪測試中,能夠率先跳出問題本身,去詳細了解心肌干細胞的DeepSeek-R1取得了勝利。
2、邏輯推理:文心一言DeepSeek平分秋色。
能否利用題目中的信息,去推導(dǎo)出正確答案,同樣是困擾AI大模型的難點。本輪測試中,小雷選擇了一道懸疑邏輯推理問題:
一位畫家被發(fā)現(xiàn)死在一間老舊的畫室中,隨便走動木質(zhì)地板都發(fā)出吱吱聲。畫家死在畫板前,正畫著自畫像,是被人從背后用匕首刺殺。手上仍握著畫筆,警方鎖定了2名嫌疑人。一位是畫家的朋友,但欠下畫家巨款。一位是曾多次出現(xiàn)在附近的流氓,有入室搶劫的前科。是誰刺殺了畫家?(正確答案:畫家的朋友)
本輪測試文心4.0 Turbo和DeepSeek-R1打成平手,雙方根據(jù)題目提及的線索,均分析出了畫家的朋友才是殺害畫家的真兇。
這道題并不難,結(jié)合以上線索,人類其實很容易分析出畫家的朋友才是真兇的答案。然而當小雷用其他豆包、Kimi、文心3.5、通義千問、7B參數(shù)的DeepSeek-R1等大模型推理該題時卻發(fā)現(xiàn),只有豆包給出了正確答案,其他幾款大模型全部給出了錯誤答案。最離譜的是Kimi,推理過程中一直在強調(diào)畫家的朋友嫌疑更大,但最終答案卻是附近的流氓。

(圖源:Kimi截圖)
本輪測試中,文心4.0 Turbo和DeepSeek-R1打成平手,都成功推理出了正確答案,并且相較其他AI大模型,表現(xiàn)也更加出色。
3、數(shù)學(xué)推理:DeepSeek敗下陣來。
能否快速、正確解答出數(shù)學(xué)題,一直是驗證AI大模型是否擁有真正推理能力的重要測試項目。該環(huán)節(jié)小雷選擇了一道概率相關(guān)的數(shù)學(xué)題:
一架飛機上有一百個座位,編號是從1到100。現(xiàn)在編號為1到100的乘客依次坐上飛機。編號為1的乘客上了飛機之后,隨機(等概率地)坐座位。編號為2的乘客上了飛機之后,他先看有沒有人坐在2號位上,如果有,那他就在剩下的位子里隨機(等概率地)挑選一個,如果沒有人坐,他就坐在2號位上。3號也是一樣,如果前面有人已經(jīng)坐了3號位了,他就在剩下的位子上隨便挑一個坐,反之則坐自己的位子。以此類推,最后問題是,第100個人坐在第100號位子上的概率應(yīng)該是多少。(正確答案:1/2)
這道題同樣存在大量誤導(dǎo)信息,若能正確理解題目,其實非常簡單。在本輪測試中,文心4.0 Turbo、DeepSeek-R1、通義千問、豆包、Kimi等大模型,全部回答出了正確答案。
有趣的是,即便面對如此簡單的問題,依然有一個大模型回答錯誤,那就是文心3.5。在一番計算之后,文心3.5居然給出了概率為99/100的離譜答案。

(圖源:文心3.5)
考慮到上一道題目難度不高,小雷決定再加入一道附加題:
甲、乙兩人各有四張卡片,每張卡片上標有一個數(shù)字,甲的卡片上分別標有數(shù)字1,3,5,7,乙的卡片上分別標有數(shù)字2,4,6,8,兩人進行四輪比賽,在每輪比賽中,兩人各自從自己持有的卡片中隨機選一張,并比較所選卡片上數(shù)字的大小,數(shù)字大的人得1分,數(shù)字小的人得0分,然后各自棄置此輪所選的卡片棄置的卡片在此后輪次中不能使用則四輪比賽后,甲的總得分不小于2的概率為?(正確答案:1/2)
這道題小雷此前曾測試過,豆包、通義千問、Kimi、文心3.5等大模型全部未能解出正確答案。本輪測試中,豆包、通義千問、Kimi、文心3.5再次回答錯誤,但唯一回答正確的大模型并不是DeepSeek-R1。
DeepSeek-R1推理這道題耗時足足728秒,最終給出的答案卻是13/24,超過12分鐘的推理時間都沒能給出正確答案,令小雷有些失望。

(圖源:DeepSeek-R1截圖)
不被小雷看好的文心4.0 Turbo,竟然用時不到兩分鐘,就計算出了正確答案。相信不止小雷,絕大多數(shù)網(wǎng)友都沒有想到結(jié)果會是這樣。

(圖源:文心4.0 Turbo截圖)
近期知乎頻繁給小雷推送問題“DeepSeek對文心一言有什么影響”,評論區(qū)幾乎清一色貶低文心一言。然而本次評測卻證明,文心一言在推理方面并不落后DeepSeek-R1,依然穩(wěn)居AI大模型第一梯隊。
在能力不輸DeepSeek-R1,部分測試表現(xiàn)領(lǐng)先豆包、Kimi、通義千問等AI大模型的情況下,文心一言的口碑卻并不理想。如何改變這一局面,值得百度深思。
百度“掀桌子”,文心一言能否逆天改命?
在與DeepSeek-R1對比測試之前,小雷本以為文心4.0 Turbo會輸,實際結(jié)果卻打了小雷的臉,這兩款大模型在不同領(lǐng)域互有優(yōu)勢,但能力差距不大。文心一言之所以給小雷留下了表現(xiàn)不行的印象,是因為小雷平時使用文心一言時,總會選擇免費的文心3.5大模型。
通過以上實測不難發(fā)現(xiàn),文心4.0 Turbo與文心3.5的能力堪稱云泥之別,三道推理題文心4.0 Turbo全部回答正確,而且推理任務(wù)所需時間極短,文心3.5卻全部回答錯誤。
不是用戶不愿意用更強大的文心4.0 Turbo,而是高昂的費用為文心4.0、文心4.0工具版、文心4.0 Turbo筑起了高高的門檻,阻止用戶體驗它。若是在海外市場,43.9元/月的費用對比20美元/月起步的ChatGPT-GPT并不算貴,但在國內(nèi)市場,豆包、Kimi、DeepSeek、通義千問等AI大模型均免費提供服務(wù),用戶難免更傾向使用它們。

(圖源:雷科技攝制)
百度急于賺錢的心態(tài)小雷可以理解,畢竟開發(fā)AI大模型的訓(xùn)練成本和提供服務(wù)的推理成本都不低,現(xiàn)階段所有企業(yè)的AI大模型業(yè)務(wù)都在虧損??葾I行業(yè)仍處于市場開拓階段,其他企業(yè)都在通過免費提供服務(wù)爭奪用戶,百度卻先一步開啟收費模式,將大量潛在用戶拒之門外。
酒香也怕巷子深。2月13日,百度宣布文心一言將在4月1日徹底免費,這是降低AI門檻、吸引大量用戶的最佳方案。百度這一舉措跟比亞迪將高階智駕標配到全系車型可相提并論,都是推動AI普惠的舉措。
短期的虧損難以避免,如何讓用戶形成對文心一言的依賴,才是百度需要考慮的首要問題。承受一段時間的虧損,換來的可能是未來成為AI行業(yè)的領(lǐng)導(dǎo)者,并賺更多錢的機會。就跟比亞迪用“掀桌子”的手段,力爭在下半場成為智駕領(lǐng)導(dǎo)者一樣。
作為一個國民級AI工具,免費并不容易,文心一言沒有在2月13日直接免費,而是將時間推遲到4月1日,或許百度還有大量的工作要做。
幾乎是同一時間,OpenAI也宣布免費版ChatGPT在標準智能設(shè)置下將可以無限制使用GPT-5,盡管未能如百度一般完全免費,但也能看到OpenAI的讓步。隨著文心一言和GPT-5標準智能模式免費開放,整個AI大模型領(lǐng)域的競爭也將邁入新階段,DeepSeek的性價比優(yōu)勢也將很難持續(xù)?,F(xiàn)在,壓力似乎正在轉(zhuǎn)移到DeepSeek這一邊。

本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司