- +1
百度3月將推出ChatGPT風(fēng)格服務(wù)?“檢索+生成”是今年重點(diǎn)
·消息人士稱,百度計(jì)劃在3月推出類似于ChatGPT的AI聊天機(jī)器人服務(wù),百度文心(Ernie)大模型將成為其基礎(chǔ)。
·百度對(duì)這一消息尚未作出正面回應(yīng)。百度搜索杰出架構(gòu)師辜斯繆1月初曾表示,百度搜索今年在技術(shù)上最重要的工作就是要把整個(gè)檢索系統(tǒng)變成檢索+生成雙模系統(tǒng)。

百度 視覺(jué)中國(guó) 資料圖
據(jù)多家外媒1月30日?qǐng)?bào)道,中國(guó)互聯(lián)網(wǎng)搜索巨頭百度計(jì)劃在3月推出類似于ChatGPT的AI聊天機(jī)器人服務(wù)。彭博社消息稱,百度文心(Ernie)大模型將成為其基礎(chǔ)。截至發(fā)稿,百度對(duì)這一消息未作出正面回應(yīng)。
1月初,百度搜索杰出架構(gòu)師辜斯繆曾在一次小范圍的媒體溝通會(huì)上說(shuō):“我們預(yù)計(jì)在3月會(huì)做一個(gè)比較大的升級(jí)?!薄鞍俣人阉鹘衲暝诩夹g(shù)上最重要的工作就是要把整個(gè)檢索系統(tǒng)變成檢索+生成雙模系統(tǒng)。”
上述消息發(fā)布后,百度股價(jià)上漲5.8%,創(chuàng)下近4周以來(lái)的最大盤(pán)中漲幅。
ChatGPT是由人工智能實(shí)驗(yàn)室OpenAI發(fā)布的對(duì)話式大型語(yǔ)言模型,它可以輕松與人類進(jìn)行各個(gè)領(lǐng)域的對(duì)話,回答各種問(wèn)題,無(wú)論是寫(xiě)代碼改bug、回答科學(xué)問(wèn)題,還是寫(xiě)論文、寫(xiě)文章都不在話下。ChatGPT被認(rèn)為會(huì)顛覆現(xiàn)有搜索引擎的商業(yè)模式,吸引了微軟公司的高度關(guān)注和合作興趣,并促使谷歌公司在內(nèi)部發(fā)布了“紅色代碼”警報(bào)。
名稱尚未確定
一位熟悉此事的人士向彭博社透露,百度計(jì)劃在3月首次推出ChatGPT式的應(yīng)用程序,最初將其嵌入百度主要的搜索服務(wù)中,該人士要求在討論私人信息時(shí)不透露身份。該工具的名稱尚未確定,將允許用戶獲得對(duì)話式的搜索結(jié)果,很像ChatGPT。
百度多年以來(lái)已經(jīng)花費(fèi)數(shù)十億美元研究人工智能。該人士稱,經(jīng)過(guò)數(shù)年數(shù)據(jù)訓(xùn)練的大規(guī)模機(jī)器學(xué)習(xí)模型文心大模型,將成為百度即將推出的類似ChatGPT的工具的基礎(chǔ)。
百度的一位代表拒絕就彭博社的報(bào)道發(fā)表評(píng)論。
ChatGPT自去年11月公開(kāi)亮相以來(lái),已經(jīng)點(diǎn)燃了互聯(lián)網(wǎng),在幾天內(nèi)積累了超過(guò)一百萬(wàn)用戶,并引發(fā)了一場(chǎng)關(guān)于人工智能在學(xué)校、辦公室和家庭中作用的辯論。包括微軟在內(nèi)的公司正在投資數(shù)十億美元,嘗試開(kāi)發(fā)現(xiàn)實(shí)世界的應(yīng)用,而其他公司則在利用這種炒作來(lái)籌集資金。在宣布將ChatGPT納入其內(nèi)容的計(jì)劃后,美國(guó)病毒式新聞網(wǎng)站Buzzfeed的股價(jià)本月上漲了一倍多。
在移動(dòng)廣告、視頻和社交媒體等領(lǐng)域日益落后于其較大的競(jìng)爭(zhēng)對(duì)手之后,百度一直試圖在移動(dòng)時(shí)代恢復(fù)增長(zhǎng)。除了人工智能方面的研究,它還在開(kāi)發(fā)自動(dòng)駕駛技術(shù)。
根據(jù)彭博社看到的一份記錄,百度首席執(zhí)行官李彥宏在去年12月的一次內(nèi)部談話中提到了ChatGPT,作為該科技巨頭可以發(fā)揮領(lǐng)導(dǎo)作用的一個(gè)例子?!拔液芨吲d,我們每天都在思考的技術(shù)能夠吸引這么多人的注意。這并不容易?!彼f(shuō)。但他警告說(shuō),通過(guò)使生成性人工智能成為“每個(gè)人都需要的產(chǎn)品”來(lái)實(shí)現(xiàn)商業(yè)化可能是一個(gè)挑戰(zhàn)。
ChatGPT也引起了中國(guó)網(wǎng)民的極大興趣,很多人在社交媒體上分享了與ChatGPT對(duì)話的截圖。除百度外,幾家中國(guó)初創(chuàng)公司也在探索生成性人工智能,并吸引了紅杉和Sinovation Ventures等投資者。
百度:搜索的未來(lái)是“檢索+生成”
在1月初的媒體溝通會(huì)上,百度搜索杰出架構(gòu)師辜斯繆提出搜索領(lǐng)域的三個(gè)重點(diǎn)技術(shù)趨勢(shì):第一是搜索從信息檢索到檢索+生成的混合系統(tǒng)。第二是搜索變成跨模態(tài)的理解和交互,搜索將以圖片、視頻、音頻等各種媒介形式理解用戶輸入的信息。第三是在知識(shí)的理解和組織基礎(chǔ)上完成搜索。
就“檢索+生成”的技術(shù)趨勢(shì)而言,“目前,搜索系統(tǒng)的設(shè)計(jì)邏輯還是在互聯(lián)網(wǎng)的生態(tài)領(lǐng)域找到用戶需要的信息反饋給用戶,但我們認(rèn)為,未來(lái)更有可能是‘檢索+生成’的模式?!惫妓箍娕e例稱,生成一個(gè)像“高智商”或知識(shí)儲(chǔ)備豐富的人的人工智能,將百度搜索中的信息理解處理后提供給用戶,“我們認(rèn)為它最終提供的服務(wù)質(zhì)量會(huì)遠(yuǎn)高于現(xiàn)在待機(jī)下的搜索服務(wù)質(zhì)量”。
另外,對(duì)比原來(lái)單元對(duì)話式的搜索模式,即搜索一個(gè)問(wèn)題得到一個(gè)結(jié)果,未來(lái)的搜索模式可能變成多輪交互形式,“這跟對(duì)話式的多輪不一樣,它不追求聊天,而是讓用戶可以更高效地向搜索引擎提出需求,同時(shí)讓搜索迭代和調(diào)整適應(yīng)用戶需求。比如搜索一張圖片,再用語(yǔ)言告訴搜索引擎怎么修改這張圖片,最后產(chǎn)生一個(gè)真正定制化的答案?!惫妓箍娬f(shuō)。
據(jù)辜斯繆介紹,百度搜索今年最重要的工作是要把整個(gè)檢索系統(tǒng)變成“檢索+生成”雙模系統(tǒng)。具體從終端用戶體驗(yàn)而言,變化主要體現(xiàn)在三個(gè)方面。
第一,搜索結(jié)果的信息整合推理效果明顯提升。比如現(xiàn)在用百度搜索“秦始皇和漢尼拔兩個(gè)人誰(shuí)的年紀(jì)比較大”,可能得不到一個(gè)理想的答案。這個(gè)問(wèn)題實(shí)際上對(duì)人來(lái)說(shuō)更容易,只要查秦始皇和漢尼拔的出生年月就可以得到答案。而在“檢索+生成”系統(tǒng)下,其通過(guò)檢索獲取基礎(chǔ)信息,再通過(guò)生成整理組織答案最終呈現(xiàn),就會(huì)得到更好的效果。
第二,搜索有了創(chuàng)作能力。比如個(gè)人想要的水墨畫(huà)風(fēng)格的兔子頭像,但互聯(lián)網(wǎng)上不存在這樣的資源,那么通過(guò)生成技術(shù)未來(lái)就可以通過(guò)搜索解決。
第三,個(gè)性化內(nèi)容體驗(yàn)?!昂?jiǎn)單來(lái)說(shuō),就是同樣一個(gè)答案呈現(xiàn)給不同的用戶的描述方式不同。”辜斯繆舉例,百度搜索“天空為什么是藍(lán)色”,目前所有人都會(huì)得到一個(gè)結(jié)果,但未來(lái)可能可以通過(guò)生成技術(shù)提供給兒童用戶能通俗理解的答案,還可以再配合其他的場(chǎng)景設(shè)計(jì)如TTS(文本到語(yǔ)音)讓它朗讀出來(lái)。如果用戶是精英人士,那么就可以呈現(xiàn)一個(gè)更高效簡(jiǎn)潔的答案。
如何解決生成模型的成本和答案準(zhǔn)確性問(wèn)題?
眾所周知,像ChatGPT這樣的模型有其局限性,最核心的有兩點(diǎn):回答準(zhǔn)確性與搜索成本?!癈hatGPT的預(yù)訓(xùn)練依托于大型語(yǔ)料庫(kù),而語(yǔ)料庫(kù)來(lái)源于互聯(lián)網(wǎng)上實(shí)際發(fā)生的語(yǔ)言使用場(chǎng)景。一方面,這使其無(wú)法避免地帶有虛假信息、歧視偏見(jiàn)信息,另一方面,也往往容易忽略冷門(mén)信息?!鄙虾H斯ぶ悄苎芯吭貉芯繂T陳逸君對(duì)澎湃科技(www.dbgt.com.cn)表示。
辜斯繆認(rèn)為解決思路主要有兩點(diǎn),第一,不純粹做生成模型,而是“檢索+生成”,搜索引擎本身就可以讓其更好地驗(yàn)證自己的能力邊界,判斷正確性。第二,從模型本身來(lái)說(shuō),關(guān)鍵在于對(duì)答案可解釋性的判斷是否到位。
“從技術(shù)上,我們?cè)跇?gòu)建模型訓(xùn)練任務(wù)時(shí),需要設(shè)置兩個(gè)訓(xùn)練的目標(biāo)。一方面讓它可以給出一個(gè)真實(shí)且流暢的答案。另一方面讓它能夠更好地判斷對(duì)于這個(gè)答案的自信度,或者對(duì)于這個(gè)知識(shí)本身來(lái)源的判斷。我們可能會(huì)通過(guò)多任務(wù)學(xué)習(xí),最終綜合達(dá)到更好的效果?!惫妓箍娬f(shuō)。
同時(shí),當(dāng)檢索結(jié)果有爭(zhēng)議甚至有更高風(fēng)險(xiǎn)時(shí),就回歸到正常的檢索效果,“因?yàn)樯赡壳皝?lái)看不是不可或缺的環(huán)節(jié)?!惫妓箍娧a(bǔ)充道。
對(duì)于成本問(wèn)題,摩根士丹利的分析師布萊恩·諾瓦克(Brian Nowak)估計(jì),ChatGPT每次查詢的成本大約是谷歌傳統(tǒng)搜索查詢成本的七倍。
辜斯繆也坦誠(chéng),“這個(gè)技術(shù)確實(shí)很貴”。另一方面,“具體落地時(shí)也還有很多優(yōu)化空間,我們現(xiàn)在已經(jīng)考慮的很多優(yōu)化方案可以大幅降低它的單次服務(wù)成本。同時(shí),我們確實(shí)也需要投入一定比例的資源,才能去支撐這個(gè)事情最終做下來(lái)?!?/p>
目前來(lái)看,有兩個(gè)核心技術(shù)參數(shù)決定了最終需要多大的投入,第一個(gè)是模型本身的規(guī)模,第二個(gè)是最終交互的請(qǐng)求量。“我們目前判斷,除了產(chǎn)品設(shè)計(jì)上有很多優(yōu)化空間外,技術(shù)本身的演進(jìn)也會(huì)使模型效率提升。很可能最終我們不需要那么大的模型(GPT3.0版本),就能夠提供非常好的服務(wù),近期也會(huì)有大量技術(shù)成果誕生來(lái)解決這個(gè)問(wèn)題。如果攻克了這個(gè)問(wèn)題,對(duì)應(yīng)的成本就會(huì)有大幅度的下降?!惫妓箍姺窒淼?。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司




