中文字幕欧美乱伦|手机AV永久免费|澳门堵场日韩精品|日本性爱欧美激情|蜜桃狠狠狠狠狠狠狠狠狠|成人免费视频 国|欧美国产麻豆婷婷|99久久久国产精品福利姬喷水|婷婷内射精品视频|日本欧洲一区二区

澎湃Logo
下載客戶端

登錄

  • +1

火山引擎總裁譚待:很多Agent的能力還停留在“L1”階段

澎湃新聞記者 喻琰
2025-04-17 19:15
來源:澎湃新聞
? 未來2% >
字號

“目前很多Agent的能力仍停留在初級水平,真正實現(xiàn)具備更強反思、規(guī)劃與自主決策能力的Agent,是行業(yè)發(fā)展的方向?!?月17日,在火山引擎2025 FORCE LINK AI創(chuàng)新巡展現(xiàn)場杭州站上,字節(jié)跳動旗下的火山引擎總裁譚待在接受包括澎湃科技(www.dbgt.com.cn)在內(nèi)的媒體采訪時表示。

譚待認(rèn)為,深度思考模型是構(gòu)建Agent的基礎(chǔ),模型要有能力做好思考、計劃和反思,并且一定要支持多模態(tài),就像人類具備視覺和聽覺一樣,Agent才能更好地處理復(fù)雜任務(wù)。

豆包1.5深度思考模型發(fā)布  澎湃新聞記者 攝

當(dāng)日,豆包1.5深度思考模型正式發(fā)布。據(jù)介紹,這款模型除了在數(shù)學(xué)、編程、科學(xué)推理、創(chuàng)意寫作等通用任務(wù)表現(xiàn)突出之外,還上線了具備視覺推理能力的深度思考模型視覺版,能像人類一樣對看到的事物進行聯(lián)想和思考。

值得一提的是,就在今天凌晨,OpenAI也發(fā)布了能夠進行視覺推理的推理模型o3。

在發(fā)布會現(xiàn)場,譚待展示了豆包1.5深度思考模型的視覺推理功能,不僅能夠根據(jù)照片分析地貌,還能幫助用戶點餐,還可以根據(jù)家庭成員的需求推薦露營裝備,甚至也能協(xié)助制定旅行計劃。在企業(yè)場景中,該模型可輔助完成項目管理流程圖,優(yōu)化工作流程,推動企業(yè)實現(xiàn)智能化運營。

2025年被業(yè)界視為“AI Agent智能體元年”,全球科技巨頭如微軟、谷歌、OpenAI等紛紛加速布局,推出具備自主決策和多任務(wù)處理能力的AI Agent產(chǎn)品,如微軟發(fā)布了企業(yè)級AI助手Microsoft 365 Copilot Chat,谷歌升級了Gemini 2.0模型,OpenAI則在17日凌晨突然推出最新的o系列模型,o3和o4-mini,同時表示這兩款模型都可以自由調(diào)用 ChatGPT 里的各種工具,包括但不限于圖像生成、圖像分析、文件解釋、網(wǎng)絡(luò)搜索、Python。

國內(nèi)繼中國初創(chuàng)公司Monica推出號稱全球首款A(yù)I智能體產(chǎn)品Manus后,行業(yè)內(nèi)也在等待下一個科技圈的爆款產(chǎn)品出現(xiàn)。

現(xiàn)場展示豆包1.5深度思考模型  澎湃新聞記者 攝

面對行業(yè)內(nèi)激烈的競爭,譚待在接受采訪時直言,現(xiàn)在所謂的“Agent”,不能僅完成“寫一首打油詩”或“寫篇小學(xué)生作文”這樣的簡單任務(wù)。真正的Agent,需要能完成專業(yè)性較高、耗時較長、結(jié)構(gòu)完整的任務(wù),這是從定性角度來看。從技術(shù)實現(xiàn)的角度來看,如果沒有運用深度思考模型,缺乏反思和規(guī)劃能力,也很難稱其為真正的Agent。

談及市面上目前Agent的發(fā)展階段,譚待以目前大家熟悉的自動駕駛領(lǐng)域來類比。自動駕駛技術(shù)根據(jù)自動化程度的不同分為L0到L5六個級別。其中,L0級、L1級、L2級都只能稱為輔助駕駛系統(tǒng)。譚待指出,2025年行業(yè)內(nèi)和大眾對Agent的定義可能會更加清晰,行業(yè)內(nèi)或許會像自動駕駛分級一樣,對Agent進行分級,如Agent L1、L2、L3、L4 這類?!澳切╅_發(fā)三四千個 Agent的企業(yè),(Agent能力)可能僅相當(dāng)于自動駕駛中的 L1 級別;而真正實現(xiàn)落地應(yīng)用,至少應(yīng)具備 L2++ 能力(注:L2部分自動駕駛范疇,但在技術(shù)和體驗上比普通的L2更先進,接近甚至部分具備L3能力)。”譚待表示。

澎湃科技注意到,在此次AI創(chuàng)新巡展現(xiàn)場杭州站上,火山引擎還推出了OS Agent解決方案。據(jù)悉,OS Agent解決方案包含豆包UI-TARS模型,以及veFaaS函數(shù)服務(wù)、云服務(wù)器、云手機等產(chǎn)品,實現(xiàn)對代碼、瀏覽器、電腦、手機以及其他Agent的操作。其中,豆包UI-TARS模型將屏幕視覺理解、邏輯推理、界面元素定位和操作整合在了一起,為Agent的智能交互提供了更接近人類操作的模型基礎(chǔ)。

    責(zé)任編輯:宦艷紅
    圖片編輯:蔣立冬
    校對:施鋆
    澎湃新聞報料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業(yè)有限公司

            反饋