中文字幕欧美乱伦|手机AV永久免费|澳门堵场日韩精品|日本性爱欧美激情|蜜桃狠狠狠狠狠狠狠狠狠|成人免费视频 国|欧美国产麻豆婷婷|99久久久国产精品福利姬喷水|婷婷内射精品视频|日本欧洲一区二区

澎湃Logo
下載客戶端

登錄

  • +1

新質(zhì)觀察|誰來喂飽中國的AI?公共數(shù)據(jù)開放的關(guān)鍵一躍

王翔
2025-11-18 07:32
來源:澎湃新聞
? 澎湃商學(xué)院 >
字號(hào)

當(dāng)你在政務(wù)App上咨詢“醫(yī)保報(bào)銷要多久到賬”,或在醫(yī)療智能體里描述癥狀時(shí),后臺(tái)的人工智能(以下簡稱AI)并不是天生的“百事通”。它之所以能理解你的問題、給出自然的回答,靠的是成千上萬條語料樣本——來自政策文件、醫(yī)療記錄、熱線對話、網(wǎng)絡(luò)評論等真實(shí)數(shù)據(jù)。這些數(shù)據(jù)的集合有一個(gè)共同的名字:高質(zhì)量數(shù)據(jù)集。它總是甘居幕后,卻正成為智能時(shí)代最重要的數(shù)據(jù)基礎(chǔ)設(shè)施之一。為什么高質(zhì)量數(shù)據(jù)集的供給對于AI的發(fā)展如此重要?我國的高質(zhì)量數(shù)據(jù)集建設(shè)、共享和開放如何破局呢?

AI學(xué)習(xí)的中文“教材”稀缺,共享開放亟待破局

一個(gè)AI模型能有多聰明,取決于它“讀”過多少好書。高質(zhì)量數(shù)據(jù)集是AI大模型訓(xùn)練、推理和驗(yàn)證的關(guān)鍵基礎(chǔ),是AI學(xué)習(xí)的“教材”,是AI能“懂人話”并且“說人話”的前提。如果教材內(nèi)容錯(cuò)誤、混亂或不完整,AI的成長就會(huì)走彎路。

同時(shí),AI大模型訓(xùn)練不僅需要龐大的數(shù)據(jù)量,更強(qiáng)調(diào)跨語種、跨模態(tài)、跨領(lǐng)域的數(shù)據(jù)多樣性。據(jù)AI應(yīng)用社區(qū) Hugging Face統(tǒng)計(jì),中文開源數(shù)據(jù)集數(shù)量僅占全部開源數(shù)據(jù)集的8%左右。我國大部分AI模型的訓(xùn)練數(shù)據(jù)集依賴外國開放數(shù)據(jù),這種不對稱性不僅帶來語義偏倚與文化誤讀風(fēng)險(xiǎn),也制約了本地化場景下AI系統(tǒng)的泛化能力。中文語料數(shù)據(jù)供給不足,AI大模型只能“餓著肚子”,在貧瘠的通用語料里苦苦訓(xùn)練。

另外,當(dāng)前中文互聯(lián)網(wǎng)上充斥著用AI生成的低質(zhì)量中文語料,其中大量包含事實(shí)錯(cuò)誤、邏輯混亂、語法不通、陳詞濫調(diào)等問題?!袄M(jìn),垃圾出”,用這些數(shù)據(jù)再去投喂AI,可能帶來中文AI模型退化的風(fēng)險(xiǎn)。就好像用一份復(fù)印件反復(fù)復(fù)印,不斷重復(fù)這個(gè)過程之后,最終得到的復(fù)印件可能已經(jīng)模糊不清、錯(cuò)誤百出。

鑒于高質(zhì)量數(shù)據(jù)集供給的重要性,我國連續(xù)推出戰(zhàn)略部署,明確將其納入政策頂層設(shè)計(jì)。剛剛發(fā)布的《中共中央關(guān)于制定國民經(jīng)濟(jì)和社會(huì)發(fā)展第十五個(gè)五年規(guī)劃的建議》,要求“強(qiáng)化算力、算法、數(shù)據(jù)等高效供給”。前不久發(fā)布的《國務(wù)院關(guān)于深入實(shí)施“人工智能+”行動(dòng)的意見》也明確要求:“以應(yīng)用為導(dǎo)向,持續(xù)加強(qiáng)人工智能高質(zhì)量數(shù)據(jù)集建設(shè)”。然而,當(dāng)前我國高質(zhì)量數(shù)據(jù)集的建設(shè)、共享與開放仍面臨不少的困難和挑戰(zhàn)。

AI數(shù)據(jù)集的數(shù)據(jù)源復(fù)雜多樣,整體呈現(xiàn)分散化狀態(tài),存在邊界模糊、家底不清、權(quán)責(zé)不明、標(biāo)準(zhǔn)不一、統(tǒng)籌不力等問題。政府、高校、科研機(jī)構(gòu)和企業(yè)之間數(shù)據(jù)壁壘突出,數(shù)據(jù)被長期被“鎖”在各自的“數(shù)據(jù)孤島”里。高質(zhì)量數(shù)據(jù)集的內(nèi)部共享和對外開放都缺乏統(tǒng)一的數(shù)據(jù)平臺(tái)與協(xié)調(diào)機(jī)制,難以形成高質(zhì)量、大規(guī)模數(shù)據(jù)集共建共享格局。數(shù)據(jù)資源建設(shè)主要依靠科研任務(wù)驅(qū)動(dòng),在資金、聲譽(yù)、成果轉(zhuǎn)化方面的激勵(lì)不足,責(zé)任與收益不對等問題凸顯,各方推動(dòng)數(shù)據(jù)共享開放的積極性有待提升。

公共數(shù)據(jù)開放:破解數(shù)據(jù)供給瓶頸的關(guān)鍵路徑

要加強(qiáng)AI高質(zhì)量數(shù)據(jù)集供給,公共數(shù)據(jù)開放是一條亟待開拓的路徑。公共數(shù)據(jù),取之于民、用之于民。政府和其他公共管理與服務(wù)機(jī)構(gòu)掌握的公共數(shù)據(jù)體量大、價(jià)值高、類型廣,權(quán)威性與可信度高,應(yīng)當(dāng)優(yōu)先向社會(huì)開放用于AI及相關(guān)產(chǎn)業(yè)的發(fā)展。利用開放的公共數(shù)據(jù)建設(shè)高質(zhì)量數(shù)據(jù)集,將有望成為AI時(shí)代的智能底座,助力形成政府治理提質(zhì)、市場創(chuàng)新加速、社會(huì)效益倍增的多贏局面。

首先,公共數(shù)據(jù)中包含的政策文書、法律法規(guī)、社交媒體、新聞?wù)Z料等數(shù)據(jù),經(jīng)過模型處理后可以提升增強(qiáng)政府決策的智能化與科學(xué)化水平,促進(jìn)政務(wù)服務(wù)的精準(zhǔn)化與個(gè)性化,并推動(dòng)開放治理與公眾參與。

其次,公共數(shù)據(jù)向社會(huì)開放,可以通過規(guī)模效應(yīng)提高數(shù)據(jù)利用效率,降低創(chuàng)新的邊際成本,激發(fā)市場主體的創(chuàng)新積極性,促進(jìn)AI相關(guān)的技術(shù)突破與產(chǎn)業(yè)融合。

第三,公共數(shù)據(jù)向社會(huì)開放還可以打破大機(jī)構(gòu)壟斷數(shù)據(jù)的局面,有效緩解社會(huì)信息不對稱問題,使得不同規(guī)模的企業(yè)、科研機(jī)構(gòu)與個(gè)人可以公平地獲得數(shù)據(jù)資源,彌合數(shù)字鴻溝,促進(jìn)數(shù)字包容。

目前,國際上已經(jīng)有大量基于公共數(shù)據(jù)開發(fā)的高質(zhì)量數(shù)據(jù)集向開發(fā)者開放,并形成了多樣化的建設(shè)模式和治理機(jī)制,產(chǎn)生了豐富的應(yīng)用成果。我國上海、杭州等城市的公共數(shù)據(jù)開放平臺(tái),也嘗試上線了一批用于AI訓(xùn)練的高質(zhì)量數(shù)據(jù)集。不過,我國大部分地方還沒有啟動(dòng)這項(xiàng)工作。筆者在調(diào)研中發(fā)現(xiàn),這項(xiàng)工作的開展面臨著不懂、不愿、不能、不敢的困境。

一是“不懂”。很多領(lǐng)導(dǎo)干部和公務(wù)員仍把數(shù)據(jù)看作工作中的副產(chǎn)品,尚未意識(shí)到,自己每天處理的審批文件、熱線語音、交通流量等等,其實(shí)都是AI學(xué)習(xí)的最好教材。對AI相關(guān)概念的理解不清晰、不統(tǒng)一,一知半解的狀況比較普遍。

二是“不愿”。高質(zhì)量數(shù)據(jù)集建設(shè)需要投入大量人力物力,標(biāo)注、清洗、整理都極為繁瑣。缺乏相應(yīng)的激勵(lì)機(jī)制,就容易出現(xiàn)“多一事不如少一事”的心理。

三是“不能”。高質(zhì)量數(shù)據(jù)集建設(shè)在數(shù)據(jù)編目、預(yù)處理、標(biāo)注、更新、分布校準(zhǔn)和多模態(tài)數(shù)據(jù)處理等方面都有一定的技術(shù)門檻,而這些數(shù)據(jù)集的共享開放缺乏統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)、術(shù)語字典、標(biāo)注體系,導(dǎo)致數(shù)據(jù)難以互通。一些部門即便想做,也缺少技術(shù)與人力的支撐。

四是“不敢”。數(shù)據(jù)安全和隱私保護(hù)是最大的顧慮。公共數(shù)據(jù)往往涉及個(gè)人信息和公共安全,稍有不慎就可能引發(fā)風(fēng)險(xiǎn)。因此,許多單位寧愿把數(shù)據(jù)“鎖在柜子里”,也不敢對外開放。

四步入手破解公共數(shù)據(jù)開放瓶頸問題

上述四個(gè)“不”,正是當(dāng)前公共數(shù)據(jù)開放的“卡脖子”問題。要讓公共數(shù)據(jù)開放賦能高質(zhì)量數(shù)據(jù)集建設(shè),在觀念、制度和技術(shù)層面都需要跨越鴻溝。

第一,認(rèn)知升級,讓數(shù)據(jù)供給成為共識(shí)。許多地方在推進(jìn)AI項(xiàng)目時(shí),往往注重算法創(chuàng)新和算力建設(shè),卻忽略了數(shù)據(jù)資源供給。要通過培訓(xùn)、宣傳以及試點(diǎn)示范,讓各級各部門各單位都認(rèn)識(shí)到開放數(shù)據(jù)的社會(huì)效益和經(jīng)濟(jì)價(jià)值。

第二,機(jī)制創(chuàng)新,讓“數(shù)據(jù)愿意流動(dòng)”。公共數(shù)據(jù)開放需要利益與責(zé)任的平衡,應(yīng)建立明確的收益分配機(jī)制和供給激勵(lì)機(jī)制。我國多地正在探索的公共數(shù)據(jù)授權(quán)運(yùn)營,就是解決高效流通與合規(guī)使用、兼顧效率和公平的有益探索。

第三,技術(shù)支撐,讓“數(shù)據(jù)能流動(dòng)”。在技術(shù)層面,要在城市層面建立統(tǒng)一的數(shù)據(jù)目錄體系,普及數(shù)據(jù)采集、清洗、標(biāo)注、脫敏、合成、溯源等工具,建立統(tǒng)一的標(biāo)簽體系與術(shù)語庫,消除數(shù)據(jù)流動(dòng)的技術(shù)梗阻。

第四,安全護(hù)航,不僅“用得好”,還要“用得安”。數(shù)據(jù)安全與開放并不矛盾,一方面要引入先進(jìn)的數(shù)據(jù)脫敏和內(nèi)容安全技術(shù),加強(qiáng)政務(wù)智能體合規(guī)與倫理研究,開展倫理審查和安全評估;另一方面可以探索建立數(shù)據(jù)“避風(fēng)港”,構(gòu)建鼓勵(lì)創(chuàng)新、包容審慎的數(shù)據(jù)治理環(huán)境。

小結(jié)

如果把AI的發(fā)展比作一次長跑,那么我們目前所處的位置,大體是“起跑后的加速階段”——模型架構(gòu)爆發(fā)、算力擴(kuò)張迅速、應(yīng)用場景繁榮。但若要走向“質(zhì)的躍遷”,必須打破數(shù)據(jù)供給的瓶頸。

共享開放的高質(zhì)量數(shù)據(jù)集是AI時(shí)代的數(shù)據(jù)基礎(chǔ)設(shè)施。公共數(shù)據(jù)應(yīng)當(dāng)率先成為AI高質(zhì)量數(shù)據(jù)集的“底料”——在開放、透明、安全的制度框架下,點(diǎn)燃創(chuàng)新的火種。讓公共數(shù)據(jù)助力AI發(fā)展,讓AI發(fā)展反哺公共利益、實(shí)現(xiàn)公共價(jià)值。當(dāng)公共數(shù)據(jù)流動(dòng)起來,AI的未來也將變得更加可信、開放與包容。

(作者王翔為復(fù)旦大學(xué)數(shù)字與移動(dòng)治理實(shí)驗(yàn)室研究員)

    責(zé)任編輯:蔡軍劍
    圖片編輯:蔣立冬
    校對:張亮亮
    澎湃新聞報(bào)料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2025 上海東方報(bào)業(yè)有限公司

            反饋