隨著人工智能大模型的不斷涌現(xiàn),“以數(shù)據(jù)為中心的人工智能”(Data-centric AI)越來(lái)越成為行業(yè)共識(shí)。數(shù)據(jù)作為新的生產(chǎn)要素,真正成為人工智能的“石油”,有效賦能企業(yè)“AI+”發(fā)展。中國(guó)信通院人工智能研究所平臺(tái)與工程化部主任曹峰圍繞企業(yè)推動(dòng) “AI+” 發(fā)展中數(shù)據(jù)的核心價(jià)值、高質(zhì)量數(shù)據(jù)集構(gòu)建路徑及企業(yè)“AI+”發(fā)展中的數(shù)據(jù)問(wèn)題破解策略等展開(kāi)深度解讀。
企業(yè)推動(dòng)“AI+”發(fā)展中數(shù)據(jù)的重要性
一是數(shù)據(jù)成為人工智能發(fā)展的核心驅(qū)動(dòng)要素。80%的高質(zhì)量數(shù)據(jù)與20%的模型訓(xùn)練構(gòu)成了更好的模型。DeepSeek V3等主流基座大模型的訓(xùn)練階段均使用了10萬(wàn)億token以上、經(jīng)過(guò)嚴(yán)格清洗和標(biāo)注的高質(zhì)量數(shù)據(jù)。通用人工智能對(duì)數(shù)據(jù)的需求量還將持續(xù)級(jí)數(shù)增長(zhǎng),訓(xùn)練數(shù)據(jù)的數(shù)量和質(zhì)量對(duì)模型能力的決定性作用越來(lái)越高。
二是數(shù)據(jù)成為模型場(chǎng)景部署和深度應(yīng)用的基礎(chǔ)。Deep Seep R1模型開(kāi)源以來(lái),包括44家央企在內(nèi)的200多家企業(yè)完成了DeepSeek R1模型的適配和集成部署。在這個(gè)過(guò)程中,模型與場(chǎng)景的適配過(guò)程需要使用高質(zhì)量行業(yè)數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)或知識(shí)增強(qiáng),才能適應(yīng)行業(yè)應(yīng)用需求。
三是企業(yè)構(gòu)建“AI+”發(fā)展的先決條件。企業(yè)是推動(dòng)AI+應(yīng)用的主體,是推動(dòng)高價(jià)值行業(yè)應(yīng)用場(chǎng)景落地關(guān)鍵力量。擁有海量高質(zhì)量數(shù)據(jù)積累的企業(yè),能夠率先在垂直行業(yè)訓(xùn)練出性能優(yōu)異的模型,推動(dòng)人工智能的行業(yè)應(yīng)用。同時(shí),在大模型應(yīng)用、研發(fā)迭代過(guò)程中采集到更多高質(zhì)量數(shù)據(jù)集資源,形成“數(shù)據(jù)飛輪”,進(jìn)一步提升模型性能,進(jìn)而帶動(dòng)智能化水平的持續(xù)提升。
企業(yè)推動(dòng)“AI+”發(fā)展中構(gòu)建高質(zhì)量數(shù)據(jù)集的方法
什么是高質(zhì)量數(shù)據(jù)集?我們總結(jié),高質(zhì)量數(shù)據(jù)集應(yīng)該具備“三高”的特征:一是高價(jià)值應(yīng)用,高質(zhì)量數(shù)據(jù)集面向高價(jià)值的領(lǐng)域場(chǎng)景,帶來(lái)更高的收益。二是高知識(shí)密度,高質(zhì)量數(shù)據(jù)集應(yīng)包含更多的專業(yè)知識(shí)和技能,具備多學(xué)科融合特征。三是高技術(shù)含量,通過(guò)智能化、人機(jī)協(xié)同標(biāo)注和合成數(shù)據(jù)等技術(shù)顯著提升數(shù)據(jù)質(zhì)量。
企業(yè)在推動(dòng)高質(zhì)量數(shù)據(jù)集建設(shè)中存在以下幾方面問(wèn)題:
一是目標(biāo)定位模糊化。企業(yè)經(jīng)常陷入“為數(shù)據(jù)而數(shù)據(jù)”的誤區(qū),智能場(chǎng)景需求與數(shù)據(jù)集建設(shè)目標(biāo)脫節(jié),未能將數(shù)據(jù)工程目標(biāo)與核心業(yè)務(wù)指標(biāo)深度綁定,導(dǎo)致數(shù)據(jù)價(jià)值難以轉(zhuǎn)化為模型性能提升,未能形成“數(shù)據(jù)采集-模型訓(xùn)練-業(yè)務(wù)反饋-數(shù)據(jù)迭代”的閉環(huán)優(yōu)化機(jī)制。
二是實(shí)施路徑碎片化。從數(shù)據(jù)采集到模型訓(xùn)練的全鏈路缺乏系統(tǒng)性規(guī)劃和設(shè)計(jì),無(wú)法形成體系化數(shù)據(jù)集構(gòu)建和維護(hù)機(jī)制,造成多源異構(gòu)數(shù)據(jù)標(biāo)準(zhǔn)難統(tǒng)一、跨部門跨層級(jí)難協(xié)作,致使清洗、標(biāo)注等數(shù)據(jù)處理成本激增。
三是技術(shù)底座薄弱化。缺乏適配行業(yè)特性的工具鏈,自動(dòng)化程度低,人力依賴嚴(yán)重,工程落地效率受阻,行業(yè)特性適配工具鏈的缺失等問(wèn)題導(dǎo)致現(xiàn)有數(shù)據(jù)處理技術(shù)難以應(yīng)對(duì)復(fù)雜人工智能場(chǎng)景需求。
破解企業(yè)“AI+”發(fā)展中的數(shù)據(jù)問(wèn)題
面向人工智能的新一代數(shù)據(jù)工程,涵蓋數(shù)據(jù)采集、預(yù)處理、標(biāo)注、評(píng)估、合成與共享等全生命周期,既強(qiáng)調(diào)數(shù)據(jù)的規(guī)模與多樣性,也重視質(zhì)量、有效性與合規(guī)性。
一是高水平數(shù)據(jù)標(biāo)注提升數(shù)據(jù)集供給能力。自動(dòng)化與智能化標(biāo)注工具創(chuàng)新成為焦點(diǎn),多模態(tài)數(shù)據(jù)標(biāo)注技術(shù)的融合逐漸成為趨勢(shì),持續(xù)學(xué)習(xí)與反饋機(jī)制引入促進(jìn)數(shù)據(jù)標(biāo)注質(zhì)量和效率雙重提升。中國(guó)信通院作為國(guó)家數(shù)據(jù)局人工智能專班組長(zhǎng)單位,全力支撐國(guó)家級(jí)數(shù)據(jù)標(biāo)注基地建設(shè)工作,推動(dòng)企業(yè)數(shù)據(jù)標(biāo)注能力提升。
二是評(píng)估和反饋機(jī)制推動(dòng)數(shù)據(jù)質(zhì)量提升。質(zhì)量評(píng)估與反饋機(jī)制深度融合,多模態(tài)數(shù)據(jù)質(zhì)量評(píng)估框架快速發(fā)展,動(dòng)態(tài)數(shù)據(jù)質(zhì)量監(jiān)控體系逐步完善。中國(guó)信通院共推出5項(xiàng)人工智能數(shù)據(jù)相關(guān)行業(yè)標(biāo)準(zhǔn),搭建國(guó)內(nèi)首個(gè)人工智能全周期數(shù)據(jù)工程評(píng)估體系。目前,已正式發(fā)布人工智能數(shù)據(jù)集質(zhì)量評(píng)估體系(ADAQ)。目前,招商局集團(tuán)、中國(guó)建筑集團(tuán)、中國(guó)物流集團(tuán)已經(jīng)通過(guò)ADAQ質(zhì)量評(píng)估,部分央企正在洽談后續(xù)的深入合作。
三是積極探索使用合成數(shù)據(jù)等新技術(shù)解決大模型數(shù)據(jù)瓶頸。合成數(shù)據(jù)在增加數(shù)據(jù)量、提高數(shù)據(jù)質(zhì)量、增強(qiáng)數(shù)據(jù)多樣性、保護(hù)隱私和安全等方面,形成了對(duì)大模型訓(xùn)練數(shù)據(jù)的有效補(bǔ)充,并已經(jīng)被應(yīng)用于自動(dòng)駕駛和金融服務(wù)領(lǐng)域。中國(guó)信通院編制形成《人工智能合成數(shù)據(jù)生成和管理能力要求》行業(yè)標(biāo)準(zhǔn),面向數(shù)據(jù)服務(wù)方提供人工智能合成數(shù)據(jù)生產(chǎn)和應(yīng)用能力建設(shè)指導(dǎo),同時(shí)也為數(shù)據(jù)應(yīng)用方和需求方提供選型規(guī)范。
數(shù)據(jù)賦能企業(yè)“AI+”發(fā)展,將逐步形成“數(shù)據(jù)-算法-應(yīng)用”的生態(tài)協(xié)同,以標(biāo)準(zhǔn)化體系破解跨域協(xié)作難題,以智能化工具提升數(shù)據(jù)生產(chǎn)效能,以合規(guī)可信框架保障數(shù)據(jù)要素安全流通。高質(zhì)量數(shù)據(jù)集不僅是技術(shù)競(jìng)爭(zhēng)的 “硬實(shí)力”,更將成為產(chǎn)業(yè)升級(jí)的 “催化劑”,為“人工智能+”場(chǎng)景落地開(kāi)辟無(wú)限可能,助力我國(guó)在全球智能產(chǎn)業(yè)變革中搶占先機(jī)、引領(lǐng)未來(lái)。