3月29日,以“數(shù)據(jù)驅(qū)動,智繪未來”為主題的2024北京AI原生產(chǎn)業(yè)創(chuàng)新大會暨北京數(shù)據(jù)基礎(chǔ)制度先行區(qū)成果發(fā)布會舉辦。會上,北京國際大數(shù)據(jù)交易所(以下簡稱“北數(shù)所”)牽頭正式發(fā)布首批100個人工智能大模型高質(zhì)量訓(xùn)練數(shù)據(jù)集,經(jīng)聯(lián)盟牽頭推薦,中關(guān)村數(shù)字媒體產(chǎn)業(yè)聯(lián)盟成員單位新華網(wǎng)、山東工藝美術(shù)學(xué)院、中國搜索、中文在線、北京服裝學(xué)院、硅星人等院校、企業(yè)的高質(zhì)量數(shù)據(jù)集入選。
通過北數(shù)所進(jìn)行人工智能數(shù)據(jù)集進(jìn)場交易,將更好的為模型訓(xùn)練提供更加合規(guī)可靠、便捷化、規(guī)?;臄?shù)據(jù)服務(wù),進(jìn)一步提高數(shù)據(jù)來源合規(guī)性,降低數(shù)據(jù)交易成本。
未來,中關(guān)村數(shù)字媒體產(chǎn)業(yè)聯(lián)盟還將持續(xù)在數(shù)字媒體領(lǐng)域的高質(zhì)量數(shù)據(jù)集提供、數(shù)據(jù)安全保障等方面,不斷提升服務(wù)能力,匯聚和儲備大模型訓(xùn)練所需的高質(zhì)量語料集,通過在可信數(shù)據(jù)空間打造集數(shù)據(jù)托管-數(shù)據(jù)標(biāo)注-數(shù)據(jù)訓(xùn)練-數(shù)據(jù)交易于一體的數(shù)據(jù)可信流通體系,為人工智能大模型訓(xùn)練提供合規(guī)高效、安全有序的數(shù)據(jù)支撐,與合作伙伴共同推動北京數(shù)據(jù)基礎(chǔ)制度先行區(qū)人工智能數(shù)據(jù)訓(xùn)練基地建設(shè)工作。
本次大會發(fā)布了第一批人工智能大模型高質(zhì)量訓(xùn)練數(shù)據(jù)集。該數(shù)據(jù)集是北數(shù)所聯(lián)合北京人工智能產(chǎn)業(yè)聯(lián)盟共同征集的,包括中科院大氣物理所、北京科學(xué)技術(shù)研究院、山東工藝美術(shù)學(xué)院、中國知網(wǎng)、中汽智聯(lián)、北方健康、中文在線、中國搜索、牡丹集團(tuán)、新華網(wǎng)、北京服裝學(xué)院、硅星人等36家機(jī)構(gòu)及企業(yè)提供的大模型語料訓(xùn)練數(shù)據(jù),共同為先行區(qū)人工智能訓(xùn)練場示范基地建立模型訓(xùn)練語料資源庫。
首批發(fā)布的數(shù)據(jù)集覆蓋科技創(chuàng)新、金融服務(wù)、醫(yī)療健康、醫(yī)藥研發(fā)、自動駕駛、氣象服務(wù)、商業(yè)航天、影視創(chuàng)作等20多個應(yīng)用場景,共計(jì)100余個語料數(shù)據(jù),數(shù)據(jù)總量逾150PB,涵蓋了專業(yè)知識問答、古今文化書籍、互聯(lián)網(wǎng)輿情資訊、多語種音視頻、教學(xué)資源題庫、科研數(shù)據(jù)、高清圖片等多領(lǐng)域、多模態(tài)的數(shù)據(jù)語料


