根據(jù)《2024-2029年中國(guó)一體化大數(shù)據(jù)中心市場(chǎng)深度分析及發(fā)展趨勢(shì)研究預(yù)測(cè)報(bào)告》分析,在人工智能領(lǐng)域,數(shù)據(jù)、算法和算力是構(gòu)建AI系統(tǒng)的三大核心要素,三者的協(xié)同使現(xiàn)代AI技術(shù)實(shí)現(xiàn)了從理論到應(yīng)用的飛躍。數(shù)據(jù)是Al的基礎(chǔ),大量高質(zhì)量的數(shù)據(jù)不僅能夠提高現(xiàn)有模型的準(zhǔn)確率,還能促進(jìn)模型的優(yōu)化和創(chuàng)新。以ImageNet數(shù)據(jù)集為例,該數(shù)據(jù)集及相關(guān)挑戰(zhàn)賽推動(dòng)了計(jì)算機(jī)視覺(jué)算法的快速發(fā)展,2017年是挑戰(zhàn)賽的最后一年,物體分類(lèi)冠軍的準(zhǔn)確率在7年時(shí)間里從71.8%上升到97.3%。近年來(lái),Transformer等預(yù)訓(xùn)練大模型在語(yǔ)言理解及生成等領(lǐng)域表現(xiàn)出色,大模型背后的Scaling Law(規(guī)模定律)進(jìn)一步揭示了模型性能與數(shù)據(jù)量、算力之間的關(guān)系,強(qiáng)化了數(shù)據(jù)在提升AI表現(xiàn)中的關(guān)鍵作用。
根據(jù)AI基礎(chǔ)數(shù)據(jù)服務(wù)廠(chǎng)商LXT對(duì)322家有AI項(xiàng)目經(jīng)驗(yàn)的美國(guó)企業(yè)的調(diào)研,訓(xùn)練數(shù)據(jù)的資金投入占這些企業(yè)的Al整體建設(shè)投入的15%,61%的企業(yè)認(rèn)為未來(lái)2到5年對(duì)數(shù)據(jù)的需求量將會(huì)增加,62%的企業(yè)認(rèn)為數(shù)據(jù)質(zhì)量比數(shù)據(jù)量更為重要。LXT的調(diào)研結(jié)果揭示了企業(yè)在Al建設(shè)過(guò)程中對(duì)高質(zhì)量數(shù)據(jù)的迫切需求。鑒于AI基礎(chǔ)數(shù)據(jù)服務(wù)廠(chǎng)商在高效提供高質(zhì)量數(shù)據(jù)集方面的專(zhuān)業(yè)能力,它們已成為AI研發(fā)企業(yè)的重要合作伙伴,AI基礎(chǔ)數(shù)據(jù)服務(wù)已是推動(dòng)AI產(chǎn)業(yè)發(fā)展的關(guān)鍵支撐。
AI基礎(chǔ)數(shù)據(jù)服務(wù)廠(chǎng)商是專(zhuān)注于為各行業(yè)的AI算法訓(xùn)練與調(diào)優(yōu)提供基礎(chǔ)數(shù)據(jù)產(chǎn)品服務(wù)的公司。這些公司通過(guò)提供標(biāo)準(zhǔn)數(shù)據(jù)集、定制數(shù)據(jù)集和配套產(chǎn)品工具服務(wù),支持互聯(lián)網(wǎng)、大模型、智能駕駛等各領(lǐng)域的AI技術(shù)發(fā)展。數(shù)據(jù)集按內(nèi)容格式可分為文本、圖像、視頻、語(yǔ)音等類(lèi)型,核心生產(chǎn)流程主要包括方案設(shè)計(jì)、數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)注和數(shù)據(jù)質(zhì)檢等五個(gè)關(guān)鍵環(huán)節(jié)。標(biāo)準(zhǔn)數(shù)據(jù)集是由數(shù)據(jù)服務(wù)廠(chǎng)商研發(fā)并可多次銷(xiāo)售的數(shù)據(jù)集;定制數(shù)據(jù)集是依據(jù)客戶(hù)需求制作特定數(shù)據(jù)集,數(shù)據(jù)的知識(shí)產(chǎn)權(quán)歸客戶(hù)所有;配套產(chǎn)品工具服務(wù)包括標(biāo)注工具、實(shí)訓(xùn)平臺(tái)及A1模型評(píng)測(cè)等軟硬件工具服務(wù),用于滿(mǎn)足高效標(biāo)注數(shù)據(jù)、培訓(xùn)數(shù)據(jù)標(biāo)注、評(píng)估A1能力效果等不同層次的客戶(hù)需求,輔助和延展數(shù)據(jù)服務(wù)廠(chǎng)商的相關(guān)業(yè)務(wù)。
算法模型從理論到實(shí)踐的應(yīng)用過(guò)程依賴(lài)于大量的訓(xùn)練數(shù)據(jù)。訓(xùn)練數(shù)據(jù)越多、越完整、質(zhì)量越高,模型推理的結(jié)果就越可靠。在本報(bào)告的討論中,傳統(tǒng)Al泛指Transformer架構(gòu)出現(xiàn)之前的Al架構(gòu),參數(shù)量通常相對(duì)較小,大模型架構(gòu)則以Transformer為代表。作為應(yīng)用大模型架構(gòu)的代表,ChatGPT在2022年11月上線(xiàn)以來(lái),掀起了AI乃至社會(huì)經(jīng)濟(jì)各領(lǐng)域?qū)Υ竽P偷难杏懪c應(yīng)用的熱潮。與傳統(tǒng)Al相似,大模型依然需要大量?jī)?yōu)質(zhì)數(shù)據(jù),但其所需數(shù)據(jù)量更大,數(shù)據(jù)維度更加多元,標(biāo)注方式及質(zhì)量評(píng)判標(biāo)準(zhǔn)也更為復(fù)雜多樣。
縱觀業(yè)界開(kāi)源及閉源大模型的能力特性,結(jié)合艾瑞對(duì)大模型研發(fā)企業(yè)的調(diào)研,雖然當(dāng)下主流大模型應(yīng)用仍相對(duì)側(cè)重文本輸入、文本輸出的能力,但對(duì)圖像、視頻、語(yǔ)音等多模態(tài)數(shù)據(jù)的使用已越來(lái)越普遍,艾瑞預(yù)計(jì)大模型訓(xùn)練數(shù)據(jù)中多模態(tài)數(shù)據(jù)的占比將在未來(lái)數(shù)年持續(xù)提升。根據(jù)艾瑞對(duì)部分通用大模型及綜合型AI廠(chǎng)商的調(diào)研,目前大模型的訓(xùn)練數(shù)據(jù)主要來(lái)源于公開(kāi)數(shù)據(jù)、網(wǎng)絡(luò)爬蟲(chóng)數(shù)據(jù)等可公開(kāi)獲取的數(shù)據(jù),其次是采購(gòu)數(shù)據(jù)。相比大模型初創(chuàng)企業(yè),綜合型AI廠(chǎng)商憑借現(xiàn)有的互聯(lián)網(wǎng)應(yīng)用和A業(yè)務(wù)積累,具備獨(dú)特的數(shù)據(jù)優(yōu)勢(shì)。在模型的通用能力建設(shè)方面,公開(kāi)數(shù)據(jù)和爬蟲(chóng)數(shù)據(jù)已被廣泛利用,未來(lái)這兩類(lèi)數(shù)據(jù)在整體上的提升空間相對(duì)有限,EpochAI等機(jī)構(gòu)的研究人員于2024年6月更新的論文中表示,大語(yǔ)言模型將在大約2026至2032年之間耗盡所有公開(kāi)的文本數(shù)據(jù)。艾瑞預(yù)計(jì),大模型研發(fā)廠(chǎng)商將通過(guò)更多的采購(gòu)數(shù)據(jù)來(lái)提升模型的通用能力;而在垂直場(chǎng)景優(yōu)化及行業(yè)客戶(hù)的拓展中,公開(kāi)數(shù)據(jù)和爬蟲(chóng)數(shù)據(jù)仍有較大的獲取提升空間,大模型研發(fā)廠(chǎng)商也將更多地利用客戶(hù)側(cè)的合作數(shù)據(jù),增強(qiáng)模型解決行業(yè)特定領(lǐng)域或企業(yè)特定問(wèn)題的能力。
隨著大模型技術(shù)的快速迭代及其在眾多領(lǐng)域的廣泛應(yīng)用,相關(guān)評(píng)測(cè)需求同步增長(zhǎng)。對(duì)于模型研發(fā)企業(yè),評(píng)測(cè)是發(fā)現(xiàn)模型在功能、性能、安全性和可靠性等方面優(yōu)劣勢(shì)的關(guān)鍵步驟,并可與其他企業(yè)的模型橫向?qū)Ρ龋M(jìn)而針對(duì)性地優(yōu)化模型,提高其表現(xiàn)和穩(wěn)定性;對(duì)模型應(yīng)用企業(yè)而言,評(píng)測(cè)是選型和項(xiàng)目驗(yàn)收的重要工具,通過(guò)專(zhuān)業(yè)評(píng)測(cè)服務(wù),企業(yè)能夠評(píng)估模型的實(shí)際應(yīng)用適用性,確保所選模型滿(mǎn)足需求,并保障定制類(lèi)模型項(xiàng)目的交付質(zhì)量。相較傳統(tǒng)AI,大模型的應(yīng)用空間更廣,評(píng)測(cè)本身也更加復(fù)雜和多樣化,市場(chǎng)對(duì)專(zhuān)業(yè)評(píng)測(cè)服務(wù)的需求潛力巨大。公開(kāi)評(píng)測(cè)基準(zhǔn)和商業(yè)化評(píng)測(cè)服務(wù)的發(fā)展,將為大模型評(píng)測(cè)提供重要支撐,促進(jìn)技術(shù)與產(chǎn)業(yè)的健康發(fā)展。
在大模型和端到端技術(shù)的加持下,智能駕駛的自動(dòng)化程度不斷提升,相關(guān)功能已成為部分消費(fèi)者購(gòu)車(chē)時(shí)的重要考慮因素。除個(gè)別廠(chǎng)商專(zhuān)注于純視覺(jué)路線(xiàn)外,當(dāng)下高級(jí)別的智能駕駛系統(tǒng)中,攝像頭和激光雷達(dá)是兩大核心傳感器。攝像頭主要捕捉二維圖像,具有高分辨率和豐富的色彩細(xì)節(jié);激光雷達(dá)則通過(guò)發(fā)射和接收激光脈沖生成高精度的三維點(diǎn)云數(shù)據(jù),能夠精確測(cè)量物體的距離、尺寸和相對(duì)位置,受光照等環(huán)境條件影響較小。攝像頭和激光雷達(dá)等各類(lèi)傳感器各具優(yōu)勢(shì),互為補(bǔ)充,數(shù)據(jù)標(biāo)注需對(duì)來(lái)自不同傳感器的數(shù)據(jù)標(biāo)簽對(duì)齊和交叉驗(yàn)證工作。AI基礎(chǔ)數(shù)據(jù)服務(wù)是支撐智能駕駛、大模型等AI算法研發(fā)的基石,而AI算法也大幅提升了智駕研發(fā)領(lǐng)域數(shù)據(jù)標(biāo)注的效率和效果,為數(shù)據(jù)服務(wù)行業(yè)的發(fā)展注入了新的活力。數(shù)據(jù)與AI彼此支撐、相互促進(jìn),共同推動(dòng)著自動(dòng)駕駛的實(shí)現(xiàn)。
AI基礎(chǔ)數(shù)據(jù)服務(wù)產(chǎn)業(yè)的中游即數(shù)據(jù)標(biāo)注等數(shù)據(jù)服務(wù)的供應(yīng)商,包括專(zhuān)業(yè)廠(chǎng)商及云廠(chǎng)商兩類(lèi),其中后者以支持內(nèi)部算法研發(fā)及云業(yè)務(wù)客戶(hù)需求為主。上游提供原料數(shù)據(jù)、人力資源支持及IT基礎(chǔ)設(shè)施,其中人力資源服務(wù)供應(yīng)商主要包括垂直做數(shù)據(jù)標(biāo)注的廠(chǎng)商和綜合IT類(lèi)廠(chǎng)商兩類(lèi),目前業(yè)界通常采用遠(yuǎn)程線(xiàn)上服務(wù)即云BPO的模式進(jìn)行人力支持。下游為數(shù)據(jù)服務(wù)的需求方,包括大模型、智能駕駛等各行業(yè)各領(lǐng)域投入AI算法研發(fā)的廠(chǎng)商。
圖表:AI基礎(chǔ)數(shù)據(jù)服務(wù)產(chǎn)業(yè)鏈圖譜
基于對(duì)數(shù)據(jù)服務(wù)專(zhuān)業(yè)廠(chǎng)商、云廠(chǎng)商、大模型研發(fā)廠(chǎng)商、智能駕駛研發(fā)廠(chǎng)商等中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)的供需兩側(cè)企業(yè)調(diào)研,結(jié)合艾瑞對(duì)中國(guó)人工智能市場(chǎng)整體及AI基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)的發(fā)展判斷,艾瑞推算2023年中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)規(guī)模為45億元。在需求側(cè),隨著AI算法研發(fā)從面向特定任務(wù)領(lǐng)域的小模型向具備更強(qiáng)通用泛化能力的大模型過(guò)渡,數(shù)據(jù)服務(wù)需求企業(yè)將產(chǎn)生大量高質(zhì)量、多模態(tài)的數(shù)據(jù)需求。同時(shí),隨著大模型在通用及垂直場(chǎng)景中的應(yīng)用拓展和智能駕駛等AI技術(shù)的規(guī)?;虡I(yè)落地,良好的商業(yè)回報(bào)將進(jìn)一步推動(dòng)需求側(cè)加大對(duì)基礎(chǔ)數(shù)據(jù)的投入。在供給側(cè),隨著數(shù)據(jù)要素等相關(guān)支持政策的持續(xù)深化,服務(wù)商將加快數(shù)據(jù)源的獲取及數(shù)據(jù)集的制作。數(shù)據(jù)工程技術(shù)、數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范、標(biāo)注方法等日益成熟,人才生態(tài)及服務(wù)軟件平臺(tái)的自動(dòng)化、流程化也在不斷完善,供給側(cè)的供應(yīng)能力和服務(wù)質(zhì)量得以加強(qiáng)。綜合供需兩側(cè)的情況,艾瑞預(yù)計(jì)到2028年,中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)規(guī)模將達(dá)170億元,未來(lái)五年的復(fù)合增長(zhǎng)率為30.4%。
圖表:2022-2028年中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)規(guī)模