1950年,艾倫圖靈(Alan Turing)在其論文《計算機器與智能(Computing Machinery and Intelligence)》中提出了著名的“圖靈測試”,給出了判定機器是否具有“智能”的試驗方法,即機器是否能夠模仿人類的思維方式來“生成”內容繼而與人交互。某種程度上來說,人2
欲了解更多AIGC行業(yè)的未來發(fā)展前景,可以點擊查看中研普華產(chǎn)業(yè)院研究報告《2022-2027年中國AI智能學習機行業(yè)市場全景調研及投資價值評估研究報告》
一、人工智能生成內容的發(fā)展歷程與概念
1950年,艾倫圖靈(Alan Turing)在其論文《計算機器與智能(Computing Machinery and Intelligence)》中提出了著名的“圖靈測試”,給出了判定機器是否具有“智能”的試驗方法,即機器是否能夠模仿人類的思維方式來“生成”內容繼而與人交互。某種程度上來說,人工智能從那時起就被寄予了用于內容創(chuàng)造的期許。經(jīng)過半個多世紀的發(fā)展,隨著數(shù)據(jù)快速積累、算力性能提升和算法效力增強,今天的人工智能不僅能夠與人類進行互動,還可以進行寫作、編曲、繪畫、視頻制作等創(chuàng)意工作。2018年,人工智能生成的畫作在佳士得拍賣行以43.25萬美元成交,成為世界上首個出售的人工智能藝術品,引發(fā)各界關注。隨著人工智能越來越多地被應用于內容創(chuàng)作,人工智能生成內容(Artificial Intelligence Generated Content,簡稱AIGC)的概念悄然興起。
(一)AIGC歷史沿革結合人工智能的演進歷程,AIGC的發(fā)展大致可以分為三個階段,即:早期萌芽階段(20世紀50年代至90年代中期)、沉淀積累階段(20世紀90年代中期至21世紀10年代中期),以及快速發(fā)展階段(21世紀10年代中期至今)。
早期萌芽階段(1950s-1990s),受限于當時的科技水平,AIGC僅限于小范圍實驗。1957年,萊杰倫希勒(Lejaren Hiller)和倫納德艾薩克森(LeonardIsaacson)通過將計算機程序中的控制變量換成音符完成了歷史上第一支由計算機創(chuàng)作的音樂作品——弦樂四重奏《依利亞克組曲(Illiac Suite)》。1966年,約瑟夫魏岑鮑姆(JosephWeizenbaum)和肯尼斯科爾比(Kenneth Colby)共同開發(fā)了世界第一款可人機對話的機器人“伊莉莎(Eliza)”,其通過關鍵字掃描和重組完成交互任務。80年代中期,IBM基于隱形馬爾科夫鏈模型(Hidden Markov Model,HMM)創(chuàng)造了語音控制打字機“坦戈拉(Tangora)”,能夠處理約20000個單詞。80年代末至90年代中,由于高昂的系統(tǒng)成本無法帶來可觀的商業(yè)變現(xiàn),各國政府紛紛減少了在人工智能領域的投入,AIGC沒有取得重大突破。
沉淀積累階段(1990s-2010s),AIGC從實驗性向實用性逐漸轉變。2006年,深度學習算法取得重大突破,同時期圖形處理器(Graphics Processing Unit,GPU)、張量處理器(Tensor Processing Unit,TPU)等算力設備性能不斷提升,互聯(lián)網(wǎng)使數(shù)據(jù)規(guī)??焖倥蛎洸楦黝惾斯ぶ悄芩惴ㄌ峁┝撕A坑柧殧?shù)據(jù),使人工智能發(fā)展取得了顯著的進步。但是AIGC依然受限于算法瓶頸,無法較好地完成創(chuàng)作任務,應用仍然有限,效果有待提升。2007年,紐約大學人工智能研究員羅斯·古德溫裝配的人工智能系統(tǒng)通過對公路旅行中的一切所見所聞進行記錄和感知,撰寫出小說《1 The Road》。作為世界第一部完全由人工智能創(chuàng)作的小說,其象征意義遠大于實際意義,整體可讀性不強,拼寫錯誤、辭藻空洞、缺乏邏輯等缺點明顯。2012年,微軟公開展示了一個全自動同聲傳譯系統(tǒng),基于深層神經(jīng)網(wǎng)絡(Deep NeuralNetwork,DNN)可以自動將英文演講者的內容通過語音識別、語言翻譯、語音合成等技術生成中文語音。
快速發(fā)展階段(2010s-至今),自2014年起,隨著以生成式對抗網(wǎng)絡(Generative Adversarial Network,GAN)為代表的深度學習算法的提出和迭代更新,AIGC迎來了新時代,生成內容百花齊放,效果逐漸逼真直至人類難以分辨。2017年,微軟人工智能少女“小冰”推出了世界首部100%由人工智能創(chuàng)作的詩集《陽光失了玻璃窗》。2018年,英偉達發(fā)布的StyleGAN模型可以自動生成圖片,目前已升級到第四代模型StyleGAN-XL,其生成的高分辨率圖片人眼難以分辨真假。2019年,DeepMind發(fā)布了DVD-GAN模型用以生成連續(xù)視頻,在草地、廣場等明確場景下表現(xiàn)突出。2021年,OpenAI推出了DALL-E并于一年后推出了升級版本DALL-E-2,主要應用于文本與圖像的交互生成內容,用戶只需輸入簡短的描述性文字,DALL-E-2即可創(chuàng)作出相應極高質量的卡通、寫實、抽象等風格的繪畫作品。
(二)AIGC的概念與內涵
目前,對AIGC這一概念的界定,尚無統(tǒng)一規(guī)范的定義。國內產(chǎn)學研各界對于AIGC的理解是“繼專業(yè)生成內容(ProfessionalGenerated Content,PGC)和用戶生成內容(User Generated Content,UGC)之后,利用人工智能技術自動生成內容的新型生產(chǎn)方式”。在國際上對應的術語是“人工智能合成媒體(AI-generated Media 或Synthetic Media)”1,其定義是“通過人工智能算法對數(shù)據(jù)或媒體進行生產(chǎn)、操控和修改的統(tǒng)稱”。綜上所述,我們認為AIGC既是從內容生產(chǎn)者視角進行分類的一類內容,又是一種內容生產(chǎn)方式,還是用于內容自動化生成的一類技術集合。
為了幫助不同領域的受眾群體更好的理解AIGC,我們從發(fā)展背景、技術能力、應用價值三個方面對其概念進行深入剖析。
從發(fā)展背景方面來看,AIGC的興起源于深度學習技術的快速突破和日益增長的數(shù)字內容供給需求。一方面,技術進步驅動AIGC可用性不斷增強。在人工智能發(fā)展初期,雖然對AIGC進行了一些初步嘗試,但受限各種因素,相關算法多基于預先定義的規(guī)則或者模板,還遠遠算不上是智能創(chuàng)作內容的程度。近年來,基于深度學習算法的AIGC技術快速迭代,徹底打破了原先模板化、公式化、小范圍的局限,可以快速、靈活地生成不同模態(tài)的數(shù)據(jù)內容。另一方面,海量需求牽引AIGC應用落地。隨著數(shù)字經(jīng)濟與實體經(jīng)濟融合程度不斷加深,以及Meta、微軟、字節(jié)跳動等平臺型巨頭的數(shù)字化場景向元宇宙轉型,人類對數(shù)字內容總量和豐富程度的整體需求不斷提高。數(shù)字內容的生產(chǎn)取決于想象能力、制造能力和知識水平;傳統(tǒng)內容生產(chǎn)手段受限于人力有限的制造能力,逐漸無法滿足消費者對于數(shù)字內容的消費需求,供給側產(chǎn)能瓶頸日益凸顯?;谝陨显?,AIGC在各行業(yè)中得到越來越廣泛的應用,市場潛力逐漸顯現(xiàn)。
從技術能力方面來看,AIGC根據(jù)面向對象、實現(xiàn)功能的不同可分為三個層次。一是智能數(shù)字內容孿生,其主要目標是建立現(xiàn)實世界到數(shù)字世界的映射,將現(xiàn)實世界中的物理屬性(如物體的大小、紋理、顏色等)和社會屬性(如主體行為、主體關系等)高效、可感知地進行數(shù)字化。二是智能數(shù)字內容編輯,其主要目的是建立數(shù)字世界與現(xiàn)實世界的雙向交互。在數(shù)字內容孿生的基礎上,從現(xiàn)實世界實現(xiàn)對虛擬數(shù)字世界中內容的控制和修改,同時利用數(shù)字世界高效率仿真和低成本試錯的優(yōu)勢,為現(xiàn)實世界的應用提供快速迭代能力。三是智能數(shù)字內容創(chuàng)作,其主要目標是讓人工智能算法具備內容創(chuàng)作和自我演化的能力,形成的AIGC產(chǎn)品具備類似甚至超越人的創(chuàng)作能力。以上三個層面的能力共同構成AIGC的能力閉環(huán)。
從應用價值方面來看,AIGC將有望成為數(shù)字內容創(chuàng)新發(fā)展的新引擎,為數(shù)字經(jīng)濟發(fā)展注入全新動能。一方面,AIGC能夠以優(yōu)于人類的制造能力和知識水平承擔信息挖掘、素材調用、復刻編輯等基礎性機械勞動,從技術層面實現(xiàn)以低邊際成本、高效率的方式滿足海量個性化需求;同時能夠創(chuàng)新內容生產(chǎn)的流程和范式,為更具想象力的內容、更加多樣化的傳播方式提供可能性,推動內容生產(chǎn)向更有創(chuàng)造力的方向發(fā)展。另一方面,AIGC能夠通過支持數(shù)字內容與其他產(chǎn)業(yè)的多維互動、融合滲透從而孕育新業(yè)態(tài)新模式,打造經(jīng)濟發(fā)展新增長點,為千行百業(yè)發(fā)展提供新動能。此外,2021年以來,“元宇宙”呈現(xiàn)出超出想象的發(fā)展爆發(fā)力;作為數(shù)實融合的“終極”數(shù)字載體,元宇宙將具備持續(xù)性、實時性、可創(chuàng)造性等特征,也將通過AIGC加速復刻物理世界、進行無限內容創(chuàng)作,從而實現(xiàn)自發(fā)有機生長。
二、人工智能生成內容的技術體系及其演進方向
AIGC作為人工智能技術和產(chǎn)業(yè)應用的要素之一,隨著技術能力的不斷迭代升級,正在降低內容創(chuàng)作門檻、釋放創(chuàng)作能力,未來將推動數(shù)實融合趨勢下內容創(chuàng)作的范式轉變。探討其能力體系的構成,即賦能內容創(chuàng)作的技術路徑,對制定領域內標準、建立行業(yè)生態(tài)、爭取更加廣泛的開發(fā)者和應用場景具有十分重要的意義。
(一)AIGC技術升級步入深化階段人工智能算法的不斷迭代是AIGC發(fā)展進步的源動力,從技術演進的角度出發(fā),可將AIGC技術可大致劃分為傳統(tǒng)基于模板或規(guī)則的前深度學習階段和深度神經(jīng)網(wǎng)絡快速發(fā)展的深度學習階段。早期的AIGC技術主要依據(jù)事先指定的模板或者規(guī)則,進行簡單的內容制作與輸出,與靈活且真實的內容生成有較大的差距。該時期的人工智能算法并不具備強大的學習能力,而是大多依賴于預先定義的統(tǒng)計模型或專家系統(tǒng)執(zhí)行特定的任務。通過巧妙地規(guī)則設計,早期AIGC技術可以完成簡單線條、文本和旋律的生成。例如,通過定義復雜的函數(shù)方程組,計算機所繪出的函數(shù)曲線具備某種美學圖樣;通過記錄大量的問答文本,在面對新的問題時,計算機可以通過檢索和匹配的方式生成簡單的答案,甚至于改寫故事。但是由于缺乏對客觀世界的深入感知和對人類語言文字等知識的認知能力,早期的AIGC技術普遍面臨所生成的內容空洞、刻板、文不對題等問題。參考人類的內容創(chuàng)作過程,研究人員們提出,理想的AIGC算法需要具備對數(shù)據(jù)內容的學習能力,在理解數(shù)據(jù)的基礎上進行知識與分布的學習,最終實現(xiàn)高質量的內容創(chuàng)作。
深度神經(jīng)網(wǎng)絡在學習范式和網(wǎng)絡結構上的不斷迭代極大的提升了人工智能算法的學習能力,從而推動了AIGC技術的快速發(fā)展。不同于傳統(tǒng)人工智能算法,深度學習中的損失函數(shù)和梯度下降算法可以靈活快速的調整深度神經(jīng)網(wǎng)絡中的參數(shù),從而實現(xiàn)從數(shù)據(jù)中進行學習功能。2012年,卷積神經(jīng)網(wǎng)絡AlexNet1憑借優(yōu)秀的學習能力,在當年的ImageNet大規(guī)模視覺識別挑戰(zhàn)賽中一舉奪魁,比第二名傳統(tǒng)機器學習算法的錯誤率提升10.8個百分點,開啟了深度學習時代的序幕。就在緊隨其后的2013年,深度變分自編碼器的提出讓AIGC技術能力有了極大的進步。對于給定的神經(jīng)網(wǎng)絡,深度變分自編碼器要求網(wǎng)絡的輸出是對于輸入內容的重建,通過重參數(shù)化等技巧,網(wǎng)絡在重建過程中學習訓練數(shù)據(jù)的統(tǒng)計分布。在測試階段,變分自編碼器通過在學習到的統(tǒng)計分布中進行采樣,首次能比穩(wěn)定的生成從未觀測過的低分辨率圖像。2014年,一種新的博弈學習范式伴隨著生成對抗網(wǎng)絡[3]被提出。生成對抗網(wǎng)絡由一個生成器和一個判別器組成,判別器致力于不斷尋找生成數(shù)據(jù)和真實數(shù)據(jù)間的不同,生成器根據(jù)判別器的反饋不斷完善自身,以求生成真假難辨的內容。得益于雙方博弈的學習策略,生成內容的真實性和清晰度都得到了極大的提升,生成對抗網(wǎng)絡也被應用于很多內容生成的具體應用。
除了變分自編碼器和生成對抗網(wǎng)絡,強化學習[4、流模型5、擴散模型回等學習范式均取得了喜人的進展,這些模型范式在不同場景中各有優(yōu)勢,讓AIGC技術可以快速地應用到不同的場景和任務中。深度神經(jīng)網(wǎng)絡的結構升級是推動AIGC快速發(fā)展的另一主要因素。一方面,實驗證明,深度神經(jīng)網(wǎng)絡的學習能力和模型大小呈正相關,伴隨著模型參數(shù)量的增加,相對應深度神經(jīng)網(wǎng)絡的能力一般會取得大幅提升。但是,隨意地增加神經(jīng)網(wǎng)絡規(guī)模是行不通的,越大規(guī)模神經(jīng)網(wǎng)絡往往意味著更大的訓練難度,因此深度神經(jīng)網(wǎng)絡的結構設計顯得尤為關鍵。從早期的玻爾茲曼機,多層感知機,卷積神經(jīng)網(wǎng)絡,到深度殘差網(wǎng)絡和Transformer大模型,網(wǎng)絡結構進化帶來了深度學習模型參數(shù)量從幾萬到數(shù)千億躍升,模型層數(shù)也從開始的個位數(shù)逐步發(fā)展到成百上千。
深度學習模型規(guī)模上的量變引起了AIGC技術能力的質變,在新型網(wǎng)絡結構的加持下,上述的生成對抗網(wǎng)絡等算法開始能生成超高清晰度的視頻,高質量的文本段落和優(yōu)美靈動的樂曲旋律。另一方面,研究者們在深度神經(jīng)網(wǎng)絡結構的設計中引入包含語義的隱式表達和物理知識,以降低模型的訓練難度、增強生成內容的豐富程度。例如,研究者發(fā)現(xiàn)通過在神經(jīng)網(wǎng)絡的每一層引入隱式表達,能夠極大地提升內容生成算法的可控性和生成效果。另外,在三維數(shù)據(jù)的生成任務中,神經(jīng)輻射場(8在網(wǎng)絡結構設計時充分考慮了物理世界的固有約束,極大提升了三維渲染效率和效果。AIGC要真正發(fā)揮對不同行業(yè)的驅動作用,需要與各行各業(yè)的特異性場景深度融合。在處理這些實際應用中,深度學習算法在感知、認知、模仿、生成等方向的基礎能力決定了AIGC技術所能創(chuàng)作的生產(chǎn)力。近些年中,這些算法技術齊頭并進、百花齊放,并最終形成了AIGC應用于不同場景的底層支撐。通過人工智能支撐技術的不斷升級,AIGC技術將持續(xù)賦能各類文化創(chuàng)意、生產(chǎn)生活、科學發(fā)現(xiàn)等各種場景。
關注公眾號
免費獲取更多報告節(jié)選
免費咨詢行業(yè)專家
2023-2028年國內監(jiān)控攝像機行業(yè)發(fā)展趨勢及發(fā)展策略研究報告
監(jiān)控攝像機是用在安防方面的準攝像機,它的像素和分辨率比電腦的視頻頭要高,比專業(yè)的數(shù)碼相機或dv低。監(jiān)控攝像機大多只是單一的視頻捕捉設備,很少具備數(shù)據(jù)保存功能。監(jiān)控攝像機從外型上主要區(qū)...
查看詳情
產(chǎn)業(yè)規(guī)劃 特色小鎮(zhèn) 產(chǎn)業(yè)園區(qū)規(guī)劃 產(chǎn)業(yè)地產(chǎn) 可研報告 商業(yè)計劃書 細分市場研究 IPO上市咨詢
1、電力市場供給情況分析截至2022年底,全國全口徑發(fā)電裝機容量25.6億千瓦,同比增長7.8%。從分類型投資、發(fā)電裝機增...
一、主要脫硫技術發(fā)展現(xiàn)狀分析1、煙氣脫硫技術分類目前工業(yè)上的脫硫工藝主要用加氫脫硫技術(HDS),它在氧化的過程中...
監(jiān)控攝像機是用在安防方面的準攝像機,它的像素和分辨率比電腦的視頻頭要高,比專業(yè)的數(shù)碼相機或dv低。監(jiān)控攝像機大多...
一、脫硝催化劑原材料市場分析“催化劑”是一種有助于改變物質的化學反應的物質,它可以改變反應的速率,但不會影響最...
一季度白羽肉雞祖代種雞更新增加據(jù)卓創(chuàng)資訊數(shù)據(jù)統(tǒng)計,一季度國內白羽肉雞祖代種雞總更新量26.66萬套,環(huán)比增加42.87%...
欲了解更多有機農產(chǎn)品基地行業(yè)的未來發(fā)展前景,可以點擊查看中研普華產(chǎn)業(yè)院研究報告《2022-2027年中國有機農產(chǎn)品基地2...
中研普華集團聯(lián)系方式廣告服務版權聲明誠聘英才企業(yè)客戶意見反饋報告索引網(wǎng)站地圖 Copyright ? 1998-2022 ChinaIRN.COM All Rights Reserved. 版權所有 中國行業(yè)研究網(wǎng)(簡稱“中研網(wǎng)”) 粵ICP備05036522號
微信掃一掃