一、智能文字識別技術發(fā)展情況
智能文字識別是 AI 領域的一個重要分支,該技術融合了智能圖像處理、基于深度學習的復雜場景文字識別、自然語言處理(NLP)等多項 AI 技術,算法涉及機器學習與深度學習。
1)機器學習與深度學習
機器學習是 AI 的一種底層算法,深度學習是機器學習的一個子集。機器學習的算法是建立在一個樣本數(shù)據(jù)集上,在沒有明確編程指示下,依靠模式和推理做出預測或決策的數(shù)學模型,且可隨著數(shù)據(jù)量的增加不斷改進算法性能。深度學習是機器學習方法系列的一部分,利用多層神經網絡從大量數(shù)據(jù)中進行學習。機器學習在處理問題時,需要先人工進行特征提取,然后根據(jù)提取后的特征進行分類問題求解;深度學習將特征提取與分類問題求解匯總在一個神經網絡模型中,只需一次輸入即可得到最終的輸出結果,無需手工獲取特征,所以能解決更為復雜的問題,且由數(shù)據(jù)驅動,有效數(shù)據(jù)量越大,模型的表現(xiàn)越好。
隨著深度學習出現(xiàn),AI 算法瓶頸逐步被突破。機器從海量數(shù)據(jù)庫自行歸納物體特征,按照該特征規(guī)律識別物體,圖文識別的精準度得到極大提升。
2)自然語言處理技術
自然語言處理(Natural Language Processing,簡稱為“NLP”)技術是AI的一個子領域,用于分析、理解和生產自然語言,NLP技術實現(xiàn)機器與人溝通的大前提,決定了機器對語言的理解能力。機器學習與深度學習大大推動了NLP技術的發(fā)展,使其具備可表達性、可訓練性以及可泛化性。
3)結合深度學習、NLP的智能文字識別技術
將圖像中的文字轉變?yōu)闄C器可讀可處理的字符信息,是機器與現(xiàn)實世界進行視覺交互的重要基礎,催生了光學字符識別(Optical Character Recognition,簡稱為“OCR”)技術。根據(jù)中國信息通信研究院、中國人工智能產業(yè)發(fā)展聯(lián)盟與騰訊集團聯(lián)合發(fā)布的《智能文字識別(OCR)能力測評與應用白皮書》,早期的OCR技術可追溯到1870年,電報技術和為盲人設計的閱讀設備的出現(xiàn)標志著OCR技術的誕生。從2000年開始,在線服務成為OCR的主要業(yè)務形態(tài)之一,這一階段OCR技術僅在比較規(guī)整的印刷體文檔識別上性能良好。2014年以來,隨著深度學習技術在OCR領域的應用,加上海量訓練數(shù)據(jù)的積累,OCR取得了飛躍性發(fā)展,適用范圍明顯擴大。2017年以來,OCR技術越來越多的和自然語言處理技術相融合,形成了智能文字識別技術,增強了對內容的“理解”能力,通過語義信息的關聯(lián),復雜場景下的文字識別能力得到增強。與此同時,隨著圖像處理等技術的發(fā)展,能夠將扭曲和畸變的文字圖像進行矯正,也能夠改善OCR性能。OCR通過圖像文字的識別實現(xiàn)信息錄入,有兩大核心優(yōu)勢,一是提高效率,相比傳統(tǒng)的人工方式,顯著提升信息錄入效率;二是降低成本,通過機器代替人工,可大幅降低人力成本的開銷。因此OCR技術具有較高的實際應用價值,是AI應用中商業(yè)推廣落地較快的領域,是AI領域的重要分支。
《中國禁止出口限制出口技術目錄》已將“印刷體漢字識別技術、程序結構、主要算法和源程序、具有交互和自學習功能的脫機手寫漢字識別系統(tǒng)及方法、漢字識別的特征抽取方法和實現(xiàn)文本切分技術的源程序”等納入限制出口的信息處理技術范圍。為落實國務院印發(fā)的《新一代人工智能發(fā)展規(guī)劃》,科技部啟動了實施科技創(chuàng)新2030“新一代人工智能”重大項目,并提出2020年度第一批項目申報指南,其中“復雜版面手寫圖文識別及理解關鍵技術研究”被列入“新一代人工智能共性關鍵技術”。
傳統(tǒng)OCR技術針對特定場景的文字圖像進行建模,受限于手工設計特征的單一表達能力和復雜的處理流程,一旦跳出當前場景,遇到復雜場景,模型就會失效。而基于深度學習、NLP的智能文字識別技術可解決傳統(tǒng)OCR的缺點,靈活應對自然場景下多形態(tài)文本以及手寫文本。
圖表:文字智能識別與傳統(tǒng)OCR的區(qū)別

二、行業(yè)概況
相比傳統(tǒng)簡單文字識別,智能文字識別技術融合圖像處理、OCR、深度學習、NLP等AI技術,具備更多認知與理解能力,可適應多語言、多版式、多樣式等復雜場景,識別準確率大大提升,同時可基于理解能力進一步開發(fā)文檔解析、分類、對比、審核等功能,是個人文檔資產管理與企業(yè)數(shù)字化轉型的關鍵。
從個人用戶角度,用戶對個人文檔資產管理數(shù)字化意識和需求不斷增強,合同、名片、發(fā)票、筆記等非結構化的紙質文檔通過智能文字識別技術數(shù)字化后,用戶可隨時隨地在手機、電腦等多終端進行查詢、管理及分享,解決了紙質文檔不易存儲、分類、查詢或提取關鍵信息等痛點,滿足個人的辦公、求職、學習等不同場景的需求。
從企業(yè)客戶角度,企業(yè)數(shù)字化轉型是將數(shù)字技術進行商業(yè)化落地,從根本上對業(yè)務流程進行優(yōu)化,智能文字識別技術可將企業(yè)運營過程中產生的大量非結構化、非標準化的文檔數(shù)據(jù)進行提取、存儲、轉化、解析,為企業(yè)客戶節(jié)省人力成本,提升運營效率,解決了眾多行業(yè)存在的人工操作效率低、業(yè)務處理流程長,將迎來巨大發(fā)展空間。根據(jù)Grand View Research報告,全球智能文字識別服務市場規(guī)模2022年達106.5億美元,預計2022-2027年復合年均增長率約16.7%。
從下游行業(yè)應用來看,金融、物流運輸?shù)氖袌鲆?guī)模是占比最高的兩個細分行業(yè),且增速也最快,主要由于金融、物流運輸企業(yè)在業(yè)務流程方面的基礎信息化建設程度、投入意愿相對其他行業(yè)來說相對較高,在證照、單據(jù)、表格等文檔的智能錄入、分類、比對、審核方面進行降本增效具有較大需求,為智能文字識別技術的商業(yè)化快速落地帶來基礎。
分國別來看,2022年,亞太區(qū)智能文字識別服務市場規(guī)模占全球比重約為22.7%,2022-2027年復合年均增長率預計為全球最高水平,達19.4%。亞太區(qū)的高速增長原因主要為:1)中國、印度等部分國家經濟的高速增長,經濟活動的增長一定程度帶來文檔數(shù)據(jù)與信息量的增長,政府、企業(yè)對經濟活動中產生的文檔進行電子化存儲、數(shù)據(jù)提取、分析挖掘具有巨大需求;2)亞太區(qū)域互聯(lián)網、智能手機的高速發(fā)展推動數(shù)據(jù)量爆發(fā)式增長,智能文字識別作為數(shù)字資產管理的關鍵技術,擁有巨大發(fā)展前景;3)亞太區(qū)近年來對于AI技術研發(fā)、產業(yè)智能升級的重視,促使智能文字識別技術持續(xù)提升,以及推動企業(yè)對于此服務的投入。相比北美、歐洲等發(fā)達國家和地區(qū),亞太區(qū)智能文字識別行業(yè)尚處于發(fā)展初期,處于高速發(fā)展時期。根據(jù)相關數(shù)據(jù),2022年,中國智能文字識別服務市場規(guī)模為人民幣50.4億元,預計2027年市場規(guī)模將達人民幣168.9億元,復合年均增長率達27.3%,遠超全球市場總增速。
想了解更多智能文字識別以及OCR識別相關內容,可關注中研網《2024-2029年OCR產業(yè)現(xiàn)狀及未來發(fā)展趨勢分析報告》。