智能文字識別技術發(fā)展情況

楊興杰 2024年9月24日來源：中研網 676 39 繁體

光電共封裝（CPO）行業(yè)市場需求與發(fā)展前景如何?怎樣做價值投資？

北京用戶提問：市場競爭激烈，外來強手加大布局，國內主題公園如何突圍？
上海用戶提問：智能船舶發(fā)展行動計劃發(fā)布，船舶制造企業(yè)的機
江蘇用戶提問：研發(fā)水平落后，低端產品比例大，醫(yī)藥企業(yè)如何實現(xiàn)轉型？
廣東用戶提問：中國海洋經濟走出去的新路徑在哪？該如何去制定長遠規(guī)劃？
福建用戶提問：5G牌照發(fā)放，產業(yè)加快布局，通信設備企業(yè)的投資機會在哪里？
四川用戶提問：行業(yè)集中度不斷提高，云計算企業(yè)如何準確把握行業(yè)投資機會？
河南用戶提問：節(jié)能環(huán)保資金缺乏，企業(yè)承受能力有限，電力企業(yè)如何突破瓶頸？
浙江用戶提問：細分領域差異化突出，互聯(lián)網金融企業(yè)如何把握最佳機遇？
湖北用戶提問：汽車工業(yè)轉型，能源結構調整，新能源汽車發(fā)展機遇在哪里？
江西用戶提問：稀土行業(yè)發(fā)展現(xiàn)狀如何，怎么推動稀土產業(yè)高質量發(fā)展？

免費提問專家

智能文字識別是AI領域的一個重要分支，該技術融合了智能圖像處理、基于深度學習的復雜場景文字識別、自然語言處理（NLP）等多項AI技術，算法涉及機器學習與深度學習。

一、智能文字識別技術發(fā)展情況

智能文字識別是 AI 領域的一個重要分支，該技術融合了智能圖像處理、基于深度學習的復雜場景文字識別、自然語言處理（NLP）等多項 AI 技術，算法涉及機器學習與深度學習。

1）機器學習與深度學習

機器學習是 AI 的一種底層算法，深度學習是機器學習的一個子集。機器學習的算法是建立在一個樣本數(shù)據(jù)集上，在沒有明確編程指示下，依靠模式和推理做出預測或決策的數(shù)學模型，且可隨著數(shù)據(jù)量的增加不斷改進算法性能。深度學習是機器學習方法系列的一部分，利用多層神經網絡從大量數(shù)據(jù)中進行學習。機器學習在處理問題時，需要先人工進行特征提取，然后根據(jù)提取后的特征進行分類問題求解；深度學習將特征提取與分類問題求解匯總在一個神經網絡模型中，只需一次輸入即可得到最終的輸出結果，無需手工獲取特征，所以能解決更為復雜的問題，且由數(shù)據(jù)驅動，有效數(shù)據(jù)量越大，模型的表現(xiàn)越好。

隨著深度學習出現(xiàn)，AI 算法瓶頸逐步被突破。機器從海量數(shù)據(jù)庫自行歸納物體特征，按照該特征規(guī)律識別物體，圖文識別的精準度得到極大提升。

2）自然語言處理技術

自然語言處理（Natural Language Processing，簡稱為“NLP”）技術是AI的一個子領域，用于分析、理解和生產自然語言，NLP技術實現(xiàn)機器與人溝通的大前提，決定了機器對語言的理解能力。機器學習與深度學習大大推動了NLP技術的發(fā)展，使其具備可表達性、可訓練性以及可泛化性。

3）結合深度學習、NLP的智能文字識別技術

將圖像中的文字轉變?yōu)闄C器可讀可處理的字符信息，是機器與現(xiàn)實世界進行視覺交互的重要基礎，催生了光學字符識別（Optical Character Recognition，簡稱為“OCR”）技術。根據(jù)中國信息通信研究院、中國人工智能產業(yè)發(fā)展聯(lián)盟與騰訊集團聯(lián)合發(fā)布的《智能文字識別（OCR）能力測評與應用白皮書》，早期的OCR技術可追溯到1870年，電報技術和為盲人設計的閱讀設備的出現(xiàn)標志著OCR技術的誕生。從2000年開始，在線服務成為OCR的主要業(yè)務形態(tài)之一，這一階段OCR技術僅在比較規(guī)整的印刷體文檔識別上性能良好。2014年以來，隨著深度學習技術在OCR領域的應用，加上海量訓練數(shù)據(jù)的積累，OCR取得了飛躍性發(fā)展，適用范圍明顯擴大。2017年以來，OCR技術越來越多的和自然語言處理技術相融合，形成了智能文字識別技術，增強了對內容的“理解”能力，通過語義信息的關聯(lián)，復雜場景下的文字識別能力得到增強。與此同時，隨著圖像處理等技術的發(fā)展，能夠將扭曲和畸變的文字圖像進行矯正，也能夠改善OCR性能。OCR通過圖像文字的識別實現(xiàn)信息錄入，有兩大核心優(yōu)勢，一是提高效率，相比傳統(tǒng)的人工方式，顯著提升信息錄入效率；二是降低成本，通過機器代替人工，可大幅降低人力成本的開銷。因此OCR技術具有較高的實際應用價值，是AI應用中商業(yè)推廣落地較快的領域，是AI領域的重要分支。

《中國禁止出口限制出口技術目錄》已將“印刷體漢字識別技術、程序結構、主要算法和源程序、具有交互和自學習功能的脫機手寫漢字識別系統(tǒng)及方法、漢字識別的特征抽取方法和實現(xiàn)文本切分技術的源程序”等納入限制出口的信息處理技術范圍。為落實國務院印發(fā)的《新一代人工智能發(fā)展規(guī)劃》，科技部啟動了實施科技創(chuàng)新2030“新一代人工智能”重大項目，并提出2020年度第一批項目申報指南，其中“復雜版面手寫圖文識別及理解關鍵技術研究”被列入“新一代人工智能共性關鍵技術”。

傳統(tǒng)OCR技術針對特定場景的文字圖像進行建模，受限于手工設計特征的單一表達能力和復雜的處理流程，一旦跳出當前場景，遇到復雜場景，模型就會失效。而基于深度學習、NLP的智能文字識別技術可解決傳統(tǒng)OCR的缺點，靈活應對自然場景下多形態(tài)文本以及手寫文本。

圖表：文字智能識別與傳統(tǒng)OCR的區(qū)別

二、行業(yè)概況

相比傳統(tǒng)簡單文字識別，智能文字識別技術融合圖像處理、OCR、深度學習、NLP等AI技術，具備更多認知與理解能力，可適應多語言、多版式、多樣式等復雜場景，識別準確率大大提升，同時可基于理解能力進一步開發(fā)文檔解析、分類、對比、審核等功能，是個人文檔資產管理與企業(yè)數(shù)字化轉型的關鍵。

從個人用戶角度，用戶對個人文檔資產管理數(shù)字化意識和需求不斷增強，合同、名片、發(fā)票、筆記等非結構化的紙質文檔通過智能文字識別技術數(shù)字化后，用戶可隨時隨地在手機、電腦等多終端進行查詢、管理及分享，解決了紙質文檔不易存儲、分類、查詢或提取關鍵信息等痛點，滿足個人的辦公、求職、學習等不同場景的需求。

從企業(yè)客戶角度，企業(yè)數(shù)字化轉型是將數(shù)字技術進行商業(yè)化落地，從根本上對業(yè)務流程進行優(yōu)化，智能文字識別技術可將企業(yè)運營過程中產生的大量非結構化、非標準化的文檔數(shù)據(jù)進行提取、存儲、轉化、解析，為企業(yè)客戶節(jié)省人力成本，提升運營效率，解決了眾多行業(yè)存在的人工操作效率低、業(yè)務處理流程長，將迎來巨大發(fā)展空間。根據(jù)Grand View Research報告，全球智能文字識別服務市場規(guī)模2022年達106.5億美元，預計2022-2027年復合年均增長率約16.7%。

從下游行業(yè)應用來看，金融、物流運輸?shù)氖袌鲆?guī)模是占比最高的兩個細分行業(yè)，且增速也最快，主要由于金融、物流運輸企業(yè)在業(yè)務流程方面的基礎信息化建設程度、投入意愿相對其他行業(yè)來說相對較高，在證照、單據(jù)、表格等文檔的智能錄入、分類、比對、審核方面進行降本增效具有較大需求，為智能文字識別技術的商業(yè)化快速落地帶來基礎。

分國別來看，2022年，亞太區(qū)智能文字識別服務市場規(guī)模占全球比重約為22.7%，2022-2027年復合年均增長率預計為全球最高水平，達19.4%。亞太區(qū)的高速增長原因主要為：1）中國、印度等部分國家經濟的高速增長，經濟活動的增長一定程度帶來文檔數(shù)據(jù)與信息量的增長，政府、企業(yè)對經濟活動中產生的文檔進行電子化存儲、數(shù)據(jù)提取、分析挖掘具有巨大需求；2）亞太區(qū)域互聯(lián)網、智能手機的高速發(fā)展推動數(shù)據(jù)量爆發(fā)式增長，智能文字識別作為數(shù)字資產管理的關鍵技術，擁有巨大發(fā)展前景；3）亞太區(qū)近年來對于AI技術研發(fā)、產業(yè)智能升級的重視，促使智能文字識別技術持續(xù)提升，以及推動企業(yè)對于此服務的投入。相比北美、歐洲等發(fā)達國家和地區(qū)，亞太區(qū)智能文字識別行業(yè)尚處于發(fā)展初期，處于高速發(fā)展時期。根據(jù)相關數(shù)據(jù)，2022年，中國智能文字識別服務市場規(guī)模為人民幣50.4億元，預計2027年市場規(guī)模將達人民幣168.9億元，復合年均增長率達27.3%，遠超全球市場總增速。

想了解更多智能文字識別以及OCR識別相關內容，可關注中研網《2024-2029年OCR產業(yè)現(xiàn)狀及未來發(fā)展趨勢分析報告》。

相關深度報告REPORTS