圖象比較 - Delphi K.Top 討論區

發表時間：2005-01-21 20:08:09

IP:61.31.xxx.xxx 未訂閱

這個問題有點深度。簡單的處理可以先尋找輪廓方式作比對，對點陣圖而言。這一篇文章，也不知哪裡找來的。(忘了！-_-'') 您看看吧！印刷體漢字識別系統一、文字識別概述漢字是歷史悠久的中華民族文化的重要結晶，閃爍著中國人民智慧的光芒。漢字數量眾多，僅清朝編纂的《康熙字典》就包含了49，000多個漢字，其數量之大，構思之精，為世界文明史所僅有。由於漢字為非字母化、非拼音化的文字，所以在資訊技術及電腦技術日益普及的今天，如何將漢字方便、快速地輸入到電腦中已成為關係到電腦技術能否在我國真正普及的關鍵問題。圖1 文字識別的分類將漢字輸入到電腦裡一般有兩種方法：人工鍵入和自動輸入。其中人工鍵入速度慢而且勞動強度大，一般的使用者每分鐘只能輸入40～50個漢字。這種方法不適用於需要處理大量文字資料的辦公自動化、文檔管理、圖書情報管理等場合。而且隨著勞動力價格的升高，利用人工方法進行漢字輸入也將面臨經濟效益的挑戰。自動輸入又分為漢字識別輸入及語音識別輸入。由於漢字數量眾多，漢字識別問題屬於超多類模式集合的分類問題。漢字識別技術可以分為印刷體識別及手寫體識別技術。而手寫體識別又可以分為聯機(on-line)與脫機(off-line)兩種。這種劃分方法可以用圖1來表示。從識別技術的難度來說，手寫體識別的難度高於印刷體識別，而在手寫體識別中，脫機手寫體的難度又遠遠超過了聯機手寫體識別。到目前為止，除了脫機手寫體數位的識別已有實際應用外，漢字等文字的脫機手寫體識別還處在實驗室階段。聯機手寫體的輸入，是依靠電磁式或壓電式等手寫輸入板來完成的。在書寫時，筆在板上的運動軌跡(在板上的座標)被轉化為一系列的電信號，電信號可以串列地進入到電腦中。從這些電信號我們可以比較容易地抽取筆劃和筆順的資訊。從90年代以來，聯機手寫體的識別正逐步走向實用，方興未艾。中國大陸及台灣地區的科研工作者推出了多個聯機手寫體漢字識別系統，國外的一些大公司也開始進入這一市場。這一技術也迎合了PDA(Personal Digital Assistant)的發展潮流。與脫機手寫體和聯機手寫體識別相比，印刷體漢字識別已經實用化，而且在向更高的性能、更完善的用戶介面的方向發展。因為它有著廣泛的應用前景。目前，辦公自動化已成為資訊社會不可避免的發展趨勢。雖然在電腦網路飛速發展的今天，許多資訊已經電子化，世界各地出現了許多「電子版」的報紙、雜誌等出版物。但是我們可以看到印刷材料的數量也大大地增加了，一些專業單位如新聞社、圖書館、古籍出版社、檔案館等所接觸的印刷材料更是浩如煙海，畢竟閱讀印刷材料更為符合人的自然閱讀習慣；同時，網路資訊資源的爆炸性增長以及網路傳輸容量的限制，都是方便、快速地獲取這些資訊的約束因素。電子化的與印刷文本材料如同一枚硬幣的兩面，互相補充、互相促進，在未來的十幾年或更長的時間內將不會出現一者被另一者取代的情況。二、印刷體文字識別流程簡介印刷體文字識別的過程如圖2所示。原始圖像是通過光電掃瞄器，CCD器件或電子傳真機等獲得的二維圖像信號，可以是灰度(Grayscale)或二值(Binary) 圖像。為簡單計，在本文以後的論述中，除非特別提及，圖像輸入的方式均指由掃瞄器輸入。圖2 印刷體文字識別的簡單流程圖預處理包括對原始圖像的去噪、傾斜校正或各種濾波處理。版面分析完成對於文本圖像的總體分析，區分出文本段落及排版順序，圖像、表格的區域；對於文本區域將進行識別處理，對於表格區域進行專用的表格分析及識別處理，對於圖像區域進行壓縮或簡單存儲。行字切分是將大幅的圖像先切割為行，再從圖像行中分離出單個字元的過程。特徵提取是整個環節中最重要的一環，它是從單個字元圖像上提取統計特徵或結構特徵的過程，包括為此而做的細化(Thinning)、歸一化(Normalization)等步驟。提取的特徵的穩定性及有效性，直接決定了識別的性能。文字識別即從學習得到的特徵庫中找到與待識字元相似度最高的字元類的過程。後處理則是利用詞義、詞頻、語法規則或語料庫等語言先驗知識對識別結果進行校正的過程。由此可見，印刷漢字識別技術主要包括： (1) 掃瞄輸入文本圖像。 (2) 圖像的預處理，包括傾斜校正和濾除干擾雜訊等。 (3) 圖像版面的分析和理解。 (4) 圖像的行切分和字切分。 (5) 基於單字圖像的特徵選擇和提取。 (6) 基於單字圖像特徵的模式分類。 (7) 將被分類的模式賦予識別結果。 (8) 識別結果的編輯修改後處理。其中(4)、(5)和(6)，也就是圖2中的陰影部分，是印刷漢字識別中最為核心的技術。近幾年來，印刷漢字識別系統的單字識別正確率已經超過95%，為了進一步提高系統的總體識別率，掃瞄圖像、圖像的預處理以及識別後處理等方面的技術，也都得到了深入的研究，並取得了長足的進展，有效地提高了印刷漢字識別系統的總體性能。三、印刷體文字識別的研究歷程印刷體文字的識別可以說很早就成為人們的夢想，早在1929年，Taushek就在德國獲得了一項有關OCR的專利。歐美國家為了將浩如煙海、與日俱增的大量報刊雜誌、文件資料和單據報表等文字材料輸入電腦進行資訊處理，從50年代就開始了西文OCR(Optical Character Recognition，光學字元識別)技術的研究，以便代替人工鍵盤輸入。印刷體漢字的識別最早可以追溯到60年代。1966年，IBM公司的Casey和Nagy發表了第一篇關於印刷體漢字識別的論文，在這篇論文中他們利用簡單的模板匹配法識別了1,000個印刷體漢字。70年代以來，日本學者做了許多工作，其中有代表性的系統有1977年東芝綜合研究所研製的可以識別2000漢字的單體印刷漢字識別系統；80年代初期，日本武藏野電氣研究所研製的可以識別2300個多體漢字的印刷體漢字識別系統，代表了當時漢字識別的最高水準。此外，日本的三洋、松下、理光和富士等公司也有其研製的印刷漢字識別系統。這些系統在方法上，大都採用基於K-L數位變換的匹配方案，使用了大量專用硬體，其設備有的相當於小型機甚至大型機，價格極其昂貴，沒有得到廣泛應用。我國對印刷漢字識別的研究始於70年代末、80年代初，大致可以分為三大階段： (1) 第一階段從70年代末期到80年代末期，主要是演算法和方案探索。 (2) 第二階段是90年代初期，中文OCR由實驗室走向市場，初步實用。 (3) 第三階段也就是目前，主要是印刷漢字識別技術和系統性能的提高，包括漢英雙語混排識別率的提高和穩健性的增強。同國外相比，我國的印刷體漢字識別研究起步較晚。但由於我國政府對漢字自動識別輸入的研究從80年代開始給予了充分的重視和支援，經過科研人員十多年的辛勤努力，印刷體漢字識別技術的發展和應用，有了長足進步：從簡單的單體識別發展到多種字體混排的多體識別，從中文印刷材料的識別發展到中英混排印刷材料的雙語識別。各個系統可以支援簡、繁體漢字的識別，解決了多體多字型大小混排文本的識別問題，對於簡單的版面可以進行有效的定量分析，同時漢字識別率已達到了98%以上。清華大學電子工程系、中國科學院計算所智慧中心、北京資訊工程學院、瀋陽自動化研究所等單位分別研製開發出實用化的印刷體漢字識別系統。尤其是由清華大學電子工程系研製的清華TH-OCR產品，始終處於技術與產品發展的最前沿，並佔據著最大的市場份額，代表著中文OCR技術發展的潮流。這一成就，是對中華文化寶貴遺產的繼承和發揚，在世界電腦發展史上，必將留下光輝的一頁，同時，這也是造福子孫千秋萬代的大事。國家高技術研究發展「863」計劃、國家重點科技攻關計劃、國家自然科學基金和軍事基礎研究基金都對這一研究課題予以極大的重視和大力的支援。四、印刷體文字識別研究方法簡介識別方法是整個系統的核心。用於漢字識別的模式識別方法可以大致分為結構模式識別、統計模式識別及兩者的結合。下面分別進行介紹。 4.1 結構模式識別漢字是一種特殊的模式，其結構雖然比較複雜，但具有相當嚴格的規律性。換言之，漢字圖形含有豐富的結構資訊，可以設法提取含有這種資訊的結構特徵及其組字規律，作為識別漢字的依據，這就是結構模式識別。結構模式識別是早期漢字識別研究的主要方法。其主要出發點是漢字的組成結構。從漢字的構成上講，漢字是由筆劃(點橫豎撇捺等)、偏旁部首構成的；還可以認為漢字是由更小的結構基元構成的。由這些結構基元及其相互關係完全可以精確地對漢字加以描述，就像一篇文章由單字、詞、短語和句子按語法規律所組成一樣。所以這種方法也叫句法模式識別。識別時，利用上述結構資訊及句法分析的方法進行識別，類似一個邏輯推理器。用這種方法來描述漢字字形結構在理論上是比較恰當的，其主要優點在於對字體變化的適應性強，區分相似字能力強；但是，在實際應用中，面臨的主要問題是抗干擾能力差，因為在實際得到的文本圖像中存在著各種干擾，如傾斜，扭曲，斷裂，粘連，紙張上的污點，對比度差等等。這些因素直接影響到結構基元的提取，假如結構基元不能準確地得到，後面的推理過程就成了無源之水。此外結構模式識別的描述比較複雜，匹配過程的複雜度因而也較高。所以在印刷體漢字識別領域中，純結構模式識別方法已經逐漸衰落，句法識別的方法正日益受到挑戰。 4.2 統計模式識別統計決策論發展較早，理論也較成熟。其要點是提取待識別模式的的一組統計特徵，然後按照一定準則所確定的決策函數進行分類判決。漢字的統計模式識別是將字元點陣看作一個整體，其所用的特徵是從這個整體上經過大量的統計而得到的。統計特徵的特點是抗干擾性強，匹配與分類的演算法簡單，易於實現。不足之處在於細分能力較弱，區分相似字的能力差一些。常見的統計模式識別方法有： (1) 模板匹配。模板匹配並不需要特徵提取過程。字元的圖像直接作為特徵，與字典中的模板相比，相似度最高的模板類即為識別結果。這種方法簡單易行，可以並行處理；但是一個模板只能識別同樣大小、同種字體的字元，對於傾斜、筆劃變粗變細均無良好的適應能力。 (2)利用變換特徵的方法。對字元圖像進行二進位變換(如Walsh, Hardama變換)或更複雜的變換(如Karhunen-Loeve, Fourier,Cosine，Slant變換等)，變換後的特徵的維數大大降低。但是這些變換不是旋轉不變的，因此對於傾斜變形的字元的識別會有較大的偏差。二進位變換的計算雖然簡單，但變換後的特徵沒有明顯的物理意義。K-L變換雖然從最小均方誤差角度來說是最佳的，但是運算量太大，難以實用。總之，變換特徵的運算複雜度較高。 (3)投影直方圖法。利用字元圖像在水平及垂直方向的投影作為特徵。該方法對傾斜旋轉非常敏感，細分能力差。 (4)幾何矩(Geometric Moment)特徵。M. K. Hu提出利用矩不變數作為特徵的想法，引起了研究矩的熱潮。研究人員又確定了數十個移不變、比例不變的矩。我們都希望找到穩定可靠的、對各種干擾適應能力很強的特徵，在幾何矩方面的研究正反映了這一願望。以上所涉及到的幾何矩均在線性變換下保持不變。但在實際環境中，很難保證線性變換這一前提條件。 (5)Spline曲線近似與傅立葉描繪子(Fourier Descriptor)。兩種方法都是針對字元圖像輪廓的。Spline曲線近似是在輪廓上找到曲率大的折點，利用Spline曲線來近似相鄰折點之間的輪廓線。而傅立葉描繪子則是利用傅立葉函數類比封閉的輪廓線，將傅立葉函數的各個係數作為特徵的。前者對於旋轉很敏感。後者對於輪廓線不封閉的字元圖像不適用，因此很難用於筆劃斷裂的字元的識別。 (6)筆劃密度特徵。筆劃密度的描述有許多種，這裡採用如下定義：字元圖像某一特定範圍的筆劃密度是在該範圍內，以固定掃瞄次數沿水平、垂直或對角線方向掃瞄時的穿透次數。這種特徵描述了漢字的各部分筆劃的疏密程度，提供了比較完整的資訊。在圖像質量可以保證的情況下，這種特徵相當穩定。在脫機手寫體的識別中也經常用到這種特徵。但是在字元內部筆劃粘連時誤差較大。 (7)周邊特徵。漢字的輪廓包含了豐富的特徵，即使在字元內部筆劃粘連的情況下，輪廓部分的資訊也還是比較完整的。這種特徵非常適合於作為粗分類的特徵。 (8)基於微結構特徵的方法。這種方法的出發點在於，漢字是由筆劃組成的，而筆劃是由一定方向，一定位置關係與長寬比的矩形段組成的。這些矩形段則稱為微結構。利用微結構及微結構之間的關係組成的特徵對漢字進行識別，尤其是對於多體漢字的識別，獲得了良好的效果。其不足之處是，在內部筆劃粘連時，微結構的提取會遇到困難。 (9)特徵點特徵。早在1957年，Solatron Electronics Group公司發佈了第一個利用窺視孔(peephole)方法的OCR系統。其主要思想是利用字元點陣中一些有代表性的黑點(筆劃)，白點(背景)作為特徵來區分不同的字元。後有人又將這種方法運用到漢字識別中，對其中的黑點又增加了屬性的描述，如端點、折點、交叉點等。也獲得了比較好的效果。其特點是對於內部筆劃粘連的字元的識別的適應性較強，直觀性好，但是不易表示為向量形式，不適合作為粗分類的特徵，匹配難度大。當然還有許多種不同的統計特徵，諸如圖描述法、包含配選法、脫殼透視法、差筆劃法等，這裡就不一一介紹了。 4.3 統計識別與結構識別的結合結構模式識別與統計模式識別各有優缺點，隨著我們對於兩種方法認識的深入，這兩種方法正在逐漸融合。網格化特徵就是這種結合的產物。字元圖像被均勻地或非均勻地劃分為若干區域，稱之為「網格」。在每一個網格內尋找各種特徵，如筆劃點與背景點的比例，交叉點、筆劃端點的個數，細化後的筆劃的長度、網格部分的筆劃密度等等。特徵的統計以網格為單位，即使個別點的統計有誤差也不會造成大的影響，增強了特徵的抗干擾性。這種方法正得到日益廣泛的應用。 4.4 人工神經網路人工神經網路(Artificial Neural Network，以下稱ANN)是一種類比人腦神經元細胞的網路結構，它是由大量簡單的基本元件－神經元相互連接成的自適應非線性動態系統。雖然目前對於人腦神經元的研究還很不完善，我們無法確定ANN的工作方式是否與人腦神經元的運作方式相同，但是ANN正在吸引著越來越多的注意力。 ANN中的各個神經元的結構與功能較為簡單，但大量的簡單神經元的組合卻可以非常複雜，我們從而可以通過調整神經元間的連接係數完成分類、識別等複雜的功能。ANN還具有一定的自適應的學習與組織能力，組成網路的各個「細胞」可以並行工作，並可以通過調整「細胞」間的連接係數完成分類、識別等複雜的功能。這是馮·諾依曼的電腦無法做到的。 ANN可以作為單純的分類器(不包含特徵提取，選擇),也可以用作功能完善的分類器。在英文字母與數位的識別等類別數目較少的分類問題中，常常將字元的圖像點陣直接作為神經網路的輸入。不同於傳統的模式識別方法，在這種情況下，神經網路所「提取」的特徵並無明顯的物理含義，而是儲存在神經物理中各個神經元的連接之中，省去了由人來決定特徵提取的方法與實現過程。從這個意義上來說，ANN提供了一種「字元自動識別」的可能性。此外，ANN分類器是一種非線性的分類器，它可以提供我們很難想像到的複雜的類間分介面，這也為複雜分類問題的解決提供了一種可能的解決方式。目前，在對於象漢字識別這樣超多類的分類問題，ANN的規模會很大，結構也很複雜，現在還遠未達到實用的程度。其中的原因很多，主要的原因還在於我們對人腦的工作方式以及ANN本身的許多問題還沒有找到完美的答案。五、漢字識別技術的最新進展漢字識別最為重要的指標是識別正確率，最新技術包括兩個方面：一是使用組合優化特徵的綜合識別方法，提高正確率，增加適應性；二是英文與數位的比例超過1/3時的漢英雙語混排識別。 5.1 組合優化特徵的綜合識別方法抽取單一種類的特徵進行漢字識別，誤識率較難降低，且抗干擾性不易提高。因為這樣所利用的漢字信息量有限，不能全面反映漢字的特點，對任何一種特徵來說，必然存在其識別的「死角」，即利用該特徵很難區分的漢字。從模式識別的角度來看，若將漢字的全部向量化特徵所組成的空間稱作空間(i=1,2,……)，那麼利用整個空間Ω的資訊進行漢字識別，由於提供的漢字資訊很充分，抗干擾性會大大增強。但是，在實際應用中，必須考慮到識別正確率與識別速度(運算量)及系統資源三者的折衷。所以任何一個實用的OCR系統只利用其中部分子空間的資訊。由於資訊的缺陷，便不可避免地遇到識別「死角」的問題。C 「組合優化特徵法」識別漢字的基本思想是：首先，在長期漢字識別研究的基礎上，選擇結構元等多種基於漢字筆劃結構的統計特徵，這些特徵具有良好的類內聚合和類間發散的分類能力；其次，有機地多種漢字特徵互為補充，相得益彰，使漢字識別的「死角」大幅減小，從而提高識別率。「組合優化特徵」的綜合識別方式，是建立在對各種方法充分瞭解的基礎之上，基於知識的識別方式，因為這樣既富有針對性，充分發揮了各個方案的長處，取得了高的識別率，又提高了系統的運行效率。 5.2 漢英雙語混排識別隨著資訊產業的開放與發展，越來越多的英文詞語出現在我國的印刷文本材料中。尤其在科技文獻刊物中，更是屢見不鮮，英文、數位的比例常常超過1/3。英文字母出現在文本行中，其大小、高度與漢字中的偏旁部首很類似，難以區分是漢字偏旁部首，還是英文字母；英文單詞中字母之間的距離不等，粘連也相當普遍；漢字是以橫豎等筆劃為基本結構的，而英文則是以曲線為主。因此，漢英雙語混排識別的關鍵在於漢字和英文字母的正確分辨和切分。切分的傳統方法是利用「高度椏磯葪位置」資訊，但是由於漢字中可左右分離的字很多，其各部分無論高度和寬度，均與英文字母很接近，如「即」、「舊」等；而且，英文字母的粘連現象也無法解決；此外，許多英文的雙字母組合，三字母組合，是用一個字模來印刷的，如「fi」等。因此，在「高度椏磯葪位置」準則基礎上，根據「TET(Try-Error-Try)準則」，加入了「切分椩な侗飣二次切分」的手段。即對於各種可能出現的切分情況，進行預識別，從中選出誤差最小，最合乎語言邏輯習慣的組合。對於粘連的英文字母，由於連續粘連在一起的字母可能有多個，組合的情況較多，且粘連的種類亦有較大區別。進行「窮舉式」試切分，所花費的時間代價太大。因此採用「化整為零」的方法，根據最佳鄰域搜索原則以及字母串在水平和垂直方向上的投影資訊，將字母串從最可靠的地方一分為二，分為兩個子串；然後在這兩個子串內再重複上述步驟，直到子串的長度大約為三個英文字母的平均寬度；最後進行「窮舉式」試切分，從而大大縮短了切分所用的時間。從而有效地解決了漢英雙語混排文本的識別。 5.3 高性能實用漢字識別系統的其他關鍵技術實用漢字識別系統的其他關鍵技術主要包括： (1) 掃瞄器自動亮度調節(ABJ-Automatic Brightness Ajustment)技術。 (2) 印刷表格的自動輸入的鄰域分析技術。 (3) 版面的自動分析(ALA-Automatic Layout Analysis)技術。綜上所述，最新的印刷漢字識別技術流程，如圖3所示。圖3 最新的印刷漢字識別技術流程六、結論與展望總體來說，近幾年來國內對印刷體漢字識別的研究還是相當深入的，也取得了很大成績，使系統的識別率不斷上升。目前印刷體漢字識別系統的應用已經相當成熟。例如，剛剛通過國家教委組織的鑒定的清華TH－OCR97綜合集成漢字識別系統，對中等質量的樣本，識別率已經可以達到99%左右或更高。不過，這些系統還存在著一些可改進之處：從識別角度 (1) 漢字識別率總是漢字識別中最重要的指標，應該達到更新的高度，從而最大程度地減少用戶校對、修改的工作量。 (2) 印刷體漢字識別的魯棒性(Robustness)還不夠強。Robust在英文中是「健壯的」或「強的」之意。魯棒性可以理解為識別系統對於不同質量、不同字型大小、不同字體的文本圖像表示出來的適應性。在文字識別中，識別系統的魯棒性尤其反應在隨著印刷質量的下降，系統誤識率的上升趨勢上。目前的OCR系統都對掃瞄圖像的質量有一定要求，掃瞄亮度不能太暗也不能太亮，保證文字的圖像即不會暗成一個黑塊也不會亮得筆畫發生很多斷裂。這就對用戶的使用提出了較高要求。印刷文本的質量可能千差萬別，一般用戶對掃瞄器的操作也可能不夠合適，這往往造成識別圖像的質量不佳，為使任何未經訓練的用戶都能用好OCR系統，系統的魯棒性必須不斷提高。 (3) 漢英混排文本的切分仍不夠成熟。與識別技術相比，對切分的理論和方法還缺乏系統的研究和理論。隨著漢字識別率的上升以及漢英混排文本的增多，切分錯誤在所有錯誤中所佔的比重不斷上升，怎樣使文字正確分割變成了另一個還未很好解決的問題。用戶介面和自動化程度方面 (1) 掃瞄器自動亮度調節，無須用戶選擇門限，自動隨文本種類、印刷質量不同選擇合適的掃瞄器亮度門限，以保證識別率。 (2) 版面的自動分析，無需人工干預，可以將印刷文本材料，如報紙、雜誌等，上面有各種插圖、表格、花邊，且同時存在橫、豎版面等加以區分和作相應的標記，以便分別處理。 (3) 中文印刷表格的自動錄入，對於中文印刷表格，可以進行框線的自動檢測、欄目自動切分，直至將各欄目中的內容識別出來，並且可以和資料庫直接相連，完成印刷表格自動錄入至資料庫的任務。 (4) 版面自動恢復，僅有文字識別往往不能滿足實際需要。能夠保持原來的排版形式、字體資訊、表格和插入的圖形圖像，以便在Word、北大方正等排版軟體中直接修改，一直是許多用戶的夢想。 (5) 系統提供用戶自學習功能，使用戶自由地擴大專業識別字元集；以及適用於各種應用環境的漢字識別系統。例如：MS-DOS環境、Windows環境和UNIX環境下中文OCR版本，滿足不同用戶的需求。其他方面 (1) 系統總體性能的進一步提高。解決象報紙這種欄目多而位置排列複雜的印刷文本材料的版面自動理解；利用自然語言理解知識進行識別後處理；進一步提高英文的識別率和適應性，降低系統的誤識率，等等。 (2) Internet/Intranet上的網路版本。充分利用網路上的資源及計算能力，提高系統的性能，使用戶能夠更方便地協同工作。 (3) 系統固化以及系統各部分的質量和性能的穩定提高。 (4) 擴大OCR核心技術的應用範圍，開發更多的應用系統，並將研究成果迅速轉化為產品，提高軟體的商品化水平，使之能大量地走出國門，走向全世界。這些都是漢字識別系統急待解決的問題，也是漢字識別技術今後努力發展的重要方向。