2010年12月20日 星期一

識別印刷文字 (一)

識別方法是整個 系統 的核心。 用於漢字識別的模式識別方法可以大致分為結構模式識別、統計模式識別及兩者的結合。下面分別進行介紹。

結構模式識別
漢字是一種特殊的模式,其結構雖然比較複雜,但具有相當嚴格的規律性。換言之,漢字圖形含有豐富的結構信息,可以設法提取含有這種信息的結構特徵及其組字規律,作為識別漢字的依據,這就是結構模式識別。

結構模式識別是早期漢字識別研究的主要方法。其主要出發點是漢字的組成結構。 從漢字的構成上講,漢字是由筆劃(點橫豎撇捺等)、偏旁部首構成的;還可以認為漢字是由更小的結構基元構成的。由這些結構基元及其相互關係完全可以精確地對漢字加以描述,就像一篇文章由單字、詞、短語和句子按語法規律所組成一樣。 所以這種方法也叫句法模式識別。 識別時,利用上述結構信息及句法分析的方法進行識別,類似一個邏輯推理器。

用這種方法來描述漢字字形結構在理論上是比較恰當的,其主要優點在於對字體變化的適應性強,區分相似字能力強;但是,在實際應用中,面臨的主要問題是抗干擾能力差,因為在實際得到的文本圖像中存在著各種干擾,如傾斜,扭曲,斷裂,粘連,紙張上的污點,對比度差等等。這些因素直接影響到結構基元的提取,假如結構基元不能準確地得到,後面的推理過程就成了無源之水。 此外結構模式識別的描述比較複雜,匹配過程的複雜度因而也較高。 所以在印刷體漢字識別領域中,純結構模式識別方法已經逐漸衰落,句法識別的方法正日益受到挑戰。

統計模式識別
統計決策論發展較早,理論也較成熟。其要點是提取待識別模式的的一組統計特徵,然後按照一定準則所確定的決策函數進行分類判決。

漢字的統計模式識別是將字符點陣看作一個整體,其所用的特徵是從這個整體上經過大量的統計而得到的。統計特徵的特點是抗干擾性強,匹配與分類的算法簡單,易於實現。 不足之處在於細分能力較弱,區分相似字的能力差一些。 常見的統計模式識別方法有:

(1) 模板匹配。 模板匹配並不需要特徵提取過程。 字符的圖像直接作為特徵,與字典中的模板相比,相似度最高的模板類即為識別結果。這種方法簡單易行,可以並行處理;但是一個模板只能識別同樣大小、同種字體的字符,對於傾斜、筆劃變粗變細均無良好的適應能力

(2)利用變換特徵的方法。 對字符圖像進行二進制變換(Walsh, Hardama變換)或更複雜的變換(Karhunen-Loeve, Fourier,CosineSlant變換等),變換後的特徵的維數大大降低。 但是這些變換不是旋轉不變的,因此對於傾斜變形的字符的識別會有較大的偏差。二進制變換的計算雖然簡單,但變換後的特徵沒有明顯的物理意義。 KL變換雖然從最小均方誤差角度來說是最佳的,但是運算量太大,難以實用。總之,變換特徵的運算複雜度較高。

(3)投影直方圖法。 利用字符圖像在水平及垂直方向的投影作為特徵。 該方法對傾斜旋轉非常敏感,細分能力差。

(4)幾何矩(Geometric Moment)特徵。 MK Hu提出利用矩不變量作為特徵的想法,引起了研究矩的熱潮。 研究人員又確定了數十個移不變、比例不變的矩。我們都希望找到穩定可靠的、對各種干擾適應能力很強的特徵,在幾何矩方面的研究正反映了這一願望。 以上所涉及到的幾何矩均在線性變換下保持不變。 但在實際環境中,很難保證線性變換這一前提條件。

(5)Spline曲線近似與傅立葉描繪子(Fourier Descriptor)。 兩種方法都是針對字符圖像輪廓的。 Spline曲線近似是在輪廓上找到曲率大的折點,利用Spline曲線來近似相鄰折點之間的輪廓線。 而傅立葉描繪子則是利用傅立葉函數模擬封閉的輪廓線,將傅立葉函數的各個係數作為特徵的。前者對於旋轉很敏感。 後者對於輪廓線不封閉的字符圖像不適用,因此很難用於筆劃斷裂的字符的識別。

(6)筆劃密度特徵。 筆劃密度的描述有許多種,這裡採用如下定義:字符圖像某一特定範圍的筆劃密度是在該範圍內,以固定掃描 次數沿水平、垂直或對角線方向 掃描 時的穿透次數。 這種特徵描述了漢字的各部分筆劃的疏密程度,提供了比較完整的信息。 在圖像質量可以保證的情況下,這種特徵相當穩定。在脫機手寫體的識別中也經常用到這種特徵。 但是在字符內部筆劃粘連時誤差較大

(7)外圍特徵。 漢字的輪廓包含了豐富的特徵,即使在字符內部筆劃粘連的情況下,輪廓部分的信息也還是比較完整的。這種特徵非常適合於作為粗分類的特徵。

(8)基於微結構特徵的方法。 這種方法的出發點在於,漢字是由筆劃組成的,而筆劃是由一定方向,一定位置關係與長寬比的矩形段組成的。這些矩形段則稱為微結構。 利用微結構及微結構之間的關係組成的特徵對漢字進行識別,尤其是對於多體漢字的識別,獲得了良好的效果。 其不足之處是,在內部筆劃粘連時,微結構的提取會遇到困難。

(9)特徵點特徵。 早在1957年,Solatron Electronics Group公司發布了第一個利用窺視孔(peephole)方法的OCR 系統 。 其主要思想是利用字符點陣中一些有代表性的黑點(筆劃),白點(背景)作為特徵來區分不同的字符。後有人又將這種方法運用到漢字識別中,對其中的黑點又增加了屬性的描述,如端點、折點、交叉點等。 也獲得了比較好的效果。 其特點是對於內部筆劃粘連的字符的識別的適應性較強,直觀性好,但是不易表示為矢量形式,不適合作為粗分類的特徵,匹配難度大

當然還有許多種不同的統計特徵,諸如圖描述法、包含配選法、脫殼透視法、差筆劃法等,這裡就不一一介紹了

沒有留言:

張貼留言