幻覺效應
是指系統中對初始條件的敏感依賴性,系統中一個狀態的微小變化可能會導致後續狀態的巨大差異。它與「蝴蝶效應」和「骨牌效應」有某種程度的關聯。
在 Tesseract 4.x 中觀察到這種現象
如果您的訓練文本經常以某種形式包含某個元素。
-
範例 1:一個單字經常以大寫形式
Word
出現,那麼當您使用該訓練模型來識別word
時,它會產生幻覺並將其視為Word
。 -
範例 2:您的訓練文本經常在句子開頭或結尾包含
空格
。可能會導致訓練緩慢、不收斂甚至模型損壞。
結論
大多數情況下,幻覺效應是創建 traineddata
模型所使用文本的產物。
為了對抗這種效應,應該避免過度使用單一元素/形式/字符/等等。
此外,應該使用大量且多樣的文本輸入進行訓練,同時清理並刪除您認為不必要的部分,因為神經網絡
也會學習模式和語言行為。