有用的控制參數和設定檔列表
簡介
如果您知道如何控制,Tesseract 非常靈活。有大量的控制參數可以修改其行為。雖然這些參數會不時變更,但大多數都相當穩定。可以使用以下方式檢索所有帶有預設值和簡短描述的參數列表
tesseract --print-parameters
共有 3 種不同的類型
僅限初始化
其初始化巨集中以 INIT 為特徵。這些參數只能在 ` TessBaseAPI::Init ` 函數中設定,該函數會接收設定檔列表。
注意:您無法使用 tesseract 執行選項 -c
變更僅限初始化的參數。
其餘的可以透過 ` TessBaseAPI::SetVariable ` 設定,並分為另外 2 組
一般參數
控制 Tesseract 功能的許多不同方面。
偵錯參數
名稱中包含 debug,控制大量選用的偵錯文字和 Tesseract 工作時的圖形輸出。
有用的參數
請注意,預設值可能會變更;如果您需要確定,請檢查原始碼。
名稱 | 類型 | 預設值 | 僅限初始化 | 描述 |
---|---|---|---|---|
` load_system_dawg ` | 布林值 (0/1) | 1 | 是 | 控制是否載入所選語言的主字典。 |
` user_words_suffix ` | 字串 | ”” | 是 | 使用者詞彙字詞列表檔案的副檔名。如果非空,它會嘗試載入相關的字詞列表,以新增至所選語言的字典。例如,如果設定為 ` user-words `,Tesseract 會在初始化時嘗試從 tessdata 目錄載入 ` eng.user-words `。 |
` language_model_penalty_non_dict_word ` | 雙精度浮點數 (0-1) | 0.15 | 否 | 套用至不在 word_dawg/user_words 字詞列表中的字詞的懲罰。 |
` language_model_penalty_non_freq_dict_word ` | 雙精度浮點數 (0-1) | 0.1 | 否 | 套用至不在 freq_dawg 字詞列表中的字詞的懲罰。 |
適用於日文和中文的有用參數
有些日文 tesseract 使用者發現這些參數有助於提高日文 tesseract-ocr (3.02) 的準確性。
名稱 | 建議值 | 描述 |
---|---|---|
chop_enable | T | 啟用切分。 |
use_new_state_cost | F | 使用新的狀態成本啟發式方法進行分段狀態評估 |
segment_segcost_rating | F | 在字詞評分中納入分段成本嗎? |
enable_new_segsearch | 0 | 啟用新的分段搜尋路徑。它可以解決將一個字元分成兩個字元的問題 |
language_model_ngram_on | 0 | 開啟/關閉字元 N 元語法模型的使用。 |
textord_force_make_prop_words | F | 強制在所有列上進行比例字詞分段。 |
edges_max_children_per_outline | 40 | 字元外框內的最大子數。如果某些漢字無法辨識 (遭拒),請增加此值。 |