有用的控制參數和設定檔列表

簡介

如果您知道如何控制，Tesseract 非常靈活。有大量的控制參數可以修改其行為。雖然這些參數會不時變更，但大多數都相當穩定。可以使用以下方式檢索所有帶有預設值和簡短描述的參數列表

tesseract --print-parameters

共有 3 種不同的類型

其初始化巨集中以 INIT 為特徵。這些參數只能在 ` TessBaseAPI::Init ` 函數中設定，該函數會接收設定檔列表。

注意：您無法使用 tesseract 執行選項 -c 變更僅限初始化的參數。

其餘的可以透過 ` TessBaseAPI::SetVariable ` 設定，並分為另外 2 組

控制 Tesseract 功能的許多不同方面。

名稱中包含 debug，控制大量選用的偵錯文字和 Tesseract 工作時的圖形輸出。

請注意，預設值可能會變更；如果您需要確定，請檢查原始碼。

名稱	類型	預設值	僅限初始化	描述
` load_system_dawg `	布林值 (0/1)	1	是	控制是否載入所選語言的主字典。
` user_words_suffix `	字串	””	是	使用者詞彙字詞列表檔案的副檔名。如果非空，它會嘗試載入相關的字詞列表，以新增至所選語言的字典。例如，如果設定為 ` user-words `，Tesseract 會在初始化時嘗試從 tessdata 目錄載入 ` eng.user-words `。
` language_model_penalty_non_dict_word `	雙精度浮點數 (0-1)	0.15	否	套用至不在 word_dawg/user_words 字詞列表中的字詞的懲罰。
` language_model_penalty_non_freq_dict_word `	雙精度浮點數 (0-1)	0.1	否	套用至不在 freq_dawg 字詞列表中的字詞的懲罰。

有些日文 tesseract 使用者發現這些參數有助於提高日文 tesseract-ocr (3.02) 的準確性。

名稱	建議值	描述
chop_enable	T	啟用切分。
use_new_state_cost	F	使用新的狀態成本啟發式方法進行分段狀態評估
segment_segcost_rating	F	在字詞評分中納入分段成本嗎？
enable_new_segsearch	0	啟用新的分段搜尋路徑。它可以解決將一個字元分成兩個字元的問題
language_model_ngram_on	0	開啟/關閉字元 N 元語法模型的使用。
textord_force_make_prop_words	F	強制在所有列上進行比例字詞分段。
edges_max_children_per_outline	40	字元外框內的最大子數。如果某些漢字無法辨識 (遭拒)，請增加此值。