跳至內容。

有用的控制參數和設定檔列表

簡介

如果您知道如何控制,Tesseract 非常靈活。有大量的控制參數可以修改其行為。雖然這些參數會不時變更,但大多數都相當穩定。可以使用以下方式檢索所有帶有預設值和簡短描述的參數列表

tesseract --print-parameters

共有 3 種不同的類型

僅限初始化

其初始化巨集中以 INIT 為特徵。這些參數只能在 ` TessBaseAPI::Init ` 函數中設定,該函數會接收設定檔列表。

注意:您無法使用 tesseract 執行選項 -c 變更僅限初始化的參數。

其餘的可以透過 ` TessBaseAPI::SetVariable ` 設定,並分為另外 2 組

一般參數

控制 Tesseract 功能的許多不同方面。

偵錯參數

名稱中包含 debug,控制大量選用的偵錯文字和 Tesseract 工作時的圖形輸出。

有用的參數

請注意,預設值可能會變更;如果您需要確定,請檢查原始碼。

名稱 類型 預設值 僅限初始化 描述
` load_system_dawg ` 布林值 (0/1) 1 控制是否載入所選語言的主字典。
` user_words_suffix ` 字串 ”” 使用者詞彙字詞列表檔案的副檔名。如果非空,它會嘗試載入相關的字詞列表,以新增至所選語言的字典。例如,如果設定為 ` user-words `,Tesseract 會在初始化時嘗試從 tessdata 目錄載入 ` eng.user-words `。
` language_model_penalty_non_dict_word ` 雙精度浮點數 (0-1) 0.15 套用至不在 word_dawg/user_words 字詞列表中的字詞的懲罰。
` language_model_penalty_non_freq_dict_word ` 雙精度浮點數 (0-1) 0.1 套用至不在 freq_dawg 字詞列表中的字詞的懲罰。

適用於日文和中文的有用參數

有些日文 tesseract 使用者發現這些參數有助於提高日文 tesseract-ocr (3.02) 的準確性。

名稱 建議值 描述
chop_enable T 啟用切分。
use_new_state_cost F 使用新的狀態成本啟發式方法進行分段狀態評估
segment_segcost_rating F 在字詞評分中納入分段成本嗎?
enable_new_segsearch 0 啟用新的分段搜尋路徑。它可以解決將一個字元分成兩個字元的問題
language_model_ngram_on 0 開啟/關閉字元 N 元語法模型的使用。
textord_force_make_prop_words F 強制在所有列上進行比例字詞分段。
edges_max_children_per_outline 40 字元外框內的最大子數。如果某些漢字無法辨識 (遭拒),請增加此值。