為 4.00+ 版本訓練的資料檔案
我們有三組由 Google 訓練的官方 .traineddata 檔案,適用於 tesseract
4.00 及以上版本。這些檔案分別存放在三個不同的儲存庫中。
- tessdata_fast (2017 年 9 月) 在速度與準確性方面提供最佳「性價比」,
整數
模型。 - tessdata_best (2017 年 9 月) 在 Google 的評估資料上獲得最佳結果,速度較慢,
浮點數
模型。這些是唯一可以作為微調訓練基礎的模型。 - tessdata (2016 年 11 月和 2017 年 9 月) 這些包含 2016 年的舊版 tesseract 模型。LSTM 模型已使用 tessdata_best LSTM 模型的整數版本更新。(基於 Cube 的舊版 tesseract 模型,如印地語、阿拉伯語等已被刪除)。
當使用來自 tessdata_best
和 tessdata_fast
儲存庫的 traineddata 檔案時,僅支援新的基於 LSTM 的 OCR 引擎 (–oem 1)。舊版 tesseract 引擎 (–oem 0) 不支援這些檔案,因此 Tesseract 的 oem 模式
'0' 和 '2' 無法與它們一起使用。
特殊資料檔案
語言代碼 | 描述 | 4.x/3.0x traineddata |
---|---|---|
osd | 方向和文字腳本偵測 | osd.traineddata |
equ | 數學/方程式偵測 | equ.traineddata |
注意:這兩個資料檔案與舊版 Tesseract 相容。osd
與 3.01 及以上版本相容,而 equ
與 3.02 及以上版本相容。
更新的資料檔案(2017 年 9 月 15 日)
我們在 GitHub 的三個不同儲存庫中有三組 .traineddata 檔案。這些檔案與 Tesseract 4.0x+ 和 5.0.0.Alpha 相容。
訓練模型 | 速度 | 準確性 | 支援舊版 | 可重新訓練 | |
---|---|---|---|---|---|
tessdata | 舊版 + LSTM (整數化的 tessdata-best) | 比 tessdata-best 快 | 準確性略低於 tessdata-best | 是 | 否 |
tessdata-best | 僅限 LSTM(基於 langdata) | 最慢 | 最準確 | 否 | 是 |
tessdata-fast | 比 tessdata-best 小的網路的整數化 LSTM | 最快 | 最不準確 | 否 | 否 |
大多數使用者會想要 tessdata_fast
,這將作為 Linux 發行版的一部分提供。
tessdata_best
適用於願意為了稍微更好的準確性而犧牲大量速度的人。它也是唯一可以針對進階使用者用於某些重新訓練情境的檔案集。
tessdata
中的第三組是唯一支援舊版辨識器的檔案。2016 年 11 月的 4.00 檔案同時包含舊版和較舊的 LSTM 模型。tessdata
中目前的檔案集包含舊版模型和較新的 LSTM 模型(tessdata_best 中 4.00.00 alpha 模型的整數版本)。
注意:當使用 tessdata_best
和 tessdata_fast
儲存庫中的新模型時,僅支援新的基於 LSTM 的 OCR 引擎。這些檔案不支援舊版引擎,因此 Tesseract 的 oem 模式 '0' 和 '2' 無法與它們一起使用。
4.00 版本資料檔案 (2016 年 11 月 29 日)
tessdata 標籤 4.0.0 包含 2017 年 9 月的模型,這些模型已使用 tessdata_best
LSTM 模型的 整數
版本更新。這組 traineddata 檔案支援使用 –oem 0 的舊版辨識器和使用 –oem 1 的 LSTM 模型。
tessdata 標籤 4.00 包含 2016 年的模型。個別語言檔案連結在下表中。
注意:kur
資料檔案未從 3.04 更新。對於 Fraktur,請使用 tessdata_fast 或 tessdata_best 儲存庫中較新的資料檔案。
traineddata 檔案的格式
每個語言的 traineddata
檔案都是 Tesseract 特定格式的封存檔案。它包含 Tesseract OCR 流程所需的幾個未壓縮的元件檔案。combine_tessdata
程式用於從元件檔案建立 tessdata
檔案,也可以像以下範例一樣再次提取它們
2016 年 11 月的 4.0.0 之前的格式(同時具有 LSTM 和舊版模型)
combine_tessdata -u eng.traineddata eng.
Extracting tessdata components from eng.traineddata
Wrote eng.unicharset
Wrote eng.unicharambigs
Wrote eng.inttemp
Wrote eng.pffmtable
Wrote eng.normproto
Wrote eng.punc-dawg
Wrote eng.word-dawg
Wrote eng.number-dawg
Wrote eng.freq-dawg
Wrote eng.cube-unicharset
Wrote eng.cube-word-dawg
Wrote eng.shapetable
Wrote eng.bigram-dawg
Wrote eng.lstm
Wrote eng.lstm-punc-dawg
Wrote eng.lstm-word-dawg
Wrote eng.lstm-number-dawg
Wrote eng.version
Version string:Pre-4.0.0
1:unicharset:size=7477, offset=192
2:unicharambigs:size=1047, offset=7669
3:inttemp:size=976552, offset=8716
4:pffmtable:size=844, offset=985268
5:normproto:size=13408, offset=986112
6:punc-dawg:size=4322, offset=999520
7:word-dawg:size=1082890, offset=1003842
8:number-dawg:size=6426, offset=2086732
9:freq-dawg:size=1410, offset=2093158
11:cube-unicharset:size=1511, offset=2094568
12:cube-word-dawg:size=1062106, offset=2096079
13:shapetable:size=63346, offset=3158185
14:bigram-dawg:size=16109842, offset=3221531
17:lstm:size=5390718, offset=19331373
18:lstm-punc-dawg:size=4322, offset=24722091
19:lstm-word-dawg:size=7143578, offset=24726413
20:lstm-number-dawg:size=3530, offset=31869991
23:version:size=9, offset=31873521
4.00.00alpha 僅限 LSTM 的格式
combine_tessdata -u eng.traineddata eng.
Extracting tessdata components from eng.traineddata
Wrote eng.lstm
Wrote eng.lstm-punc-dawg
Wrote eng.lstm-word-dawg
Wrote eng.lstm-number-dawg
Wrote eng.lstm-unicharset
Wrote eng.lstm-recoder
Wrote eng.version
Version string:4.00.00alpha:eng:synth20170629:[1,36,0,1Ct3,3,16Mp3,3Lfys64Lfx96Lrx96Lfx512O1c1]
17:lstm:size=11689099, offset=192
18:lstm-punc-dawg:size=4322, offset=11689291
19:lstm-word-dawg:size=3694794, offset=11693613
20:lstm-number-dawg:size=4738, offset=15388407
21:lstm-unicharset:size=6360, offset=15393145
22:lstm-recoder:size=1012, offset=15399505
23:version:size=80, offset=15400517
壓縮 traineddata 檔案的提案
有一些提案要用標準封存格式取代 Tesseract 封存格式,該格式也可以支援壓縮。[在 tesseract-dev 論壇上的討論](https://groups.google.com/forum/?hl=en#!searchin/tesseract-dev/zip | sort:date/tesseract-dev/U5HSugUeeeI) 在 2014 年就已提出 ZIP 格式。在 2017 年,提供了一個 實驗性實作 作為提取請求。 |