跳至內容。

為 4.00+ 版本訓練的資料檔案

我們有三組由 Google 訓練的官方 .traineddata 檔案,適用於 tesseract 4.00 及以上版本。這些檔案分別存放在三個不同的儲存庫中。

當使用來自 tessdata_besttessdata_fast 儲存庫的 traineddata 檔案時,僅支援新的基於 LSTM 的 OCR 引擎 (–oem 1)。舊版 tesseract 引擎 (–oem 0) 不支援這些檔案,因此 Tesseract 的 oem 模式 '0' 和 '2' 無法與它們一起使用。

特殊資料檔案

語言代碼 描述 4.x/3.0x traineddata
osd 方向和文字腳本偵測 osd.traineddata
equ 數學/方程式偵測 equ.traineddata

注意:這兩個資料檔案與舊版 Tesseract 相容。osd 與 3.01 及以上版本相容,而 equ 與 3.02 及以上版本相容。

更新的資料檔案(2017 年 9 月 15 日)

我們在 GitHub 的三個不同儲存庫中有三組 .traineddata 檔案。這些檔案與 Tesseract 4.0x+ 和 5.0.0.Alpha 相容。

  訓練模型 速度 準確性 支援舊版 可重新訓練
tessdata 舊版 + LSTM (整數化的 tessdata-best) 比 tessdata-best 快 準確性略低於 tessdata-best
tessdata-best 僅限 LSTM(基於 langdata 最慢 最準確
tessdata-fast 比 tessdata-best 小的網路的整數化 LSTM 最快 最不準確

大多數使用者會想要 tessdata_fast,這將作為 Linux 發行版的一部分提供。

tessdata_best 適用於願意為了稍微更好的準確性而犧牲大量速度的人。它也是唯一可以針對進階使用者用於某些重新訓練情境的檔案集。

tessdata 中的第三組是唯一支援舊版辨識器的檔案。2016 年 11 月的 4.00 檔案同時包含舊版和較舊的 LSTM 模型。tessdata 中目前的檔案集包含舊版模型和較新的 LSTM 模型(tessdata_best 中 4.00.00 alpha 模型的整數版本)。

注意:當使用 tessdata_besttessdata_fast 儲存庫中的新模型時,僅支援新的基於 LSTM 的 OCR 引擎。這些檔案不支援舊版引擎,因此 Tesseract 的 oem 模式 '0' 和 '2' 無法與它們一起使用。

4.00 版本資料檔案 (2016 年 11 月 29 日)

tessdata 標籤 4.0.0 包含 2017 年 9 月的模型,這些模型已使用 tessdata_best LSTM 模型的 整數版本更新。這組 traineddata 檔案支援使用 –oem 0 的舊版辨識器和使用 –oem 1 的 LSTM 模型。

tessdata 標籤 4.00 包含 2016 年的模型。個別語言檔案連結在下表中。

注意kur 資料檔案未從 3.04 更新。對於 Fraktur,請使用 tessdata_fast 或 tessdata_best 儲存庫中較新的資料檔案。

語言代碼 語言 4.0 traineddata
afr 南非荷蘭語 afr.traineddata
amh 阿姆哈拉語 amh.traineddata
ara 阿拉伯語 ara.traineddata
asm 阿薩姆語 asm.traineddata
aze 亞塞拜然語 aze.traineddata
aze_cyrl 亞塞拜然語 - 西里爾文 aze_cyrl.traineddata
bel 白俄羅斯語 bel.traineddata
ben 孟加拉語 ben.traineddata
bod 藏語 bod.traineddata
bos 波士尼亞語 bos.traineddata
bul 保加利亞語 bul.traineddata
cat 加泰隆尼亞語;巴倫西亞語 cat.traineddata
ceb 宿霧語 ceb.traineddata
ces 捷克語 ces.traineddata
chi_sim 中文 - 簡體 chi_sim.traineddata
chi_tra 中文 - 繁體 chi_tra.traineddata
chr 切羅基語 chr.traineddata
cym 威爾斯語 cym.traineddata
dan 丹麥語 dan.traineddata
deu 德語 deu.traineddata
dzo 宗喀語 dzo.traineddata
ell 希臘語,現代 (1453-) ell.traineddata
eng 英語 eng.traineddata
enm 英語,中古 (1100-1500) enm.traineddata
epo 世界語 epo.traineddata
est 愛沙尼亞語 est.traineddata
eus 巴斯克語 eus.traineddata
fas 波斯語 fas.traineddata
fin 芬蘭語 fin.traineddata
fra 法語 fra.traineddata
frk 德語 Fraktur 字體 frk.traineddata
frm 法語,中古 (約 1400-1600) frm.traineddata
gle 愛爾蘭語 gle.traineddata
glg 加利西亞語 glg.traineddata
grc 希臘語,古 ( -1453) grc.traineddata
guj 古吉拉特語 guj.traineddata
hat 海地語;海地克里奧爾語 hat.traineddata
heb 希伯來語 heb.traineddata
hin 印地語 hin.traineddata
hrv 克羅埃西亞語 hrv.traineddata
hun 匈牙利語 hun.traineddata
iku 因紐特語 iku.traineddata
ind 印尼語 ind.traineddata
isl 冰島語 isl.traineddata
ita 義大利語 ita.traineddata
ita_old 義大利語 - 古 ita_old.traineddata
jav 爪哇語 jav.traineddata
jpn 日語 jpn.traineddata
kan 坎那達語 kan.traineddata
kat 喬治亞語 kat.traineddata
kat_old 喬治亞語 - 古 kat_old.traineddata
kaz 哈薩克語 kaz.traineddata
khm 高棉語 khm.traineddata
kir 吉爾吉斯語 kir.traineddata
kor 韓語 kor.traineddata
kur 庫爾德語 kur.traineddata
lao 寮語 lao.traineddata
lat 拉丁語 lat.traineddata
lav 拉脫維亞語 lav.traineddata
lit 立陶宛語 lit.traineddata
mal 馬拉雅拉姆語 mal.traineddata
mar 馬拉地語 mar.traineddata
mkd 馬其頓語 mkd.traineddata
mlt 馬爾他語 mlt.traineddata
msa 馬來語 msa.traineddata
mya 緬甸語 mya.traineddata
nep 尼泊爾語 nep.traineddata
nld 荷蘭語;弗拉芒語 nld.traineddata
nor 挪威語 nor.traineddata
ori 奧里亞語 ori.traineddata
pan 旁遮普語 pan.traineddata
pol 波蘭語 pol.traineddata
por 葡萄牙語 por.traineddata
pus 普什圖語 pus.traineddata
ron 羅馬尼亞語;摩爾多瓦語;摩爾多瓦語 ron.traineddata
rus 俄語 rus.traineddata
san 梵語 san.traineddata
sin 僧伽羅語 sin.traineddata
slk 斯洛伐克語 slk.traineddata
slv 斯洛維尼亞語 slv.traineddata
spa 西班牙語;卡斯提爾語 spa.traineddata
spa_old 西班牙語;卡斯提爾語 - 古 spa_old.traineddata
sqi 阿爾巴尼亞語 sqi.traineddata
srp 塞爾維亞語 srp.traineddata
srp_latn 塞爾維亞語 - 拉丁文 srp_latn.traineddata
swa 史瓦希里語 swa.traineddata
swe 瑞典語 swe.traineddata
syr 敘利亞語 syr.traineddata
tam 坦米爾語 tam.traineddata
tel 泰盧固語 tel.traineddata
tgk 塔吉克語 tgk.traineddata
tgl 塔加洛語 tgl.traineddata
tha 泰語 tha.traineddata
tir 提格里尼亞語 tir.traineddata
tur 土耳其語 tur.traineddata
uig 維吾爾語 uig.traineddata
ukr 烏克蘭語 ukr.traineddata
urd 烏爾都語 urd.traineddata
uzb 烏茲別克語 uzb.traineddata
uzb_cyrl 烏茲別克語 - 西里爾文 uzb_cyrl.traineddata
vie 越南語 vie.traineddata
yid 意第緒語 yid.traineddata

traineddata 檔案的格式

每個語言的 traineddata 檔案都是 Tesseract 特定格式的封存檔案。它包含 Tesseract OCR 流程所需的幾個未壓縮的元件檔案。combine_tessdata 程式用於從元件檔案建立 tessdata 檔案,也可以像以下範例一樣再次提取它們

2016 年 11 月的 4.0.0 之前的格式(同時具有 LSTM 和舊版模型)

combine_tessdata -u eng.traineddata eng.
Extracting tessdata components from eng.traineddata
Wrote eng.unicharset
Wrote eng.unicharambigs
Wrote eng.inttemp
Wrote eng.pffmtable
Wrote eng.normproto
Wrote eng.punc-dawg
Wrote eng.word-dawg
Wrote eng.number-dawg
Wrote eng.freq-dawg
Wrote eng.cube-unicharset
Wrote eng.cube-word-dawg
Wrote eng.shapetable
Wrote eng.bigram-dawg
Wrote eng.lstm
Wrote eng.lstm-punc-dawg
Wrote eng.lstm-word-dawg
Wrote eng.lstm-number-dawg
Wrote eng.version
Version string:Pre-4.0.0
1:unicharset:size=7477, offset=192
2:unicharambigs:size=1047, offset=7669
3:inttemp:size=976552, offset=8716
4:pffmtable:size=844, offset=985268
5:normproto:size=13408, offset=986112
6:punc-dawg:size=4322, offset=999520
7:word-dawg:size=1082890, offset=1003842
8:number-dawg:size=6426, offset=2086732
9:freq-dawg:size=1410, offset=2093158
11:cube-unicharset:size=1511, offset=2094568
12:cube-word-dawg:size=1062106, offset=2096079
13:shapetable:size=63346, offset=3158185
14:bigram-dawg:size=16109842, offset=3221531
17:lstm:size=5390718, offset=19331373
18:lstm-punc-dawg:size=4322, offset=24722091
19:lstm-word-dawg:size=7143578, offset=24726413
20:lstm-number-dawg:size=3530, offset=31869991
23:version:size=9, offset=31873521

4.00.00alpha 僅限 LSTM 的格式

combine_tessdata -u eng.traineddata eng.
Extracting tessdata components from eng.traineddata
Wrote eng.lstm
Wrote eng.lstm-punc-dawg
Wrote eng.lstm-word-dawg
Wrote eng.lstm-number-dawg
Wrote eng.lstm-unicharset
Wrote eng.lstm-recoder
Wrote eng.version
Version string:4.00.00alpha:eng:synth20170629:[1,36,0,1Ct3,3,16Mp3,3Lfys64Lfx96Lrx96Lfx512O1c1]
17:lstm:size=11689099, offset=192
18:lstm-punc-dawg:size=4322, offset=11689291
19:lstm-word-dawg:size=3694794, offset=11693613
20:lstm-number-dawg:size=4738, offset=15388407
21:lstm-unicharset:size=6360, offset=15393145
22:lstm-recoder:size=1012, offset=15399505
23:version:size=80, offset=15400517

壓縮 traineddata 檔案的提案

有一些提案要用標準封存格式取代 Tesseract 封存格式,該格式也可以支援壓縮。[在 tesseract-dev 論壇上的討論](https://groups.google.com/forum/?hl=en#!searchin/tesseract-dev/zip sort:date/tesseract-dev/U5HSugUeeeI) 在 2014 年就已提出 ZIP 格式。在 2017 年,提供了一個 實驗性實作 作為提取請求。