Traineddata Files for Version 4.00 +

為 4.00+ 版本訓練的資料檔案

我們有三組由 Google 訓練的官方 .traineddata 檔案，適用於 tesseract 4.00 及以上版本。這些檔案分別存放在三個不同的儲存庫中。

tessdata_fast (2017 年 9 月) 在速度與準確性方面提供最佳「性價比」，整數模型。
tessdata_best (2017 年 9 月) 在 Google 的評估資料上獲得最佳結果，速度較慢，浮點數模型。這些是唯一可以作為微調訓練基礎的模型。
tessdata (2016 年 11 月和 2017 年 9 月) 這些包含 2016 年的舊版 tesseract 模型。LSTM 模型已使用 tessdata_best LSTM 模型的整數版本更新。（基於 Cube 的舊版 tesseract 模型，如印地語、阿拉伯語等已被刪除）。

當使用來自 tessdata_best 和 tessdata_fast 儲存庫的 traineddata 檔案時，僅支援新的基於 LSTM 的 OCR 引擎 (–oem 1)。舊版 tesseract 引擎 (–oem 0) 不支援這些檔案，因此 Tesseract 的 oem 模式 '0' 和 '2' 無法與它們一起使用。

特殊資料檔案
最新資料檔案 - 2017 年 9 月
4.00 版本資料檔案 - 2016 年 11 月
traineddata 檔案的格式

特殊資料檔案

語言代碼	描述	4.x/3.0x traineddata
osd	方向和文字腳本偵測	osd.traineddata
equ	數學/方程式偵測	equ.traineddata

注意：這兩個資料檔案與舊版 Tesseract 相容。osd 與 3.01 及以上版本相容，而 equ 與 3.02 及以上版本相容。

更新的資料檔案（2017 年 9 月 15 日）

我們在 GitHub 的三個不同儲存庫中有三組 .traineddata 檔案。這些檔案與 Tesseract 4.0x+ 和 5.0.0.Alpha 相容。

	訓練模型	速度	準確性	支援舊版	可重新訓練
tessdata	舊版 + LSTM (整數化的 tessdata-best)	比 tessdata-best 快	準確性略低於 tessdata-best	是	否
tessdata-best	僅限 LSTM（基於 langdata）	最慢	最準確	否	是
tessdata-fast	比 tessdata-best 小的網路的整數化 LSTM	最快	最不準確	否	否

大多數使用者會想要 tessdata_fast，這將作為 Linux 發行版的一部分提供。

tessdata_best 適用於願意為了稍微更好的準確性而犧牲大量速度的人。它也是唯一可以針對進階使用者用於某些重新訓練情境的檔案集。

tessdata 中的第三組是唯一支援舊版辨識器的檔案。2016 年 11 月的 4.00 檔案同時包含舊版和較舊的 LSTM 模型。tessdata 中目前的檔案集包含舊版模型和較新的 LSTM 模型（tessdata_best 中 4.00.00 alpha 模型的整數版本）。

注意：當使用 tessdata_best 和 tessdata_fast 儲存庫中的新模型時，僅支援新的基於 LSTM 的 OCR 引擎。這些檔案不支援舊版引擎，因此 Tesseract 的 oem 模式 '0' 和 '2' 無法與它們一起使用。

4.00 版本資料檔案 (2016 年 11 月 29 日)

tessdata 標籤 4.0.0 包含 2017 年 9 月的模型，這些模型已使用 tessdata_best LSTM 模型的 整數版本更新。這組 traineddata 檔案支援使用 –oem 0 的舊版辨識器和使用 –oem 1 的 LSTM 模型。

tessdata 標籤 4.00 包含 2016 年的模型。個別語言檔案連結在下表中。

注意：kur 資料檔案未從 3.04 更新。對於 Fraktur，請使用 tessdata_fast 或 tessdata_best 儲存庫中較新的資料檔案。

語言代碼	語言	4.0 traineddata
afr	南非荷蘭語	afr.traineddata
amh	阿姆哈拉語	amh.traineddata
ara	阿拉伯語	ara.traineddata
asm	阿薩姆語	asm.traineddata
aze	亞塞拜然語	aze.traineddata
aze_cyrl	亞塞拜然語 - 西里爾文	aze_cyrl.traineddata
bel	白俄羅斯語	bel.traineddata
ben	孟加拉語	ben.traineddata
bod	藏語	bod.traineddata
bos	波士尼亞語	bos.traineddata
bul	保加利亞語	bul.traineddata
cat	加泰隆尼亞語；巴倫西亞語	cat.traineddata
ceb	宿霧語	ceb.traineddata
ces	捷克語	ces.traineddata
chi_sim	中文 - 簡體	chi_sim.traineddata
chi_tra	中文 - 繁體	chi_tra.traineddata
chr	切羅基語	chr.traineddata
cym	威爾斯語	cym.traineddata
dan	丹麥語	dan.traineddata
deu	德語	deu.traineddata
dzo	宗喀語	dzo.traineddata
ell	希臘語，現代 (1453-)	ell.traineddata
eng	英語	eng.traineddata
enm	英語，中古 (1100-1500)	enm.traineddata
epo	世界語	epo.traineddata
est	愛沙尼亞語	est.traineddata
eus	巴斯克語	eus.traineddata
fas	波斯語	fas.traineddata
fin	芬蘭語	fin.traineddata
fra	法語	fra.traineddata
frk	德語 Fraktur 字體	frk.traineddata
frm	法語，中古 (約 1400-1600)	frm.traineddata
gle	愛爾蘭語	gle.traineddata
glg	加利西亞語	glg.traineddata
grc	希臘語，古 ( -1453)	grc.traineddata
guj	古吉拉特語	guj.traineddata
hat	海地語；海地克里奧爾語	hat.traineddata
heb	希伯來語	heb.traineddata
hin	印地語	hin.traineddata
hrv	克羅埃西亞語	hrv.traineddata
hun	匈牙利語	hun.traineddata
iku	因紐特語	iku.traineddata
ind	印尼語	ind.traineddata
isl	冰島語	isl.traineddata
ita	義大利語	ita.traineddata
ita_old	義大利語 - 古	ita_old.traineddata
jav	爪哇語	jav.traineddata
jpn	日語	jpn.traineddata
kan	坎那達語	kan.traineddata
kat	喬治亞語	kat.traineddata
kat_old	喬治亞語 - 古	kat_old.traineddata
kaz	哈薩克語	kaz.traineddata
khm	高棉語	khm.traineddata
kir	吉爾吉斯語	kir.traineddata
kor	韓語	kor.traineddata
kur	庫爾德語	kur.traineddata
lao	寮語	lao.traineddata
lat	拉丁語	lat.traineddata
lav	拉脫維亞語	lav.traineddata
lit	立陶宛語	lit.traineddata
mal	馬拉雅拉姆語	mal.traineddata
mar	馬拉地語	mar.traineddata
mkd	馬其頓語	mkd.traineddata
mlt	馬爾他語	mlt.traineddata
msa	馬來語	msa.traineddata
mya	緬甸語	mya.traineddata
nep	尼泊爾語	nep.traineddata
nld	荷蘭語；弗拉芒語	nld.traineddata
nor	挪威語	nor.traineddata
ori	奧里亞語	ori.traineddata
pan	旁遮普語	pan.traineddata
pol	波蘭語	pol.traineddata
por	葡萄牙語	por.traineddata
pus	普什圖語	pus.traineddata
ron	羅馬尼亞語；摩爾多瓦語；摩爾多瓦語	ron.traineddata
rus	俄語	rus.traineddata
san	梵語	san.traineddata
sin	僧伽羅語	sin.traineddata
slk	斯洛伐克語	slk.traineddata
slv	斯洛維尼亞語	slv.traineddata
spa	西班牙語；卡斯提爾語	spa.traineddata
spa_old	西班牙語；卡斯提爾語 - 古	spa_old.traineddata
sqi	阿爾巴尼亞語	sqi.traineddata
srp	塞爾維亞語	srp.traineddata
srp_latn	塞爾維亞語 - 拉丁文	srp_latn.traineddata
swa	史瓦希里語	swa.traineddata
swe	瑞典語	swe.traineddata
syr	敘利亞語	syr.traineddata
tam	坦米爾語	tam.traineddata
tel	泰盧固語	tel.traineddata
tgk	塔吉克語	tgk.traineddata
tgl	塔加洛語	tgl.traineddata
tha	泰語	tha.traineddata
tir	提格里尼亞語	tir.traineddata
tur	土耳其語	tur.traineddata
uig	維吾爾語	uig.traineddata
ukr	烏克蘭語	ukr.traineddata
urd	烏爾都語	urd.traineddata
uzb	烏茲別克語	uzb.traineddata
uzb_cyrl	烏茲別克語 - 西里爾文	uzb_cyrl.traineddata
vie	越南語	vie.traineddata
yid	意第緒語	yid.traineddata

traineddata 檔案的格式

每個語言的 traineddata 檔案都是 Tesseract 特定格式的封存檔案。它包含 Tesseract OCR 流程所需的幾個未壓縮的元件檔案。combine_tessdata 程式用於從元件檔案建立 tessdata 檔案，也可以像以下範例一樣再次提取它們

2016 年 11 月的 4.0.0 之前的格式（同時具有 LSTM 和舊版模型）

combine_tessdata -u eng.traineddata eng.
Extracting tessdata components from eng.traineddata
Wrote eng.unicharset
Wrote eng.unicharambigs
Wrote eng.inttemp
Wrote eng.pffmtable
Wrote eng.normproto
Wrote eng.punc-dawg
Wrote eng.word-dawg
Wrote eng.number-dawg
Wrote eng.freq-dawg
Wrote eng.cube-unicharset
Wrote eng.cube-word-dawg
Wrote eng.shapetable
Wrote eng.bigram-dawg
Wrote eng.lstm
Wrote eng.lstm-punc-dawg
Wrote eng.lstm-word-dawg
Wrote eng.lstm-number-dawg
Wrote eng.version
Version string:Pre-4.0.0
1:unicharset:size=7477, offset=192
2:unicharambigs:size=1047, offset=7669
3:inttemp:size=976552, offset=8716
4:pffmtable:size=844, offset=985268
5:normproto:size=13408, offset=986112
6:punc-dawg:size=4322, offset=999520
7:word-dawg:size=1082890, offset=1003842
8:number-dawg:size=6426, offset=2086732
9:freq-dawg:size=1410, offset=2093158
11:cube-unicharset:size=1511, offset=2094568
12:cube-word-dawg:size=1062106, offset=2096079
13:shapetable:size=63346, offset=3158185
14:bigram-dawg:size=16109842, offset=3221531
17:lstm:size=5390718, offset=19331373
18:lstm-punc-dawg:size=4322, offset=24722091
19:lstm-word-dawg:size=7143578, offset=24726413
20:lstm-number-dawg:size=3530, offset=31869991
23:version:size=9, offset=31873521

4.00.00alpha 僅限 LSTM 的格式

combine_tessdata -u eng.traineddata eng.
Extracting tessdata components from eng.traineddata
Wrote eng.lstm
Wrote eng.lstm-punc-dawg
Wrote eng.lstm-word-dawg
Wrote eng.lstm-number-dawg
Wrote eng.lstm-unicharset
Wrote eng.lstm-recoder
Wrote eng.version
Version string:4.00.00alpha:eng:synth20170629:[1,36,0,1Ct3,3,16Mp3,3Lfys64Lfx96Lrx96Lfx512O1c1]
17:lstm:size=11689099, offset=192
18:lstm-punc-dawg:size=4322, offset=11689291
19:lstm-word-dawg:size=3694794, offset=11693613
20:lstm-number-dawg:size=4738, offset=15388407
21:lstm-unicharset:size=6360, offset=15393145
22:lstm-recoder:size=1012, offset=15399505
23:version:size=80, offset=15400517

壓縮 traineddata 檔案的提案

有一些提案要用標準封存格式取代 Tesseract 封存格式，該格式也可以支援壓縮。[在 tesseract-dev 論壇上的討論](https://groups.google.com/forum/?hl=en#!searchin/tesseract-dev/zip

sort:date/tesseract-dev/U5HSugUeeeI) 在 2014 年就已提出 ZIP 格式。在 2017 年，提供了一個實驗性實作作為提取請求。