Box 檔案 (Tesseract 4.1.1, Tesseract 5.0.0)
LSTM 訓練接受多種 box 檔案格式,但它們與 Tesseract 3 使用的格式不同。
text2image
由 text2image
使用 Unicode 字體和訓練文本
產生。
I 114 4655 120 4691 0
n 127 4655 150 4682 0
f 152 4655 169 4692 0
o 168 4654 193 4682 0
r 197 4654 213 4681 0
m 214 4654 250 4681 0
a 255 4654 280 4681 0
t 282 4654 295 4689 0
i 298 4654 304 4690 0
o 308 4654 333 4681 0
n 337 4654 360 4681 0
360 4653 378 4691 0
G 378 4653 413 4691 0
r 418 4653 434 4680 0
o 434 4653 459 4680 0
u 463 4653 486 4679 0
p 491 4643 515 4680 0
s 517 4653 540 4680 0
540 4653 555 4690 0
lstmbox
由 tesseract
使用圖片檔的 lstmbox
設定產生 - 每個字元使用其整行的座標。此格式也由 tesstrain
makefile 產生。
I 114 4640 1912 4692 0
n 114 4640 1912 4692 0
f 114 4640 1912 4692 0
o 114 4640 1912 4692 0
r 114 4640 1912 4692 0
m 114 4640 1912 4692 0
a 114 4640 1912 4692 0
t 114 4640 1912 4692 0
i 114 4640 1912 4692 0
o 114 4640 1912 4692 0
n 114 4640 1912 4692 0
114 4640 1912 4692 0
G 114 4640 1912 4692 0
r 114 4640 1912 4692 0
o 114 4640 1912 4692 0
u 114 4640 1912 4692 0
p 114 4640 1912 4692 0
s 114 4640 1912 4692 0
114 4640 1912 4692 0
wordstrbox
由 tesseract
使用圖片檔的 wordstrbox
設定產生 - 使用整行的 Wordstr
、座標和文字。此格式也由 tesstrain
makefile 為印度文字產生。Wordstr 格式的 box 檔案使建立和校正 box 檔案更容易,特別是對於複雜的文字。
WordStr 114 4640 1907 4692 0 #Information Groups for public OPTIONAL, jaundice Proterozoic Have LOCATION
1908 4640 1912 4692 0
WordStr 112 4544 2015 4592 0 #mixed, Male By TEXT Cove... ¥ INSTABILITY About WERE Crimson THAT HOPKINS
2016 4544 2020 4592 0
請參閱下方天城文腳本的範例。
WordStr 0 0 235 28 0 #मनुष्यबाह्यगतये कृतज्ञाय शिखण्डिने
0 0 235 28 0
請注意,使用 makebox
設定檔產生的 box 檔案適用於訓練舊版模型,但不適用於 LSTM 訓練。
請參閱建立訓練資料
章節以了解更多詳細資訊。