Tesseract 使用者手冊
本使用者手冊適用於 Tesseract 版本 5.x
。對於版本 4.x.x
、 3.05.02
和更舊的版本,請參閱舊版本的說明文件。
簡介
Tesseract 是一個開源的文字辨識 (OCR) 引擎,以 Apache 2.0 授權條款提供。
- 主要版本 5 是目前的穩定版本,於 2021 年 11 月 30 日發布5.0.0版本開始。
- 更新的次要版本和錯誤修復版本可從GitHub取得。
- 最新的原始碼可從 GitHub 的 main 分支取得。未解決的問題可以在問題追蹤器中找到,以及規劃文件。
Tesseract 可以直接透過命令列使用,或者(對於程式設計人員)使用API從影像中提取列印的文字。它支援多種語言。Tesseract 沒有內建的 GUI,但是可以從第三方頁面取得幾個。Tesseract 的外部工具、封裝和訓練專案列在AddOns下。
Tesseract 可以在您自己的專案中使用,並受Apache License 2.0條款約束。它具有功能齊全的 API,並且可以為包括 Android 和 iPhone 在內的各種目標編譯。請參閱第三方和AddOns頁面,了解已完成的範例。
如果您有疑問,請先閱讀說明文件,特別是 常見問題,看看您的問題是否已在那裡解決。如果沒有,請搜尋問題列表、Tesseract 使用者論壇,如果仍然找不到您需要的資訊,請在Tesseract 使用者論壇 Google 群組中提問。
Tesseract 是免費軟體,因此如果您想參與並提供協助,請務必參與!如果您發現錯誤並自行修正,最好的做法是將修補程式附加到您在問題列表中的錯誤報告中。
發布和變更日誌
搭配 LSTM 的 Tesseract
Tesseract 4.0 新增了一個基於 LSTM 神經網路的新 OCR 引擎。它在 x86/Linux 上運作良好,並有適用於100 多種語言和 35 多種腳本的官方語言模型資料。有關更多詳細資訊,請參閱4.0x-變更日誌。
5.x.x
原始碼
Tesseract 5.x.x 的原始碼可在存放庫的 main
分支中取得。main
分支使用 5.0.0
semver 版本控制,因為 C++ 程式碼現代化導致與 4.x 版本不相容的 API。
二進位檔
二進位檔可從
訓練資料檔案
有關不同類型模型的詳細資訊,請參閱資料檔案。
版本 4.00
的模型檔案可從標記為 4.00 的 tessdata取得。它具有 2016 年 11 月的模型。個別語言檔案連結可從以下連結取得。
版本 4.0.0
和更高版本的模型檔案可從標記為 4.0.0 的 tessdata取得。它具有 2017 年 9 月的舊模型,已使用 tessdata_best
LSTM 模型的整數版本進行更新。此訓練資料檔案集支援具有 --oem 0
的舊版辨識器和具有 --oem 1
的 LSTM 模型。這些模型可從以下 Github 儲存庫取得。
在以下 Github 儲存庫中提供了另外兩組由 Google 訓練的 官方
訓練資料。這些沒有舊模型,只有適用於 --oem 1
的 LSTM 模型。
與版本 4.0.0
上列出的相同的語言模型訓練資料檔案可以用於 Tesseract 5.x.x
。這些可從以下位置取得
編譯與安裝
使用方式
API 範例
技術資訊
- 歷史技術文件
- Tesseract 的 API/ABI 變更審查
- 手冊頁面
- 由 Doxygen 產生的原始碼文件
- Tesseract 中的神經網路
- VGSL 規格
- 來自 Tensorflow 的 VGSL 規格資訊
- tessdata_fast 模型的網路規格
- tessdata_best 模型的網路規格
- DAS 2016 教學投影片 投影片 #2、#6、#7 包含有關 Tesseract 4.0x 中 LSTM 整合的資訊。
- Tesseract OpenCL - 實驗性
Tesseract 5 的訓練
使用 tesstrain.sh
進行訓練(又名 Tesseract 4 訓練)不受支援/已放棄。請使用tesseract-ocr/tesstrain中的腳本進行訓練。
- 使用從單行影像和 Groundtruth 轉錄產生的 make 訓練 Tesseract LSTM
- 訓練 LSTM Tesseract 5 - 基於 Ray Smith 詳細的 Tesseract 4 教學課程和指南