Tesseract 使用者手冊
本使用者手冊適用於 Tesseract 版本 5.x
。對於版本 4.x.x
、3.05.02
和更舊版本,請參閱舊版本的說明文件。
簡介
Tesseract 是一個開源的文字辨識 (OCR)引擎,以Apache 2.0 授權釋出。
- 主要版本 5 是目前的穩定版本,於 2021 年 11 月 30 日發佈5.0.0版本開始。
- 較新的次要版本和錯誤修復版本可從GitHub取得。
- 最新的原始碼可從GitHub 上的 main 分支取得。未解決的問題可以在問題追蹤器中找到,以及規劃文件。
Tesseract 可以直接透過命令列使用,或者(對於程式設計人員)可以使用API從圖片中擷取列印文字。它支援多種語言。 Tesseract 沒有內建的 GUI,但可以從第三方頁面取得多種 GUI。Tesseract 的外部工具、包裝程式和訓練專案列於AddOns 下。
根據Apache License 2.0的條款,Tesseract 可以用於您自己的專案中。它具有功能齊全的 API,並且可以為各種目標進行編譯,包括 Android 和 iPhone。請參閱第三方和AddOns頁面,以查看使用它完成的範例。
如果您有問題,請先閱讀說明文件,特別是常見問題,看看您的問題是否在那裡有解答。如果沒有,請搜尋問題列表、Tesseract 使用者論壇,如果您仍然找不到您需要的內容,請在Tesseract 使用者論壇 Google 群組中提出您的問題。
Tesseract 是免費軟體,所以如果您想投入並提供幫助,請隨時加入!如果您發現錯誤並自行修復,最好的方法是將修補程式附加到您在問題列表中的錯誤報告中。
發行版本與變更日誌
搭配 LSTM 的 Tesseract
Tesseract 4.0 加入了基於 LSTM 神經網路的新 OCR 引擎。 它在 x86/Linux 上使用官方語言模型資料效果良好,適用於100 多種語言和 35 多種腳本。 詳情請參閱4.0x-變更日誌。
5.x.x
原始碼
Tesseract 5.x.x 原始碼位於儲存庫的 main
分支中。main
分支使用 5.0.0
semver 版本控制,因為 C++ 程式碼現代化導致 API 與 4.x 版本不相容。
二進制檔
二進制檔可從以下位置取得
Traineddata 檔案
有關不同類型模型的詳細資訊,請參閱資料檔案。
版本 4.00
的模型檔案可從tessdata 標籤 4.00取得。它具有 2016 年 11 月的模型。單獨的語言檔案連結可從以下連結取得。
版本 4.0.0
及更高版本的模型檔案可從tessdata 標籤 4.0.0取得。它具有 2017 年 9 月的舊版模型,這些模型已使用 tessdata_best
LSTM 模型的整數版本更新。此組 traineddata 檔案同時支援使用 --oem 0
的舊版辨識器和使用 --oem 1
的 LSTM 模型。這些模型可從以下 Github 儲存庫取得。
在以下 Github 儲存庫中,提供了另外兩組在 Google 訓練的 官方
traineddata。這些沒有舊版模型,只有可與 --oem 1
一起使用的 LSTM 模型。
與上面列出的版本 4.0.0
相同的語言模型 traineddata 檔案可以與 Tesseract 5.x.x
一起使用。 這些可從以下位置取得
編譯與安裝
使用方式
API 範例
技術資訊
- 歷史技術文件
- Tesseract 的 API/ABI 變更審查
- 手冊頁面
- Doxygen 產生的原始碼文件
- Tesseract 中的神經網路
- VGSL 規格
- 來自 Tensorflow 的 VGSL 規格資訊
- tessdata_fast 模型的網路規格
- tessdata_best 模型的網路規格
- DAS 2016 教學投影片 投影片#2、#6、#7 具有關於 Tesseract 4.0x 中 LSTM 整合的資訊。
- Tesseract OpenCL - 實驗性
Tesseract 5 的訓練
使用 tesstrain.sh
進行訓練(又名 Tesseract 4 訓練)不受支援/已放棄。 請使用來自 tesseract-ocr/tesstrain 的腳本進行訓練。
- 使用來自單行圖像和 Groundtruth 轉錄的 make 訓練 Tesseract LSTM
- 訓練 LSTM Tesseract 5 - 基於 Ray Smith 的詳細 Tesseract 4 教學與指南