跳至內容。

Tesseract 使用者手冊

本使用者手冊適用於 Tesseract 版本 5.x。對於版本 4.x.x3.05.02 和更舊的版本,請參閱舊版本的說明文件

簡介

Tesseract 是一個開源的文字辨識 (OCR) 引擎,以 Apache 2.0 授權條款提供。

Tesseract 可以直接透過命令列使用,或者(對於程式設計人員)使用API從影像中提取列印的文字。它支援多種語言。Tesseract 沒有內建的 GUI,但是可以從第三方頁面取得幾個。Tesseract 的外部工具、封裝和訓練專案列在AddOns下。

Tesseract 可以在您自己的專案中使用,並受Apache License 2.0條款約束。它具有功能齊全的 API,並且可以為包括 Android 和 iPhone 在內的各種目標編譯。請參閱第三方AddOns頁面,了解已完成的範例。

如果您有疑問,請先閱讀說明文件,特別是 常見問題,看看您的問題是否已在那裡解決。如果沒有,請搜尋問題列表Tesseract 使用者論壇,如果仍然找不到您需要的資訊,請在Tesseract 使用者論壇 Google 群組中提問。

Tesseract 是免費軟體,因此如果您想參與並提供協助,請務必參與!如果您發現錯誤並自行修正,最好的做法是將修補程式附加到您在問題列表中的錯誤報告中。

發布和變更日誌

搭配 LSTM 的 Tesseract

Tesseract 4.0 新增了一個基於 LSTM 神經網路的新 OCR 引擎。它在 x86/Linux 上運作良好,並有適用於100 多種語言和 35 多種腳本的官方語言模型資料。有關更多詳細資訊,請參閱4.0x-變更日誌

5.x.x

原始碼

Tesseract 5.x.x 的原始碼可在存放庫main 分支中取得。main 分支使用 5.0.0 semver 版本控制,因為 C++ 程式碼現代化導致與 4.x 版本不相容的 API。

二進位檔

二進位檔可從

訓練資料檔案

有關不同類型模型的詳細資訊,請參閱資料檔案

版本 4.00 的模型檔案可從標記為 4.00 的 tessdata取得。它具有 2016 年 11 月的模型。個別語言檔案連結可從以下連結取得。

版本 4.0.0 和更高版本的模型檔案可從標記為 4.0.0 的 tessdata取得。它具有 2017 年 9 月的舊模型,已使用 tessdata_best LSTM 模型的整數版本進行更新。此訓練資料檔案集支援具有 --oem 0 的舊版辨識器和具有 --oem 1 的 LSTM 模型。這些模型可從以下 Github 儲存庫取得。

在以下 Github 儲存庫中提供了另外兩組由 Google 訓練的 官方訓練資料。這些沒有舊模型,只有適用於 --oem 1 的 LSTM 模型。

與版本 4.0.0 上列出的相同的語言模型訓練資料檔案可以用於 Tesseract 5.x.x。這些可從以下位置取得

編譯與安裝

使用方式

API 範例

技術資訊

Tesseract 5 的訓練

使用 tesstrain.sh 進行訓練(又名 Tesseract 4 訓練)不受支援/已放棄。請使用tesseract-ocr/tesstrain中的腳本進行訓練。

測試

外部專案

舊版本的使用者手冊