如需 Tesseract 和其他第三方專案的 GUI 介面,請參閱 使用者專案 - 第三方
Tesseract 的外部工具、封裝器和訓練專案
Tesseract Box 編輯器和訓練工具
平台支援取決於使用的語言和使用者經驗。
適用於 Tesseract 版本 4 及以上
Box 檔案編輯器
適用於 Tesseract 3.0x
Box 檔案編輯器
名稱 | 最後更新 | 語言 | 多頁支援 |
---|---|---|---|
jTessBoxEditor | 2023 | Java | 是 |
QT Box Editor | 2019 | C++、Qt4/Qt5 | 是 |
tesseract-box-editor | 2013 | .NET 4 | 是 |
Tesseract-OCR boxfile AJAX 編輯器 | 2012 | 線上工具 | |
cowboxer | 2012 | C++、Qt4 | 否 |
moshPyTT | 2011 | Python、GTK2 | 否 |
pytesseracttrainer | 2011 | Python、GTK2 | 否 |
適用於 Tesseract-OCR 2.0x
Box 檔案編輯器
名稱 | 最後更新 | 語言 |
---|---|---|
Tesseract-OCR boxfile AJAX 編輯器 | 2012 | 線上工具 |
owlboxer | 2010 | C++、Qt4 |
Tessboxer | 2009 | .NET |
boxfilereader.php | 2009 | php |
tessboxes | 2008 | C |
JTesseract | 2008 | C# |
wx-tetra | 2008 | perl, wx |
bbtesseract | 2008 | VB.NET 2008 |
其他訓練工具
-
jTessBoxEditor - Box 編輯器和訓練工具
- MzTesseract - MS Windows 程式,可以從頭到尾訓練新的語言
- FrankenPlus - 從頁面影像為 Tesseract OCR 引擎建立字型訓練的工具。關於 Franken+ 的更多資訊,請參閱 IT’S ALIVE! 和 Franken+ 首頁。
- python-tesseract-3.02-training - 自動產生 Tesseract 3.02 訓練檔案的腳本
- tesseract-box-file - autoit 腳本,使編輯 box 檔案更容易
- Serak Tesseract Trainer for Tesseract 3.02 - 用於訓練 tesseract 3.02 的前端 GUI
- BoxMaker 是用於產生影像和 box 配對的線上工具。離線版本可在 PersianOCR 專案的下載區取得
- boxFactory 是一個用於快速建立 box 檔案來訓練 Tesseract OCR 引擎的工具。您只需在影像周圍繪製方框即可識別影像中的字元。
- https://github.com/BaltoRouberol/TesseractTrainer - TesseractTrainer 是一個簡單的 Python API,接管手動訓練 Tesseract3 的繁瑣過程
- tess_school - 一組方便的腳本,使 tesseract 訓練過程更容易
- txt2img - 基於文字輸入產生影像和 box 檔案的 Qt GUI 應用程式
- DangAmbigs Generator - 給定一組 OCR 文字輸出和正確文字,自動建立 DangAmbigs 檔案。需求: Python
- train.ps1 - 用於自動化 Tesseract 3.01 語言資料包產生過程的 Windows powershell 腳本。
- 更新 unicharambigs.exe - 用於編輯「lang.unicharambigs」檔案的小型 (windows) C# 程式
- train_tess.pl - 用於促進訓練的 perl 腳本
- boxedit - 用於 Tesseract box 檔案的網頁式編輯器
- TrainYourTesseract - 免費線上「無憂」TTF 檔案到 trainedata 轉換器
社群訓練專案
- Tesseract-MICR-OCR:https://github.com/BigPino67/Tesseract-MICR-OCR
- MRZ:https://groups.google.com/group/tesseract-ocr/attach/10d7c711c9cc80/mrz.traineddata
- Latin:https://github.com/ryanfb/latinocr-lattraining
- tesseract-georgian:https://github.com/ddohler/tesseract-georgian
- 波蘭哥德體:IMPACT 專案的訓練結果,訓練資料集
- 古希臘文:http://ancientgreekocr.org
- 印度語:http://code.google.com/p/tesseractindic/, https://github.com/debayan/Tesseract-Indic-OCR/, http://code.google.com/p/parichit/ (均已過時)
- Indic-OCR http://indic-ocr.github.io/tessdata/
- 愛爾蘭安色爾體:https://github.com/jimregan/tesseract-gle-uncial
- 波蘭語:http://code.google.com/p/tesseract-polish/
- 哥德體 (dan, deu, swe):https://github.com/paalberti/tesseract-dan-fraktur
- 緬甸語:http://code.google.com/p/myaocr/
- 波斯語 (Farsi):https://github.com/reza1615/PersianOcr
- 7 段字型:https://github.com/arturaugusto/display_ocr/tree/master/letsgodigital
移植
- Project Naptha
- tesseract.js-core - Tesseract C++ API 的 Emscripten 移植
- tesseract.js - 純 Javascript OCR
Tesseract 封裝器
Tesseract 4.0x
Java
- tess4j - JNA 封裝器。文件和討論 - http://tess4j.sourceforge.net/
- bytedeco - 基於 JavaCPP-Presets 程式庫的 Tesseract Java 設定和介面類別,來自 https://bytedeco.org
Python
- tesserocr - Tesseract C++ API 的 Python 封裝器
- pytesseract - Tesseract OCR 的封裝類別 (需要 tesseract 可執行檔)
- tesseract-ocr-wrapper - 用於 tesseract-ocr 的 python 封裝器,支援 pdf 的 OCR
- aiopytesseract - 用於 Tesseract-OCR 的 asyncio tesseract 封裝器。
- image2text - 用於 tesseract 的 python 封裝器,用於處理大型資料集和目錄。
Objective-C
Swift
- swiftytesseract Swift 封裝器
Flutter
- tesseract_ocr Flutter 外掛程式
R
- tesseract R 程式設計語言 C++ API 的繫結
Ruby
- rtesseract Tesseract OCR 的封裝 gem (需要 tesseract 可執行檔)
Rust
- rusty-tesseract Tesseract OCR 的封裝類別 (需要 tesseract 可執行檔;基於 pytesseract)
Elixir
Crystal
Tesseract 3.0x
C
- Tesseract 3.02 及更新版本包含 C API
.Net
Python
- tesserocr - Tesseract C++ API 的 Python 封裝器
- pyocr - 用於 Tesseract (和 Cuneiform) 的 Python 封裝器
- tesserwrap - Tesseract API 的 Python 繫結
- tesseract-sip - libtesseract 的 python SIP 封裝器 (Apache 授權)
- pytesseract - Tesseract OCR 的封裝類別 (需要 tesseract 可執行檔)
- python-tesseract - 允許任何傳統影像檔案的 Tesseract OCR 封裝類別 (基於 SWIG)
- http://code.google.com/p/pytess/ - Tesseract 的簡單基於 SWIG 的介面
- aiopytesseract - 用於 Tesseract-OCR 的 asyncio tesseract 封裝器。
R
- tesseract R 程式設計語言 C++ API 的繫結
Ruby
- ruby-tesseract-ocr - 使用 C++ API 的 tesseract 3.0x 封裝器
- rtesseract
Java
- bytedeco - 基於 ‘JavaCPP-Presets’ 程式庫的 Tesseract Java 設定和介面類別,來自 https://bytedeco.org - https://github.com/bytedeco/javacpp-presets
- tess4j - JNA 封裝器。文件和討論 - http://tess4j.sourceforge.net/
Node.js
- penteract - Tesseract OCR 專案的原生 node.js 繫結。
PHP
Objective-C
Go
Clojure
Tesseract 2.0x
Python
- http://code.google.com/p/pytesser/
- http://code.google.com/p/tesseract-python (pytesser 複製品)
.NET
- http://www.pixel-technology.com/freeware/tessnet2/
Java
- tess4j (0.4) - JNA 封裝器。文件和討論 - http://tess4j.sourceforge.net/