輸入格式
支援的輸入格式
Tesseract 使用 Leptonica 函式庫讀取以下格式的圖像
- PNG - 需要 libpng, libz
- JPEG - 需要 libjpeg / libjpeg-turbo
- TIFF - 需要 libtiff, libz
- JPEG 2000 - 需要 libopenjp2
- GIF - 需要 libgif (giflib)
- WebP 需要 libwebp
- BMP - 不需要函式庫*
- PNM - 不需要函式庫*
* 除了 Leptonica
不支援的輸入格式
如果 Tesseract 不支援某種檔案格式,您應該使用第三方軟體將其轉換為 Tesseract 支援的另一種格式。
Tesseract 不支援讀取 PDF 檔案。
如果您需要對 PDF 檔案進行 OCR,您應該將其轉換為其他格式,或使用 OCRmyPDF。
注意:Tesseract 支援 PDF 作為輸出格式。
動畫 WebP
Tesseract 不支援讀取動畫 WebP 檔案。
動畫 GIF
Tesseract 不支援讀取動畫 GIF 檔案。
如果給定此類檔案,Tesseract 將僅讀取檔案中包含的圖像序列中的第一個圖像。
其他格式
Tesseract 不支援以下圖像格式
- HEIC
- AVIF
- JPEG-XL