Tesseract

У этого термина существуют и другие значения, см. Tesseract (значения).

Tesseract

Тип

оптическое распознавание символов

Разработчики

Hewlett-Packard, Google

C++

Linux, Mac OS X и др. UNIX-подобные, Windows

Первый выпуск

середина 1980-х

Последняя версия

5.3.4 (18 января 2024)^[1]

Репозиторий

github.com/tesseract-ocr…

Читаемые форматы файлов:
TIFF, PNG, JFIF^[d], JP2^[d] и WebP

Создаваемые форматы файлов:
HOCR, текстовый файл, PDF, ALTO^[d] и TSV

Лицензия

Apache 2.0

Сайт

github.com/tesseract-ocr…

Медиафайлы на Викискладе

Tesseract (с англ. — «тессеракт», от др.-греч. τέσσαρες ἀκτῖνες — «четыре луча») — свободная компьютерная программа для распознавания текстов, разрабатывавшаяся Hewlett-Packard с середины 1980-х по середину 1990-х, а затем 10 лет «пролежавшая на полке». В августе 2006 г. Google купил её и открыл исходные тексты под лицензией Apache 2.0^[2] для продолжения разработки. В настоящий момент программа уже работает с UTF-8, поддержка языков (включая русский с версии 3.0^[3]^[4]) осуществляется с помощью дополнительных модулей.

История

Ядро программы Tesseract было разработано в Бристольской лаборатории Hewlett Packard и в Hewlett Packard Co, Greeley штат Колорадо в 1985—1994 годах. В 1996 были проведены значительные изменения и подготовлен порт для Windows. Затем, с 1998 года — частичная миграция с C на C++. Значительная часть кода изначально написана на C, но проводились доработки для совместимости с C++ компиляторами.^[2]

В настоящее время Tesseract 3.0 собирается под Linux с GCC 2.95 и старше и под Windows с Visual C++ 2008 Express и старше (поддержка Visual C++ 6 была удалена в версии 3.0^[3]).

На данный момент последней версией является Tesseract 5.0, основанная на LSTM^[5].

Графические интерфейсы для Tesseract

Для Linux

YAGF
OCRFeeder
gImageReader

Для Windows

gImageReader
FreeOCR
PDF24

Сайты на базе движка Tesseract

Распознавание текста в изображениях
Free Online OCR

Зависимости

Leptonica

Интересные факты

Программа Tesseract используется менеджером загрузок Tucan Manager для распознавания текстов в тестах CAPTCHA.

Примечания

↑ Release 5.3.4
↑ ¹ ² Vincent, Luc Announcing Tesseract OCR (неопр.) (August 2006). Дата обращения: 26 июня 2008. Архивировано 18 марта 2012 года.
↑ ¹ ² Tesseract 3.00 Released (неопр.). Дата обращения: 5 октября 2010. Архивировано 9 октября 2010 года.
↑ Tesseract Download Page (неопр.). Архивировано 18 марта 2012 года.
↑ TESSERACT(1) Manual Page (англ.). Дата обращения: 12 января 2019. Архивировано 5 мая 2020 года.

Ссылки

Руководство по обучению программы русскому языку
Страница с исходными кодами Tesseract Source
Java/.NET GUI фронтенд для движка Tesseract OCR

Программное обеспечение для оптического распознавания символов

Свободное

CuneiForm
GOCR
Ocrad
OCRopus
Tesseract

Графические интерфейсы	OCRFeeder YAGF

Проприетарное

Cognitive Forms
Expervision
FineReader
Microsoft Office Document Imaging
OmniPage
Readiris
ReadSoft
SimpleOCR
Smart IDReader
SmartScore
ViewWise

Свободное и открытое программное обеспечение Google

Программное обеспечение

Приложения	Chromium OpenRefine Tesseract
Языки программирования	Carbon Dart Go Sawzall
Фреймворки и инструменты разработки	AMP Angular AngularJS Beam Bazel Блокли Closure Tools Cpplint FlatBuffers Flutter Gears Gerrit Guava gRPC Gson Guetzli Guice gVisor Kubernetes LevelDB libvpx NaCl OR-Tools Polymer Protocol Buffers TensorFlow
Операционные системы	AOSP Chromium OS Fuchsia gLinux Goobuntu