Tesseract

У этого термина существуют и другие значения, см. Tesseract (значения).
Tesseract
Логотип программы Tesseract
Скриншот программы Tesseract
Тип оптическое распознавание символов
Разработчики Hewlett-Packard, Google
Написана на C++
Интерфейс командная строка
Операционные системы Linux, Mac OS X и др. UNIX-подобные, Windows
Первый выпуск середина 1980-х
Последняя версия
Репозиторий github.com/tesseract-ocr…
Читаемые форматы файлов:
TIFF, PNG, JFIF[d], JP2[d] и WebP
Создаваемые форматы файлов:
HOCR, текстовый файл, PDF, ALTO[d] и TSV
Лицензия Apache 2.0
Сайт github.com/tesseract-ocr…
Логотип Викисклада Медиафайлы на Викискладе

Tesseract (с англ. — «тессеракт», от др.-греч. τέσσαρες ἀκτῖνες — «четыре луча») — свободная компьютерная программа для распознавания текстов, разрабатывавшаяся Hewlett-Packard с середины 1980-х по середину 1990-х, а затем 10 лет «пролежавшая на полке». В августе 2006 г. Google купил её и открыл исходные тексты под лицензией Apache 2.0[2] для продолжения разработки. В настоящий момент программа уже работает с UTF-8, поддержка языков (включая русский с версии 3.0[3][4]) осуществляется с помощью дополнительных модулей.

История

Ядро программы Tesseract было разработано в Бристольской лаборатории Hewlett Packard и в Hewlett Packard Co, Greeley штат Колорадо в 1985—1994 годах. В 1996 были проведены значительные изменения и подготовлен порт для Windows. Затем, с 1998 года — частичная миграция с C на C++. Значительная часть кода изначально написана на C, но проводились доработки для совместимости с C++ компиляторами.[2]

В настоящее время Tesseract 3.0 собирается под Linux с GCC 2.95 и старше и под Windows с Visual C++ 2008 Express и старше (поддержка Visual C++ 6 была удалена в версии 3.0[3]).

На данный момент последней версией является Tesseract 5.0, основанная на LSTM[5].

Графические интерфейсы для Tesseract

Для Linux
Для Windows
  • gImageReader
  • FreeOCR
  • PDF24

Сайты на базе движка Tesseract

  • Распознавание текста в изображениях
  • Free Online OCR

Зависимости

  • Leptonica

Интересные факты

Программа Tesseract используется менеджером загрузок Tucan Manager для распознавания текстов в тестах CAPTCHA.

Примечания

  1. Release 5.3.4
  2. 1 2 Vincent, Luc Announcing Tesseract OCR  (неопр.) (August 2006). Дата обращения: 26 июня 2008. Архивировано 18 марта 2012 года.
  3. 1 2 Tesseract 3.00 Released  (неопр.). Дата обращения: 5 октября 2010. Архивировано 9 октября 2010 года.
  4. Tesseract Download Page  (неопр.). Архивировано 18 марта 2012 года.
  5. TESSERACT(1) Manual Page (англ.). Дата обращения: 12 января 2019. Архивировано 5 мая 2020 года.

Ссылки

  • Руководство по обучению программы русскому языку
  • Страница с исходными кодами Tesseract Source
  • Java/.NET GUI фронтенд для движка Tesseract OCR
Перейти к шаблону «OCR»
Программное обеспечение для оптического распознавания символов
Свободное
Графические интерфейсы
Проприетарное
Перейти к шаблону «Свободное и открытое программное обеспечение Google»
Свободное и открытое программное обеспечение Google
Программное обеспечение
Приложения
Языки программирования
Фреймворки и
инструменты разработки
Операционные системы
Связанное
  • Code-in
  • Google LLC v. Oracle America, Inc.
  • Open Source Security Foundation
  • Summer of Code