Tesseract (perangkat lunak)

Artikel utama untuk kategori ini adalah Tesseract (geometri).
Tesseract
Tesseract 3.02 running on Gnome Terminal 3.8.0. "input_image.tif" is the input document which will be rendered as "output_text.txt" by Tesseract.
TipeOCR software dan perangkat lunak bebas dan sumber terbuka
Versi stabil
5.3.4 (18 Januari 2024)
GenreOptical character recognition
LisensiApache License 2.0
Bahasa
Daftar bahasa

Interface: English
Recognition: Afrikaans, Albanian, Arabic, Azerbaijani, Basque, Belarusian, Bengali, Bulgarian, Catalan, Czech, Cherokee, Croatian, Danish, Dutch, English, Esperanto, Estonian, Finnish, French, Galician, German, Greek, Hindi, Hungarian, Indonesian, Italian, Japanese, Kannada, Korean, Latvian, Lithuanian, Malayalam, Macedonian, Maltese, Malay, Norwegian, Polish, Portuguese, Romanian, Russian, Serbian, Slovak, Slovenian, Spanish, Swahili, Swedish, Tagalog, Tamil, Telugu, Thai, Turkish, Ukrainian & Vietnamese (more can be added using included training files)

Karakteristik teknis
Sistem operasiLinux, Windows, and macOS (x86)
Bahasa pemrogramanC++
Format kode
Daftar
hOCR, Berkas teks, PDF, ALTO dan tab-separated values
Format berkas
Daftar
TIFF, Portable Network Graphics, JPEG File Interchange Format (JFIF), JP2 dan WebP
Informasi pengembang
PembuatRay Smith, Hewlett-Packard[1]
PengembangGoogle
Sumber kode
Kode sumberPranala
Debiantesseract-ocr
Arch Linuxtesseract
Ubuntutesseract-ocr
Gentooapp-text/tesseract
Snappytesseract
Informasi tambahan
Situs webgithub.com… (Inggris)
Stack ExchangeEtiqueta
SourceForgetesseract-ocr
Free Software Directorytesseract
Panduan penggunaLaman panduan
GitHub: tesseract-ocr
Sunting di Wikidata Sunting di Wikidata • Sunting kotak info • L • B
Info templat
Bantuan penggunaan templat ini

Dalam perangkat lunak komputer, Tesseract adalah mesin pengenal karakter optik gratis. Tesseract pada awalnya dikembangkan sebagai perangkat lunak berpemilik di Hewlett-Packard antara tahun 1985 hingga 1995. Setelah sepuluh tahun tanpa perkembangan apapun yang terjadi, Hewlett Packard dan UNLV merilis Tesseract sebagai sumber terbuka pada tahun 2005. Tesseract saat ini sedang dikembangkan oleh Google dan dirilis di bawah Lisensi Apache, Version 2.0.

Tesseract dianggap salah satu perangkat lunak mesin OCR bebas yang paling akurat yang tersedia saat ini.[3]

Lihat pula

  • OCRopus
  • Document Layout Analysis

Referensi

  1. ^ Google (2008). "tesseract-ocr". Diakses tanggal 2016-03-08. 
  2. ^ "Releases - tesseract-ocr/tesseract". Diakses tanggal 5 January 2020 – via GitHub. 
  3. ^ Willis, Nathan (2006). "Google's Tesseract OCR engine is a quantum leap forward". Diakses tanggal 2008-07-18.  Parameter |month= yang tidak diketahui akan diabaikan (bantuan)

Pranala luar

  • Tesseract OCR Project page on Google Code
  • Information Science Research Institute at the University of Nevada, Las Vegas Diarsipkan 2010-03-14 di Wayback Machine. Information Science Research Institute at the University of Nevada, Las Vegas
  • http://tesseract-ocr.repairfaq.org/ - C/C++ structure of Tesseract extracted from Doxyfied source code (based on Tesseract V1.03)
  • Archivista Box - A complete GPL document management system based on Tesseract and Linux.
  • Tesseract - Summary - some patches for training on a 64-bit machine.
  • Tesseract OCR Engine Diarsipkan 2010-02-16 di Wayback Machine. What it is, where it came from, where it is going.
  • VietOCR - Java/.NET GUI frontend for Tesseract OCR engine
  • l
  • b
  • s