Tesseract (software)

Abbozzo software libero
Questa voce sull'argomento software libero è solo un abbozzo.
Contribuisci a migliorarla secondo le convenzioni di Wikipedia. Segui i suggerimenti del progetto di riferimento.
Tesseract
software
Logo
Logo
Tesseract 2.03, Ubuntu 9.04 (2009)
Tesseract 2.03, Ubuntu 9.04 (2009)
Tesseract 2.03, Ubuntu 9.04 (2009)
GenereRiconoscimento ottico dei caratteri
SviluppatoreGoogle
Ultima versione5.3.4 (18 gennaio 2024)
Sistema operativoLinux
macOS
Microsoft Windows
OpenBSD
LinguaggioC++
LicenzaLicenza Apache v. 2.0
(licenza libera)
Linguaarabo, bulgaro, catalano, ceco, danese, olandese, hindi, inglese, finnico, esperanto, francese, tedesco, greco, ungherese, indonesiano, italiano, lettone, lituano, norvegese, polacco, portoghese, rumeno, russo, serbo, slovacco, sloveno, spagnolo, svedese, tagalog, tailandese, turco, ucraino, vietnamita
Sito webgithub.com/tesseract-ocr
Modifica dati su Wikidata · Manuale

Tesseract è un software libero per il riconoscimento ottico dei caratteri (OCR) .

Storia

Sviluppato originariamente come software proprietario dalla Hewlett-Packard tra il 1985 e il 1995, non venne più aggiornato nel decennio successivo. Fu poi rilasciato come open source nel 2005 da Hewlett Packard e dall'Università del Nevada a Las Vegas, con la licenza Apache, versione 2.0. Lo sviluppo di Tesseract è attualmente sponsorizzato da Google.

Funzionamento

Come tutti i programmi OCR, anche Tesseract serve a convertire il testo contenuto in un'immagine, ottenuta di solito per mezzo di uno scanner, in caratteri comprensibili ad un elaboratore di testi. I risultati sono molto buoni per quanto riguarda il riconoscimento dei caratteri; manca invece la capacità di mantenere il layout delle pagine, per esempio le tabelle o le colonne. Inizialmente limitato ai soli caratteri ASCII, nell'ottobre 2011 Tesseract supporta i caratteri UTF-8 e riconosce 33 lingue.

Il software inoltre è attualmente utilizzabile da riga di comando digitando, in una finestra di terminale, il seguente comando:

tesseract <percorso del file di immagine> <nome del file di output>

Sarà generato automaticamente un file di testo con estensione «.txt».

Altri progetti

Altri progetti

  • Wikimedia Commons
  • Collabora a Wikimedia Commons Wikimedia Commons contiene immagini o altri file su Tesseract

Collegamenti esterni

  • (EN) Sito ufficiale, su github.com. Modifica su Wikidata
  • (EN) Tesseract, su SourceForge. Modifica su Wikidata
  • Tesseract, su packages.debian.org. Modifica su Wikidata
  • (EN) Tesseract, su GitHub. Modifica su Wikidata
  • Repository sorgenti di Tesseract, su github.com. Modifica su Wikidata
  • (EN) Tesseract, su Free Software Directory. Modifica su Wikidata
  • (EN) Luc Vincent, Announcing Tesseract OCR, Google Code Blog, su google-code-updates.blogspot.com. URL consultato il 4 maggio 2019 (archiviato dall'url originale il 6 novembre 2013).
  Portale Software libero: accedi alle voci di Wikipedia che trattano di Software libero