OCRopus
software
Schermata di esempio
Schermata di esempio
GenereRiconoscimento ottico dei caratteri
SviluppatoreThomas Breuel, DFKI
Ultima versione1.3.3 (16 dicembre 2017)
Sistema operativoLinux
macOS
LinguaggioC++
Python
LicenzaApache License v2.0
(licenza libera)
Sito webgithub.com/tmbdev/ocropy e github.com/ocropus/ocropy

OCRopus è un software libero di riconoscimento ottico dei caratteri distribuito con la licenza Apache, versione 2.0 con un design modulare attraverso l'uso di plugin.

OCRopus è attualmente sviluppato sotto la guida di Thomas Breuel dal Centro di Ricerca Tedesco per l'Intelligenza Artificiale a Kaiserslautern, il suo sviluppo è sponsorizzato da Google.

OCRopus è sviluppato per Linux tuttavia degli utenti hanno riportato che è possibile utilizzarlo anche su macOS e un'applicazione chiamata TakOCR è stata sviluppata per installare OCRopus su macOS.

Funzionamento

OCRopus è un sistema OCR che combina la document layout analysis, il riconoscimento ottico dei caratteri e la modellizzazione del linguaggio, funzionalità inseribili nel software attraverso dei plugin. Esso è rivolto principalmente alla conversione di grandi volumi di immagini, principalmente per Google Book Search, ma anche per l'ufficio domestico o in ufficio o per persone non vedenti o ipovedenti.

OCRP usava il software Tesseract come unico plugin di riconoscimento dei caratteri ma ha un proprio motore a partire dalla release 0.4[1]. OCRopus contiene anche del codice disabilitato un motore per il riconoscimento della scrittura (a mano).

Il plugin di analisi del layout di OCRopus preprocessi l'immagine e analizza il layout suddividendo il documento scannerizzato e passando le sezioni al plugin di riconoscimento dei caratteri per il riconoscimento (che può avvenire linea per linea o carattere per carattere).

All'ultima versione, OCRopus usa il codice di modellizzazione del linguaggio da un altro progetto sponsorizzato da Google OpenFST[2], tale funzionalità è opzionale nelle versioni precedenti la 0.4.

Uso

Attualmente OCRopus può essere usato solo da riga di comando. una volta installato può essere invocato specificando le pagine di input e produce codice basato sull'HTML come output sullo standard output. Delle opzioni possono essere specificate per modificare il funzionamento del programma (come il riconoscimenti di linee singole).

Vedere anche

Note

Altri progetti

  Portale Informatica: accedi alle voci di Wikipedia che trattano di Informatica