Google fa rinascere Tesseract OCR

Michele Nasi - www.ilsoftware.it -

6 Settembre 2006

Nato nel 1985 in casa Hp, il progetto rinasce per volontà di Google. Con qualche dubbio per quanto riguarda le licenze d’uso di alcuni componenti.

C’era una volta un progetto, nato – in collaborazione con HP –
all’Università del Nevada, Las Vegas.
Era il 1985.
L’obiettivo
consisteva nello sviluppare un OCR (sistema di riconoscimento ottico dei
caratteri) che operasse correttamente con tutti i generi di testo stampato.

“Tesseract OCR“, questo il nome del progetto, con la diffusione
del web cominciò paradossalmente a perdere terreno probabilmente soprattutto a
causa della riorganizzazione di HP.

Vent’anni dopo arrivò Google.
Il
colosso di Mountain View nel 2005 ha deciso di far rinascere il progetto
Tesseract OCR contribuendovi con aggiornamenti ed interventi correttivi tanto
che il mese scorso l’azienda ha posto le basi per il rilascio di una nuova
versione del software.
I problemi di fondo sono però due: il primo riguarda
la licenza d’uso.
Tesseract, infatti, sfrutta un componente gratuito
denominato Aspirin/MIGRAINES, creato dall’ingegnere Russell Leighton.

Aspirin non è un prodotto opensource: ciò potrebbe causare qualche
impedimento per gli sviluppatori che volessero integrare Tesseract nei
rispettivi applicativi.

Il secondo problema riguarda le abilità di
riconoscimento dei caratteri: Tesseract è considerato come l’OCR più performante
mai sviluppato sino ad oggi ma presenta diverse lacune nell’interpretare
correttamente caratteri speciali, non standard o comunque non facenti parte
dell’alfabeto inglese.