Ho letto con interesse i suggerimenti riportati nell’articolo sul software Some PDF to HTML in grado di convertire PDF in pagine Web. Il mio problema però è quello di acquisire una ventina di pagine, aggiornarle in alcune parti e poterle …
Ho letto con interesse i suggerimenti riportati nell’articolo sul
software Some
PDF to HTML in grado di convertire PDF in pagine Web. Il mio problema però
è quello di acquisire una ventina di pagine, aggiornarle in alcune parti e poterle poi inviare senza intasare i computer. Per esempio, è
possibile scaricare dalla rete in formato PDF un intero libro e l’occupazione
è solo di pochi KB. Come si può ottenere in pratica un risultato
così?
Se quel che occorre è apportare modifiche ai PDF scaricati prima di
rispedirli, è necessario passare per un formato intermedio che ben si
presti al text editing. In questo senso, rispetto all’HTML, è da
preferire un formato più congeniale a un word processor, come TXT, RTF
o DOC.
Lo stesso produttore di Some PDF to HTML sviluppa un analogo strumento, denominato
Some
PDF to Word, anch’esso gratuito, che fa proprio quello che il nome
suggerisce. Il testo viene riconosciuto, ma con alcuni degli errori e difetti
tipici di un programma OCR, come le spaziature imperfette, parole interrotte
da spazi inesistenti e così via. Il risultato è sì editabile,
ma a correzioni completate se si genera un nuovo PDF a partire dal documento
Word modificato si rischia di ottenere un risultato distante dall’originale
di partenza, dal punto di vista dello stile, dei font e del layout.
Se l’aspetto estetico non interessa, tanto vale rivolgersi a Some PDF
to TXT, dello stesso autore, che, avendo come obiettivo soltanto l’estrazione
del testo senza formattazione, rinuncia completamente a rispettare posizioni
e spaziature e produce, se non altro, il testo corretto.
Il problema che accomuna la maggior parte dei software che estraggono testo
o DOC modificabile da un PDF sta nel fatto che questi programmi devono, di fatto,
lavorare quasi come un OCR, ossia devono “osservare” il risultato
e da questa osservazione grafica devono dedurre formato e disposizione del testo.
Avendo a disposizione il PDF, se non altro non sono costretti a dedurre i singoli
caratteri dalla forma dei relativi glifi, ma possono trovarli direttamente nelle
istruzioni PostScript contenute nel PDF stesso, per cui, quanto meno, l’accuratezza
di riconoscimento del testo è ottima (a meno che il PDF di origine non
fosse una scannerizzazione di un testo, nel qual caso non contiene informazioni
testuali ma solo un’immagine più o meno compressa e il convertitore
deve lavorare come un OCR).