
Introduzione
I file PDF scansionati spesso memorizzano il testo come immagini, il che rende impossibile selezionare, modificare o copiare il contenuto. Se hai bisogno di convertire PDF scansionati in documenti Word modificabili, la tecnologia di Riconoscimento Ottico dei Caratteri (OCR) offre un modo efficiente per estrarre il testo preservando il formato originale. In questo articolo, imparerai come convertire programmaticamente PDF scansionati in Word (DOCX o DOC) utilizzando C# con le librerie Aspose.OCR per .NET e Aspose.Words per .NET.
Perché convertire PDF scansionati in Word?
Ci sono diverse ragioni convincenti per convertire PDF scansionati in documenti Word:
- Modifica facilmente documenti scansionati: Modifica il testo senza il fastidio di doverlo riscrivere manualmente.
- Estrai testo per ulteriori elaborazioni: Usa il testo estratto per analisi o altre applicazioni.
- Mantieni layout e formattazione: Conserva la struttura del documento originale rendendolo modificabile.
- Automatizza l’elaborazione dei documenti basata su OCR: Integra questa funzionalità nelle tue applicazioni C# senza problemi.
Indice
- Impostare l’API OCR per la conversione da PDF scansionato a Word
- Convertire PDF scansionato in documento Word modificabile
- Preservare la formattazione nella conversione OCR
- Gestire più pagine nei PDF scansionati
- Licenza per la massima accuratezza OCR
- Conclusione e risorse aggiuntive
1. Impostare l’API OCR per la conversione da PDF scansionato a Word
Per estrarre testo dai PDF scansionati e convertirli in documenti Word, utilizzeremo:
- Aspose.OCR per .NET – Uno strumento potente che riconosce il testo da immagini scansionate.
- Aspose.Words per .NET – Questa libreria converte il testo estratto nel formato Word.
Installazione
Puoi facilmente installare queste API tramite NuGet con i seguenti comandi:
PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words
In alternativa, puoi scaricare i DLL dalla Pagina di Download di Aspose.
2. Convertire PDF scansionato in documento Word modificabile
Segui questi passaggi per convertire file PDF scansionati in Word (DOCX o DOC) in C#:
- Inizializza OCR con
AsposeOcr
. - Estrai testo utilizzando
DocumentRecognitionSettings
. - Memorizza il testo riconosciuto in un
StringBuilder
. - Crea un documento Word utilizzando
Aspose.Words
. - Applica formattazione e salva come DOCX o DOC.
Esempio di Codice
Ecco un esempio in C# che dimostra la conversione da PDF scansionato a Word:
3. Preservare la formattazione nella conversione OCR
Sebbene l’estrazione di testo OCR sia potente, potrebbe non sempre preservare la formattazione originale, i caratteri e gli stili. Per garantire una formattazione accurata, considera i seguenti suggerimenti:
- Utilizza gli stili di paragrafo di Aspose.Words per applicare una formattazione testuale coerente.
- Imposta le proprietà del carattere come dimensione, grassetto, corsivo e allineamento.
- Regola i margini e il layout della pagina per un output migliorato del documento Word.
4. Gestire più pagine nei PDF scansionati
Per i PDF scansionati a più pagine, è fondamentale elaborare e unire il testo di tutte le pagine in un unico documento Word. Per raggiungere questo obiettivo:
- Ciclo attraverso ogni pagina nel PDF scansionato.
- Riconosci il testo per pagina e memorizzalo in un
StringBuilder
. - Aggiungi il testo riconosciuto al documento Word.
Questo approccio garantisce una conversione senza soluzione di continuità da PDF a Word a più pagine.
5. Licenza per la massima accuratezza OCR
Per impostazione predefinita, Aspose.OCR opera in modalità di valutazione, il che può limitare l’accuratezza del riconoscimento del testo. Per sbloccare il pieno potenziale dell’API:
🔹 Richiedi una Licenza Temporanea Gratuita per scopi di valutazione.
6. Conclusione e risorse aggiuntive
Riepilogo
In questa guida, abbiamo trattato:
✅ Impostare Aspose.OCR per l’elaborazione di PDF scansionati
✅ Estrarre testo da PDF scansionati in C#
✅ Convertire testo riconosciuto in un documento Word formattato
✅ Gestire la conversione da PDF scansionato a Word a più pagine
Sfruttando Aspose.OCR e Aspose.Words, puoi facilmente convertire PDF basati su immagini in file Word modificabili. Inizia a costruire il tuo convertitore da PDF a Word basato su OCR in .NET oggi per soli $99! 🚀