Convert Scanned PDF to Word in C#

Introduzione

I file PDF scansionati spesso contengono testo come immagini, rendendo impossibile selezionare, modificare o copiare il contenuto.Se hai bisogno di convertire i file PDF scansionati in documenti Word editabili, la tecnologia Optical Character Recognition (OCR) offre un modo efficiente per estrarre il testo conservando la formattazione originale.In questo articolo imparerai come convertire programmaticamente i file PDF scansionati in Word (DOCX o DOC) utilizzando C# con Aspose.OCR per .NET e Aspose.Words per .NET biblioteche.

Perché convertire PDF scansionati in Word?

Ci sono diversi motivi imperativi per convertire i PDF scansionati in documenti di Word:

  • Easy Edit Scanned Documents: Modifica del testo senza l’assalto del retyping manuale.
  • Testo estratto per ulteriore elaborazione: utilizzare il testo estratto per l’analisi o l’integrazione in altre applicazioni.
  • Mantenere la layout e la formattazione: Mantenere la struttura del documento originale rendendolo edilizzabile.
  • Trattamento automatico di documenti basato su OCR: integrare questa funzionalità senza sforzo nelle tue applicazioni C#.

Tabella dei contenuti

Configurare l’API OCR per la conversione di PDF scansionata a Word

Per estrarre il testo dai PDF scansionati e convertirli in documenti di Word, utilizzeremo:

Installazione

Puoi facilmente installare queste API tramite NuGet con i seguenti comandi:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

In alternativa, è possibile scaricare i DLL da Scarica la pagina.

Convertire PDF scansionato in Documento Word Editato

Seguire questi passaggi per convertire i file PDF scansionati in Word (DOCX o DOC) in C#:

  • Inizializza OCR con AsposeOcr.
  • Testo estratto utilizzando DocumentRecognitionSettings.
  • Store di testo riconosciuto in a StringBuilder.
  • Creare un documento Word utilizzando Aspose.Words.
  • Applicare il formato e salvare come DOCX o DOC.

Modello di codice

Ecco un esempio di C# che mostra il scannato PDF in Word conversione:

Conservare la formattazione in conversione OCR

Mentre l’estrazione di testo OCR è potente, non può sempre preservare il formato originale, le font e gli stili. Per garantire il formato accurato, considerare i seguenti suggerimenti:

  • Utilize Aspose.Words Paragraph Styles per applicare la formattazione di testo coerente.
  • Inserisci proprietà di font come dimensione, coraggio, italica e allineamento.
  • Adattare margini di pagina e layout per migliorare la produzione del documento Word.

Gestione di molte pagine in PDF scansionati

Per i PDF scansionati a più pagine, è fondamentale elaborare e mescolare il testo da tutte le pagine in un unico documento Word.

  • Guardare attraverso ogni pagina nel PDF scansionato.
  • Riconoscere il testo per pagina e memorizzarlo in una StringBuilder.
  • Aggiungi testo riconosciuto al documento Word.

Questo approccio assicura conversione multi-pagina PDF a Word.

Licenza per piena precisione OCR

Per impostazione predefinita, Aspose.OCR funziona in modalità di valutazione, che può limitare l’accuratezza del riconoscimento del testo. Per disattivare il pieno potenziale dell’API:

Richiedi una Licenza temporanea gratuita per scopi di valutazione.

Conclusione e risorse aggiuntive

Il riassunto

In questa guida abbiamo coperto:

  • Impostazione Aspose.OCR per il trattamento PDF scansionato
  • Estratto text da PDF scansionati in C#
  • Convertire Testo riconosciuto in un documento Word formattato
  • Gestione Multi-page scansione PDF a conversione di Word

Utilizzando Aspose.OCR e Aspose.Words, puoi senza sforzo convertire PDF basati sull’immagine in file Word edibili. Inizia a costruire il tuo OCR-powered PDF to Word converter in .NET oggi per solo $99!

Suggerimenti aggiuntivi per la conversione PDF scansionata

Se stai cercando modi per migliorare il tuo flusso di lavoro, considerare l’utilizzo delle funzionalità C# OCR PDF a testo o C# PDF to DOCX soluzioni per un trattamento più avanzato. Che tu abbia bisogno di convertire PDF scansionato a Word per la modifica, o semplicemente desideri cambiare documenti PDF in Word , questi metodi forniscono un sostegno inestimabile. Per coloro che chiedono, come posso convertire un PDF scannato al Word? gli strumenti menzionati vi guideranno attraverso il processo senza sforzo.

Scansione di PDF in Word Conversion

Infine, per soluzioni più personalizzate, scopri come convertire file PDF scansionati in Word o utilizzare una C# Text Recognition Library per migliorare le tue capacità di elaborazione dei documenti. Queste risorse si dimostreranno utili per chiunque si occupa regolarmente dei documentati scandati. Puoi anche utilizzare strumenti c# PDF a DOCX Per facilitare le conversioni o fare affidamento su un ** C# OCR PDF in Text** metodo per semplificare il flusso di lavoro di estrazione del testo dalle immagini.

More in this category