
I documenti PDF sono parte integrante di vari processi aziendali, spesso richiedendo accesso programmatico al loro contenuto scansionato. Estrarre testo da file PDF scansionati può essere un compito complesso, evidenziando la necessità di strumenti efficaci. In questo tutorial, approfondiremo come eseguire OCR su documenti PDF ed estrarre testo da PDF in C# utilizzando l’affidabile Aspose.OCR per .NET API, una delle principali librerie di estrazione OCR PDF in C# disponibile per una valutazione gratuita.
Cosa Imparerai
In questo articolo, tratteremo i seguenti argomenti:
- Panoramica di Aspose.OCR per .NET API
- Passaggi per eseguire OCR su PDF ed estrarre testo
- Come eseguire OCR su PDF e salvare il testo
- Convertire OCR PDF in Word
- Convertire OCR PDF in JSON
Panoramica di Aspose.OCR per .NET API
Utilizzeremo l’Aspose.OCR per .NET API, un robusto API PDF OCR per .NET progettato per riconoscere testo da immagini scansionate, foto di smartphone e screenshot, restituendo risultati in vari formati di documento. Questa API non solo converte le immagini in testo, ma crea anche PDF ricercabili da scansioni e corregge eventuali errori di ortografia nel testo riconosciuto, rendendola una delle soluzioni C# PDF OCR più veloci disponibili per soli $99.
L’API presenta la classe AsposeOcr, che fornisce più metodi per le operazioni OCR. In particolare, il metodo RecognizePdf(string, DocumentRecognitionSettings) è essenziale per estrarre testo da un documento PDF specificato. La classe DocumentRecognitionSettings consente la personalizzazione del processo di riconoscimento, mentre la classe RecognitionResult incapsula i risultati del riconoscimento.
Puoi scaricare il DLL dell’API o installarlo tramite NuGet:
PM> Install-Package Aspose.OCR
Passaggi per eseguire OCR su PDF ed estrarre testo in C#
Per eseguire OCR su documenti PDF ed estrarre il testo riconosciuto, segui questi passaggi:
- Crea un’istanza della classe AsposeOcr.
- Inizializza un oggetto della classe DocumentRecognitionSettings.
- Specifica la lingua per l’OCR.
- Ottieni il RecognitionResult invocando il metodo RecognizePdf(), passando il percorso dell’immagine e l’oggetto DocumentRecognitionSettings.
- Scorri l’elenco RecognitionResult per visualizzare il testo identificato.
Ecco un esempio che illustra come eseguire OCR su documenti PDF ed estrarre il testo riconosciuto in C#:
Come eseguire OCR su PDF e salvare il testo in C#
Per eseguire OCR su documenti PDF e salvare il testo riconosciuto, segui questi passaggi:
- Crea un’istanza della classe AsposeOcr.
- Inizializza un oggetto della classe DocumentRecognitionSettings.
- Specifica la lingua per l’OCR.
- Chiama il metodo RecognizePdf() per ottenere il RecognitionResult.
- Salva il testo utilizzando il metodo SaveMultipageDocument(), che richiede il percorso del file di output, il SaveFormat e l’oggetto RecognitionResult.
Ecco un esempio che dimostra come eseguire OCR su documenti PDF e salvare il testo riconosciuto in C#:
Convertire OCR PDF in Word in C#
Per convertire documenti PDF scansionati in Word, segui gli stessi passaggi descritti in precedenza, ma specifica SaveFormat.Docx nell’ultimo passaggio.
Ecco un esempio che illustra come eseguire OCR su PDF e salvare il testo riconosciuto come documento Word in C#:
Convertire OCR PDF in JSON in C#
Per salvare il testo riconosciuto da documenti PDF in un file JSON, segui i passaggi precedenti con l’unica modifica di specificare SaveFormat.Json nell’ultimo passaggio.
Ecco un esempio che dimostra come eseguire OCR su PDF e salvare il testo riconosciuto come file JSON in C#:
Ottieni una Licenza di Valutazione Gratuita
Puoi ottenere una licenza temporanea gratuita per valutare l’Aspose.OCR per .NET API senza alcuna limitazione.
Conclusione
In questo tutorial, abbiamo imparato come eseguire OCR su documenti PDF ed estrarre testo da PDF in C#. Abbiamo anche esplorato come salvare il testo riconosciuto come file TXT, DOCX e JSON. Per ulteriori informazioni sull’Aspose.OCR per .NET API, consulta la sua documentazione. Se hai domande, non esitare a contattarci sul nostro forum.
Vedi Anche
- Convertire Screenshot in Testo con OCR in C#
- OCR Immagine in Testo e Correzione Ortografica in C#
- Convertire PDF Scansionati in PDF Ricercabili con OCR in C#
Sfruttando l’Aspose.OCR per .NET API, puoi implementare un OCR PDF ad alta precisione in C# per varie applicazioni, inclusi il trattamento delle fatture e la gestione dei moduli. Questa soluzione PDF OCR .NET conveniente è perfetta per gli sviluppatori che desiderano integrare le capacità OCR PDF nelle loro applicazioni in modo efficiente.