Extract Text from PDF C#

L’estrazione di testo dai file PDF è un requisito comune nelle attività di elaborazione dei documenti.Questo articolo fornisce una guida approfondita sull’utilizzo Aspose.PDF’s Text Extractor Plugin per l’estrazione di testo efficiente e versatile in C#. Che tu abbia bisogno di estrarre testo da un documento intero, pagine specifiche, o regioni definite, l’Aspose Plugin facilita l’estrazione di testo PDF ad alte prestazioni con uno sforzo minimo.

Caratteristiche chiave di Aspose.PDF’s Text Extractor Plugin

Visualizzazione di Aspose.PDF Text Extractor Plugin

Il Aspose.PDF’s Text Extractor Plugin per .NET è una soluzione robusta per l’estrazione di testo da documenti PDF. È specificamente progettato per gli sviluppatori che lavorano con applicazioni .NET, supportando sia .NET Framework che .NET Core per l’estrazione di testo PDF. Il plugin offre tre modalità operative:

  • Pure Mode: estrae il testo mantenendo il formato e la struttura originali.
  • Raw Mode: Elimina il testo senza alcun formato.
  • Plain Mode: estrae il testo e rimuove tutti i formati e i caratteri speciali.

I vantaggi dell’utilizzo di Aspose.PDF

  • Batch Processing: Gestire più PDF contemporaneamente.
  • Impostazioni personalizzabili: personalizzare le impostazioni di estrazione per soddisfare le vostre esigenze specifiche.
  • Seamless Integration: Integra direttamente con le applicazioni .NET per flussi di lavoro fluidi.
  • Performance ad alta velocità: ottimizzato per la rapida ed accurata estrazione di testo con minimo consumo di risorse.

Come iniziare con l’estrazione di testo PDF C

Il Aspose.PDF per .NET La biblioteca è uno strumento completo per gli sviluppatori .NET che cercano soluzioni ad alto rendimento C# PDF Extract:

PM> Install-Package Aspose.PDF

In alternativa, si può Scarica il DLL per integrarlo direttamente nel tuo progetto, fornendo una soluzione affidabile C# PDF to Text.

Estratto di testo da un PDF completo in C#

Per estrarre tutto il testo da un PDF, seguire questi passaggi:

  • Scarica il PDF utilizzando il Documento di classe.
  • Creare a TextAbsorber Gli oggetti.
  • Applicare l’assorbente a tutte le pagine.
  • Salva il testo estratto in un file.

Il codice di esempio

Estratto di testo da pagine specifiche in PDF

Per estrarre il testo da una singola pagina utilizzando C#, seguire questi passaggi:

  • Scarica il PDF.
  • Creare a TextAbsorber.
  • Applicare l’assorbente alla pagina desiderata.
  • Salva il testo estratto.

Il codice di esempio

Estratto di testo da Regioni specifiche in PDF

Per estrarre il testo da aree specifiche di una pagina, definire le coordinate rettangolari:

Il codice di esempio

La ricerca e l’estrazione di testo utilizzando Regex

Per estrarre un testo che corrisponde a un modello specifico utilizzando espressioni regolari:

  • Scarica il PDF.
  • Definisci un modello regex.
  • Applicare il modello utilizzando TextAbsorber.
  • Trattamento di fragmenti di testo.

Il codice di esempio

Estrazione dei dati di tabella come testo in C#

Per estrarre contenuti dalle tabelle, utilizzare i seguenti passaggi:

  • Scarica il PDF.
  • Utilizzo TableAbsorber navigare attraverso le strutture del tavolo.
  • Eliminare la cella di testo per cella.

Il codice di esempio

Estratto di testo evidenziato in PDF

Per estrarre il testo sottolineato:

  • Iterate attraverso annotazioni.
  • Il filtro TextMarkupAnnotation.
  • Retrate e salvate i fragmenti evidenziati.

Il codice di esempio

Ottimizzare l’estrazione di testo con bassa memoria}

a) utilizzando **** e ****:

  • Chiamate absorber.Reset() Dopo il trattamento di ogni pagina.
  • Memoria gratuita mantenuta dalle pagine utilizzate page.FreeMemory().

b) utilizzando MemorySaving Il modo:

Il set TextExtractionOptions.TextFormattingMode per ottimizzare l’utilizzo della memoria durante la raccolta di testo PDF.

Il codice di esempio

Libreria di estrazione di testo PDF

Ottieni un Licenza temporanea gratuita per l’accesso illimitato a Aspose.PDF per .NET e per sbloccare il suo pieno potenziale per soluzioni efficienti C# PDF Text Extraction. Puoi anche esplorare opzioni come c# Convertire PDF in testo e C# Read Text da PDF per risoluzioni personalizzate, tra cui c# Estratto di testo dal PDF e c # Leggi il testo PDF Libero.

conclusione

Aspose.PDF’s Text Extractor Plugin for .NET offre una soluzione versatile ed efficiente per affidabili compiti di estrazione del testo. Da estrarre il testo da documenti interni a pagine o regioni specifiche, semplifica il processo con precisione e velocità. Questo lo rende una delle migliori librerie C# PDF Extract Text disponibili. Prova oggi per simplificare i tuoi flussi di lavoro per l’estrazione di testo PDF per solo $99!

More in this category