Extract Text from PDF C#

Text aus PDF-Dateien zu extrahieren ist eine häufige Anforderung bei Dokumentverarbeitung Aufgaben. Dieser Artikel bietet einen grundlegenden Leitfaden über die Verwendung von Aspose.PDF Text Extractor Plugin für effiziente und vielseitige Text-Extraktion in C#. Ob Sie Text aus einem gesamten Dokument, spezifischen Seiten oder definierten Regionen extrahieren müssen, der Aspose Plugin erleichtert hochleistungsfähige PDF Text-Extraktion mit minimalen Anstrengungen.

Key Features von Aspose.PDF Text Extractor Plugin

Überblick über Aspose.PDF Text Extractor Plugin

Der Aspose.PDF Text Extractor Plugin für .NET ist eine robuste Lösung für die Text-Extraktion aus PDF-Dokumenten. Es ist speziell für Entwickler, die mit .NET-Anwendungen arbeiten, die sowohl .NET Framework als auch .NET Core für PDF-Text-Extraktion unterstützen:

  • Pure Mode: Text extrahiert und die ursprüngliche Formatierung und Struktur beibehalten.
  • Raw Mode: Text ohne Formatierung extrahiert.
  • Plain Mode: Text extrahiert und alle Formate und spezielle Zeichen entfernt.

Wordsile der Verwendung von Aspose.PDF

  • Batch-Verarbeitung: Verwenden Sie mehrere PDFs gleichzeitig.
  • Anpassbare Einstellungen: Einstellungen für Tailor-Extraktion, um Ihre spezifischen Bedürfnisse anzupassen.
  • Seamless Integration: Integriert direkt mit .NET-Anwendungen für glatte Workflows.
  • High-Speed Performance: Optimiert für schnelle, präzise Text-Extraktion mit minimalem Ressourcenverbrauch.

Beginnen Sie mit C# PDF Text Extraction

The Aspose.PDF für .NET Bibliothek ist ein umfassendes Tool für .NET-Entwickler, die nach hochleistungsfähigen C# PDF Extract -Lösungen suchen. Sie können es leicht über NuGet installieren:

PM> Install-Package Aspose.PDF

Alternativ können Sie Download der DLL um es direkt in Ihr Projekt zu integrieren und eine zuverlässige C# PDF to Text Lösung zu bieten.

Text aus einem vollständigen PDF in C# extrahieren

Um alle Texte aus einem PDF zu extrahieren, folgen Sie diesen Schritten:

  • Laden Sie die PDF mit der Dokumentation und Klasse.
  • Schaffung A TextAbsorber Das Objekt.
  • Anwenden Sie den Absorber auf alle Seiten.
  • Speichern Sie den extrahierten Text in eine Datei.

Beispiele Code

Text aus spezifischen Seiten in PDF extrahieren

Um Text aus einer einzelnen Seite mit C# zu extrahieren, folgen Sie diesen Schritten:

  • Laden Sie das PDF herunter.
  • Schaffung A TextAbsorber.
  • Verwenden Sie den Absorber auf die gewünschte Seite.
  • Speichern Sie den extrahierten Text.

Beispiele Code

Text aus bestimmten Regionen in PDF extrahieren

Um Text aus bestimmten Bereichen einer Seite zu extrahieren, definieren Sie rektanguläre Koordinaten. folgen Sie diesen Schritten:

  • Laden Sie das PDF herunter.
  • Configure TextSearchOptions für die definierte Region.
  • Anwenden Sie die TextAbsorber für die Region.
  • Speichern Sie den extrahierten Text.

Beispiele Code

Such- und Text-Extraktion mit Regex

Um Text zu extrahieren, der einen bestimmten Muster mit regelmäßigen Ausdrüssen entspricht:

  • Laden Sie das PDF herunter.
  • Ein Regex-Patron zu definieren.
  • Verwenden Sie das Muster mit TextAbsorber.
  • Textfragmente ausgeschnitten.

Beispiele Code

Tabelledaten als Text in C# extrahieren

Um Inhalte aus Tabellen zu extrahieren, verwenden Sie die folgenden Schritte:

  • Laden Sie das PDF herunter.
  • Use TableAbsorber Navigieren Sie durch Tischstrukturen.
  • Textzelle durch Zelle extrahieren.

Beispiele Code

Extraktion von Highlighted Text in PDF

Um den hervorgehobenen Text zu extrahieren:

  • Iterate durch Ankündigung.
  • Filter TextMarkupAnnotation.
  • Wiederherstellen und speichern Sie hervorgehobene Fragmente.

Beispiele Code

Optimierung von Text-Extraktion mit geringem Speichergebrauch

a) Gebrauch **** und ****:

  • Call absorber.Reset() nach der Verarbeitung jeder Seite.
  • Freie Speicher, die von Seiten gespeichert wird page.FreeMemory().

b) Verwendung MemorySaving und Mode:

Set TextExtractionOptions.TextFormattingMode zur Optimierung der Speicherverwendung während der PDF-Text-Extraktion.

Beispiele Code

Kostenlose C# PDF Text Extraction Bibliothek

Erlangen Sie eine Kostenlose vorübergehende Lizenz für unbegrenztes Zugriff auf Aspose.PDF für .NET und das volle Potenzial für effiziente C# PDF Text Extraction -Lösungen zu eröffnen. Sie können auch Optionen wie c# Convert PDF to Text und C# Read Text from PDF für benutzerdefinierte Lösungen, einschließlich c# Extrakt Text von PDFund c # Read PDF text free erkunden.

Schlussfolgerungen

Aspose.PDF Text Extractor Plugin für .NET bietet eine vielseitige und effiziente Lösung für zuverlässige Text-Extraktions Aufgaben. Von Text aus ganzem Dokument zu spezifischen Seiten oder Regionen, es vereinfacht den Prozess mit Genauigkeit und Geschwindigkeit. Dies macht es zu einer der besten C# PDF Extract Text Bibliotheken zur Verfügung. Versuchen Sie es heute, Ihre PDF-Text Extraction Workflows für nur $99 einfacher zu machen!

More in this category