PDF Dateien sind beliebt, weil sie Text, Bilder, Animationen, Videos und verschiedene Ankündigungen unterstützen. Allerdings ist für viele Dokumente der Text der entscheidendste Teil. Dieser Artikel erklärt, wie PDF-Dateien in TXT-File und umgekehrt, TXT-Dienste in PDF mit C# .NET konvertieren. Diese Konvertierung ist besonders nützlich, wenn Sie ausschließlich auf den Textinhalt eines PDF Dokumentes extrahieren oder konzentrieren müssen, z. B. beim Ausführen von Textanalyse oder beim Vorbereiten von Inhalten für die Reformierung.

Die in diesem Leitfaden abgedeckten Themen umfassen:

Tip: Sie können auch für einen kostenlosen Interesse sein Text zu GIF Converter Das ermöglicht es Ihnen, animierte GIFs aus dem Text zu generieren.

C# TXT in PDF oder PDF in TXT Converter

Die Konvertierung zwischen PDF und TXT-Formaten ist wichtig, wenn Ihr Hauptinteresse in den Textdaten innerhalb eines Dokuments liegt. Ob Sie alle Formate für eine einfache Textanalyse ausstrecken oder einige strukturierte Layout bewahren müssen, kann der Prozess mit ein paar einfachen Schritten durchgeführt werden. Aspose.PDF für .NET Diese API ist vielseitig und unterstützt sowohl C# als auch VB.NET, was es einfach macht, in Ihre .NET-Anwendungen zu integrieren.

Um die API in Ihrer Anwendung zu installieren, können Sie die DLL-Dateien entweder von Downloads oder verwenden Sie die Neugier Beispielsweise installieren Sie es über die Package Manager Console:

PM> Install-Package Aspose.PDF

Sobald die API installiert ist, können Sie den Konvertierungsprozess mit mehreren Ansätzen beginnen, die an verschiedene Bedürfnisse angepasst sind.

C# Konvertieren PDF in TXT ohne Formatieren

Manchmal benötigen Sie nur den Rohtext aus einem PDF-Dokument ohne zusätzliche Formatierung. Diese Methode extrahiert den Text genau so, wie es im Dokument erscheint, ohne Schriften, Spazierungen oder Styles zu bewahren. Es ist besonders nützlich für Textanalyse, Suchindexierung oder wenn die Layout irrelevant ist.

Schritt für Raw Text Extraction

  • Laden Sie das PDF-Dokument ein: Verwenden Sie die API, um die PDF-Datei in ein Dokumentobjekt zu laden.

  • Initialisieren Sie einen StringBuilder: Schaffen Sie ein Beispiel für die StringBuilder Klasse, um Textdaten effizient zu akkumulieren.

  • Iterate durch jede PDF-Seite: Laufen Sie durch alle Seiten des Dokuments. Für jede Seite:

  • Use Textübergabe Text zu extrahieren.

  • Beschäftigen Sie die Rohmodus Um sicherzustellen, dass die Formatierung nicht angewendet wird.

  • Speichern Sie den Ausgangstext: Schreiben Sie den akkumulierten Text in eine TXT-Datei.

Der Code-Snippet unten zeigt, wie man ein PDF in eine TXT-Datei mit der Raw-Extraktionsmethode umwandelt:

Zusätzliche Insights

  • Leistung und Einfachheit: Rohtext-Extraktion ist in der Regel schneller, weil es versucht, keine Formattungsregeln zu vertreiben oder anzuwenden.
  • Verwendung von Fällen: Ideal für Log-Extraktion, Suchindizierung oder Szenarien, in denen nur Textinhalt erforderlich ist.

Konvertieren Sie PDF in TXT-Datei mit Formatering Routine mit C# oder VB.NET

In anderen Szenarien ist die Erhaltung der Formatierung des Textes (z. B. Absätze, Indentationen und Spalten) entscheidend. Diese Methode gilt für die Formatierung von Routinen, um die Layout des Dokuments in der resultierenden TXT-Datei zu spiegeln.

Schritte für Text-Extraktion mit Formatierung

  • Laden Sie die Quelle PDF-Datei herunter: Wie zuvor, laden Sie das PDF-Dokument in Ihre Anwendung.

  • Starten Sie eine String Variable: Bereiten Sie einen String vor, um formatierte Text-Ausgabe zu sammeln.

  • Extrakt Text mit Formattungsmodus: Für jede Seite verwenden Sie die TextformattingMode.Pure Dieses Modus versucht, die ursprüngliche Formatierung so nah wie möglich zu reproduzieren.

  • Speichern Sie den formatierten Text: Ausführen Sie den gesammelten Text in eine TXT-Datei, die strukturierte Formatierung wie Linebrechen, Indents und Tab-Spacing beibehält.

Das folgende Code Beispiel zeigt, wie man ein PDF in eine TXT-Datei mit Textformat mit C# umwandelt#:

Visual Vergleich von RAW und Pure Extraction

Das Bild unten bietet eine visuelle Vergleich der beiden Extraction-Modus. Auf der linken Seite erscheint der PDF-Text mit seiner ursprünglichen Formatierung (Pure-Modus), während der rechte Drehtext ohne Formatierung anzeigt.

Convert PDF TXT csharp

Konvertieren Sie TXT-Datei in PDF Programmierbar mit C# oder VB.NET

Umwandeln eines TXT-Datei zurück in ein PDF ist nützlich, wenn Sie ein poliertes Dokument aus reinem Text-Inhalt produzieren müssen. Dieser Prozess beinhaltet das Lesen des Textes und dann die Anwendung von PDF-Formatierung, um ein Dokument zu erstellen, das visuell attraktiv und bereit für die Verteilung ist.

Schritte für TXT in PDF-Konvertierung

  • Eine Textreader-Instanz erstellen: Verwenden Sie die Textreader Klasse zum Lesen von Inhalten aus der TXT-Datei.

  • Starten Sie ein neues PDF-Dokument und fügen Sie eine weiße Seite hinzu: Schaffen Sie ein Beispiel für die Dokumentation Klassen und fügen Sie eine neue Seite hinzu.

  • Installieren Sie ein TextBuilder-Objekt: Verwenden Sie die Textverarbeiter Textparagrafen mit der gewünschten Formatierung wie Schrift, Größe und Farbe bauen.

  • Lesen und hinzufügen Sie jede Linie des Textes: Laufen Sie durch die Zeilen im TXT-Datei, indem Sie jede Zeile auf das TextBuilder-Objekt hinzufügen.

  • Speichern Sie die Ausgabe PDF: Verwenden Sie die Dokument.Save (String) auf der Seite) Methode, um die endgültige PDF-Datei auf den Disk zu schreiben.

Der Code-Snippet unten zeigt, wie man eine TXT-Datei in ein PDF-Dokument mit C# umwandelt#:

Überlegungen beim Umwandeln von TXT in PDF

  • Layout und Stil: Sie müssen möglicherweise Margen, Line Spacing und andere Text-Eigenschaften anpassen, um sicherzustellen, dass das PDF gut formatiert und lesen kann.
  • Fehlerbehandlung: Implementieren Sie Fehlerüberprüfung während der Datei Lesen und Schreiben Operationen, um Szenarien wie Datei-Access-Probleme oder Verschlüsselung Fehler zu behandeln.

Schlussfolgerungen

In diesem Artikel haben wir die Techniken für die Konvertierung von PDF-Dateien in TXT und TXT-File in PDF mit C# oder VB.NET in der .NET Framework gezeigt. ob Sie sich für Rohtext-Extraktion für Geschwindigkeit und Einfachheit entscheiden oder formatierte Text benötigen, um die Dokumentlayout zu behalten, Aspose.PDF für .NET API bietet zuverlässige und flexible Lösungen. Diese Konvertierungsmethoden sind für die Datenverarbeitung, Dokumentararchivierung und Content-Repurposing wertlos.

Wenn Sie Fragen haben oder weitere Hilfe benötigen, besuchen Sie bitte unsere Free Support Forum Oder überprüfen Sie die Produktdokumentation.

Sehen Sie auch

More in this category