PDF-Dokumente sind integraler Bestandteil verschiedener Geschäftsprozesse und erfordern häufig programmgesteuerten Zugriff auf ihren gescannten Inhalt. Das Extrahieren von Text aus gescannten PDF-Dateien kann eine komplexe Aufgabe sein, was die Notwendigkeit effektiver Werkzeuge verdeutlicht. In diesem Tutorial werden wir uns damit beschäftigen, wie man PDF-Dokumente OCR und Text aus PDF in C# extrahiert, mithilfe der zuverlässigen Aspose.OCR für .NET API, einer führenden C# OCR PDF Extraktionsbibliothek, die kostenlos evaluiert werden kann.

Was Sie Lernen Werden

In diesem Artikel werden wir die folgenden Themen behandeln:

  1. Überblick über die Aspose.OCR für .NET API
  2. Schritte zur OCR von PDF und Text extrahieren
  3. Wie man OCR auf PDF durchführt und Text speichert
  4. Konvertierung von OCR PDF zu Word
  5. Konvertierung von OCR PDF zu JSON

Überblick über die Aspose.OCR für .NET API

Wir werden die Aspose.OCR für .NET API nutzen, eine robuste .NET PDF OCR API, die entwickelt wurde, um Text aus gescannten Bildern, Smartphone-Fotos und Screenshots zu erkennen und Ergebnisse in verschiedenen Dokumentformaten zurückzugeben. Diese API konvertiert nicht nur Bilder in Text, sondern erstellt auch durchsuchbare PDFs aus Scans und korrigiert Rechtschreibfehler im erkannten Text, wodurch sie eine der schnellsten C# PDF OCR-Lösungen ist, die für nur 99 $ erhältlich ist.

Die API verfügt über die AsposeOcr Klasse, die mehrere Methoden für OCR-Operationen bereitstellt. Besonders wichtig ist die RecognizePdf(string, DocumentRecognitionSettings) Methode, die zum Extrahieren von Text aus einem bestimmten PDF-Dokument verwendet wird. Die DocumentRecognitionSettings Klasse ermöglicht die Anpassung des Erkennungsprozesses, während die RecognitionResult Klasse die Ergebnisse der Erkennung kapselt.

Sie können die DLL der API herunterladen oder sie über NuGet installieren:

PM> Install-Package Aspose.OCR

Schritte zur OCR von PDF und Text extrahieren in C#

Um OCR auf PDF-Dokumenten durchzuführen und den erkannten Text zu extrahieren, befolgen Sie diese Schritte:

  1. Erstellen Sie eine Instanz der AsposeOcr Klasse.
  2. Initialisieren Sie ein Objekt der DocumentRecognitionSettings Klasse.
  3. Geben Sie die Sprache für OCR an.
  4. Erhalten Sie das RecognitionResult, indem Sie die RecognizePdf() Methode aufrufen und den Bildpfad sowie das DocumentRecognitionSettings Objekt übergeben.
  5. Durchlaufen Sie die RecognitionResult Liste, um den identifizierten Text anzuzeigen.

Hier ist ein Beispiel, das zeigt, wie man PDF-Dokumente OCR und den erkannten Text in C# extrahiert:

OCR PDF und Text aus PDF in C# extrahieren

Wie man OCR auf PDF durchführt und Text speichert in C#

Um OCR auf PDF-Dokumenten durchzuführen und den erkannten Text zu speichern, befolgen Sie diese Schritte:

  1. Erstellen Sie eine Instanz der AsposeOcr Klasse.
  2. Initialisieren Sie ein Objekt der DocumentRecognitionSettings Klasse.
  3. Geben Sie die Sprache für OCR an.
  4. Rufen Sie die RecognizePdf() Methode auf, um das RecognitionResult zu erhalten.
  5. Speichern Sie den Text mit der SaveMultipageDocument() Methode, die den Ausgabedateipfad, das SaveFormat und das RecognitionResult Objekt benötigt.

Hier ist ein Beispiel, das zeigt, wie man PDF-Dokumente OCR und den erkannten Text in C# speichert:

OCR auf PDF durchführen und Text in C# speichern

Konvertierung von OCR PDF zu Word in C#

Um gescannte PDF-Dokumente in Word zu konvertieren, befolgen Sie die gleichen Schritte wie zuvor, geben Sie jedoch SaveFormat.Docx im letzten Schritt an.

Hier ist ein Beispiel, das zeigt, wie man OCR PDF und den erkannten Text als Word-Dokument in C# speichert:

OCR PDF und gescanntes PDF in Word konvertieren in C#

Konvertierung von OCR PDF zu JSON in C#

Um den erkannten Text aus PDF-Dokumenten in einer JSON-Datei zu speichern, befolgen Sie die vorherigen Schritte, wobei die einzige Änderung darin besteht, SaveFormat.Json im letzten Schritt anzugeben.

Hier ist ein Beispiel, das zeigt, wie man OCR PDF und den erkannten Text als JSON-Datei in C# speichert:

Holen Sie sich eine kostenlose Evaluierungslizenz

Sie können eine kostenlose temporäre Lizenz erhalten, um die Aspose.OCR für .NET API ohne Einschränkungen zu evaluieren.

Fazit

In diesem Tutorial haben wir gelernt, wie man OCR auf PDF-Dokumenten durchführt und Text aus PDF in C# extrahiert. Wir haben auch erkundet, wie man den erkannten Text als TXT, DOCX und JSON Datei speichert. Für weitere Informationen zur Aspose.OCR für .NET API, werfen Sie einen Blick in die Dokumentation. Wenn Sie Fragen haben, können Sie uns gerne in unserem Forum kontaktieren.

Siehe auch

Durch die Nutzung der Aspose.OCR für .NET API können Sie eine hochgenaue PDF-OCR in C# für verschiedene Anwendungen implementieren, einschließlich Rechnungsverarbeitung und Formularbearbeitung. Diese erschwingliche .NET PDF OCR-Lösung ist ideal für Entwickler, die effizient OCR PDF-Funktionen in ihre Anwendungen integrieren möchten.