
PDF-Dokumente sind in vielen Geschäftsprozessen unerlässlich und erfordern häufig programmgesteuerten Zugriff auf ihren gescannten Inhalt. Das Extrahieren von Text aus gescannten PDF-Dateien kann herausfordernd sein, was die Notwendigkeit effektiver Werkzeuge unterstreicht. In diesem Tutorial werden wir erforschen, wie man PDF-Dokumente OCR und Text aus PDF in C# extrahiert unter Verwendung der zuverlässigen Aspose.OCR für .NET API, einer führenden C# OCR PDF Extraktionsbibliothek, die kostenlos evaluiert werden kann.
Was Sie Lernen Werden
In diesem Artikel werden wir die folgenden Themen behandeln:
- Überblick über Aspose.OCR für .NET API
- Schritte zur OCR PDF und Text extrahieren
- Wie man OCR auf PDF durchführt und Text speichert
- OCR PDF in Word konvertieren
- OCR PDF in JSON konvertieren
Überblick über Aspose.OCR für .NET API
Wir werden die Aspose.OCR für .NET API nutzen, eine robuste .NET PDF OCR API, die entwickelt wurde, um Text aus gescannten Bildern, Smartphone-Fotos und Screenshots zu erkennen und Ergebnisse in verschiedenen Dokumentformaten zurückzugeben. Diese API konvertiert nicht nur Bilder in Text, sondern erstellt auch durchsuchbare PDFs aus Scans und korrigiert etwaige Rechtschreibfehler im erkannten Text, was sie zu einer der schnellsten C# PDF OCR Lösungen macht, die für nur 99 $ erhältlich ist.
Die API bietet die AsposeOcr Klasse, die mehrere Methoden für OCR-Operationen bereitstellt. Besonders wichtig ist die RecognizePdf(string, DocumentRecognitionSettings) Methode, die für das Extrahieren von Text aus einem bestimmten PDF-Dokument entscheidend ist. Die DocumentRecognitionSettings Klasse ermöglicht die Anpassung des Erkennungsprozesses, während die RecognitionResult Klasse die Ergebnisse der Erkennung kapselt.
Sie können die DLL der API herunterladen oder sie über NuGet installieren:
PM> Install-Package Aspose.OCR
Schritte zur OCR PDF und Text extrahieren in C#
Um OCR auf PDF-Dokumenten durchzuführen und den erkannten Text zu extrahieren, befolgen Sie diese Schritte:
- Erstellen Sie eine Instanz der AsposeOcr Klasse.
- Initialisieren Sie ein Objekt der DocumentRecognitionSettings Klasse.
- Geben Sie die Sprache für OCR an.
- Erhalten Sie das RecognitionResult, indem Sie die RecognizePdf() Methode aufrufen und den Bildpfad sowie das DocumentRecognitionSettings Objekt übergeben.
- Durchlaufen Sie die RecognitionResult Liste, um den identifizierten Text anzuzeigen.
Hier ist ein Beispiel, das zeigt, wie man PDF-Dokumente OCR und erkannten Text in C# extrahiert:
Wie man OCR auf PDF durchführt und Text in C# speichert
Um OCR auf PDF-Dokumenten durchzuführen und den erkannten Text zu speichern, befolgen Sie diese Schritte:
- Erstellen Sie eine Instanz der AsposeOcr Klasse.
- Initialisieren Sie ein Objekt der DocumentRecognitionSettings Klasse.
- Geben Sie die Sprache für OCR an.
- Rufen Sie die RecognizePdf() Methode auf, um das RecognitionResult zu erhalten.
- Speichern Sie den Text mithilfe der SaveMultipageDocument() Methode, die den Ausgabedateipfad, das SaveFormat und das RecognitionResult Objekt benötigt.
Hier ist ein Beispiel, das zeigt, wie man PDF-Dokumente OCR und den erkannten Text in C# speichert:
OCR PDF in Word konvertieren in C#
Um gescannte PDF-Dokumente in Word zu konvertieren, befolgen Sie die gleichen Schritte wie zuvor, geben Sie jedoch im letzten Schritt SaveFormat.Docx an.
Hier ist ein Beispiel, das zeigt, wie man PDF OCR und den erkannten Text als Word-Dokument in C# speichert:
OCR PDF in JSON konvertieren in C#
Um den erkannten Text aus PDF-Dokumenten in einer JSON-Datei zu speichern, befolgen Sie die vorherigen Schritte, wobei die einzige Änderung darin besteht, SaveFormat.Json im letzten Schritt anzugeben.
Hier ist ein Beispiel, das zeigt, wie man PDF OCR und den erkannten Text als JSON-Datei in C# speichert:
Holen Sie sich eine kostenlose Evaluierungslizenz
Sie können eine kostenlose temporäre Lizenz erhalten, um die Aspose.OCR für .NET API ohne Einschränkungen zu evaluieren.
Fazit
In diesem Tutorial haben wir gelernt, wie man OCR auf PDF-Dokumenten durchführt und Text aus PDF in C# extrahiert. Wir haben auch erkundet, wie man den erkannten Text als TXT, DOCX und JSON Datei speichert. Für weitere Informationen zur Aspose.OCR für .NET API, schauen Sie sich die Dokumentation an. Wenn Sie Fragen haben, können Sie uns gerne in unserem Forum kontaktieren.
Siehe auch
- Screenshot in Text mit OCR in C# konvertieren
- OCR Bild in Text und Rechtschreibkorrektur in C#
- Gescannte PDF in durchsuchbare PDF mit OCR in C# konvertieren
Durch die Nutzung der Aspose.OCR für .NET API können Sie eine hohe Genauigkeit bei PDF OCR in C# für verschiedene Anwendungen implementieren, einschließlich Rechnungsverarbeitung und Formularbearbeitung. Diese erschwingliche .NET PDF OCR Lösung ist perfekt für Entwickler, die OCR PDF-Funktionen effizient in ihre Anwendungen integrieren möchten. Mit der C#-Bibliothek für PDF OCR und Textextraktion können Sie genaue Ergebnisse in Ihren Projekten sicherstellen.