
Einführung
Scanned PDF-Dateien speichern oft Text als Bilder, was es unmöglich macht, den Inhalt auszuwählen, zu bearbeiten oder zu kopieren. Wenn Sie gescannte PDFs in bearbeitbare Word-Dokumente umwandeln müssen, bietet die optische Zeichenerkennung (OCR)-Technologie einen effizienten Weg, um Text zu extrahieren und gleichzeitig das ursprüngliche Format beizubehalten. In diesem Artikel erfahren Sie, wie Sie programmatisch gescannte PDFs in Word (DOCX oder DOC) mit C# unter Verwendung der Aspose.OCR für .NET und Aspose.Words für .NET-Bibliotheken umwandeln.
Warum gescannte PDFs in Word umwandeln?
Es gibt mehrere überzeugende Gründe, gescannte PDFs in Word-Dokumente umzuwandeln:
- Gescannte Dokumente einfach bearbeiten: Text ändern, ohne manuell neu tippen zu müssen.
- Text für weitere Verarbeitung extrahieren: Verwenden Sie den extrahierten Text für Analysen oder andere Anwendungen.
- Layout und Formatierung beibehalten: Die Struktur des ursprünglichen Dokuments beibehalten und gleichzeitig bearbeitbar machen.
- OCR-basierte Dokumentenverarbeitung automatisieren: Diese Funktionalität nahtlos in Ihre C#-Anwendungen integrieren.
Inhaltsverzeichnis
- OCR-API für die Umwandlung von gescannten PDFs in Word einrichten
- Gescannte PDF in bearbeitbares Word-Dokument umwandeln
- Formatierung bei der OCR-Konvertierung beibehalten
- Umgang mit mehreren Seiten in gescannten PDFs
- Lizenz für volle OCR-Genauigkeit
- Fazit und zusätzliche Ressourcen
1. OCR-API für die Umwandlung von gescannten PDFs in Word einrichten
Um Text aus gescannten PDFs zu extrahieren und in Word-Dokumente umzuwandeln, nutzen wir:
- Aspose.OCR für .NET – Ein leistungsstarkes Tool, das Text aus gescannten Bildern erkennt.
- Aspose.Words für .NET – Diese Bibliothek wandelt den extrahierten Text in das Word-Format um.
Installation
Sie können diese APIs einfach über NuGet mit den folgenden Befehlen installieren:
PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words
Alternativ können Sie die DLLs von der Aspose Downloads-Seite herunterladen.
2. Gescannte PDF in bearbeitbares Word-Dokument umwandeln
Befolgen Sie diese Schritte, um gescannte PDF-Dateien in Word (DOCX oder DOC) in C# umzuwandeln:
- OCR initialisieren mit
AsposeOcr
. - Text extrahieren mit
DocumentRecognitionSettings
. - Erkannten Text speichern in einem
StringBuilder
. - Ein Word-Dokument erstellen mit
Aspose.Words
. - Formatierung anwenden und als DOCX oder DOC speichern.
Codebeispiel
Hier ist ein C#-Beispiel, das die Umwandlung von gescannten PDFs in Word demonstriert:
3. Formatierung bei der OCR-Konvertierung beibehalten
Obwohl die OCR-Textextraktion leistungsstark ist, kann sie möglicherweise nicht immer die ursprüngliche Formatierung, Schriftarten und Stile beibehalten. Um eine genaue Formatierung sicherzustellen, beachten Sie die folgenden Tipps:
- Verwenden Sie die Absatzstile von Aspose.Words, um eine konsistente Textformatierung anzuwenden.
- Stellen Sie Schriftarteigenschaften wie Größe, fett, kursiv und Ausrichtung ein.
- Passen Sie Seitenränder und Layout für eine verbesserte Word-Dokumentausgabe an.
4. Umgang mit mehreren Seiten in gescannten PDFs
Für mehrseitige gescannte PDFs ist es entscheidend, den Text von allen Seiten zu verarbeiten und in ein einzelnes Word-Dokument zu integrieren. Um dies zu erreichen:
- Durchlaufen Sie jede Seite in der gescannten PDF.
- Erkennen Sie den Text pro Seite und speichern Sie ihn in einem
StringBuilder
. - Fügen Sie den erkannten Text dem Word-Dokument hinzu.
Dieser Ansatz gewährleistet eine nahtlose Umwandlung von mehrseitigen PDFs in Word.
5. Lizenz für volle OCR-Genauigkeit
Standardmäßig arbeitet Aspose.OCR im Evaluierungsmodus, was die Genauigkeit der Texterkennung einschränken kann. Um das volle Potenzial der API freizuschalten:
🔹 Fordern Sie eine kostenlose temporäre Lizenz zu Evaluierungszwecken an.
6. Fazit und zusätzliche Ressourcen
Zusammenfassung
In diesem Leitfaden haben wir behandelt:
✅ Einrichtung von Aspose.OCR für die Verarbeitung gescannter PDFs
✅ Extrahieren von Text aus gescannten PDFs in C#
✅ Umwandeln von erkanntem Text in ein formatiertes Word-Dokument
✅ Umgang mit mehrseitigen gescannten PDFs in Word
Durch die Nutzung von Aspose.OCR und Aspose.Words können Sie mühelos bildbasierte PDFs in bearbeitbare Word-Dateien umwandeln. Beginnen Sie noch heute mit dem Aufbau Ihres OCR-gestützten PDF-zu-Word-Konverters in .NET für nur 99 $! 🚀