
Einführung
Scanned PDF-Dateien enthalten oft Text als Bilder, was es unmöglich macht, den Inhalt auszuwählen, zu bearbeiten oder zu kopieren. Wenn Sie gescannte PDFs in bearbeitbare Word-Dokumente umwandeln müssen, bietet die optische Zeichenerkennung (OCR) eine effiziente Möglichkeit, Text zu extrahieren und dabei die ursprüngliche Formatierung beizubehalten. In diesem Artikel erfahren Sie, wie Sie programmgesteuert gescannte PDFs in Word (DOCX oder DOC) mit C# unter Verwendung der Aspose.OCR für .NET und Aspose.Words für .NET Bibliotheken umwandeln.
Warum gescannte PDFs in Word umwandeln?
Es gibt mehrere überzeugende Gründe, gescannte PDFs in Word-Dokumente umzuwandeln:
- Gescannte Dokumente einfach bearbeiten: Text ändern, ohne mühsam neu zu tippen.
- Text für weitere Verarbeitung extrahieren: Den extrahierten Text für Analysen oder die Integration in andere Anwendungen nutzen.
- Layout und Formatierung beibehalten: Die Struktur des ursprünglichen Dokuments beibehalten und es bearbeitbar machen.
- OCR-basierte Dokumentenverarbeitung automatisieren: Diese Funktionalität nahtlos in Ihre C#-Anwendungen integrieren.
Inhaltsverzeichnis
- OCR-API für die Umwandlung von gescannten PDFs in Word einrichten
- Gescannte PDF in ein bearbeitbares Word-Dokument umwandeln
- Formatierung in der OCR-Umwandlung beibehalten
- Umgang mit mehreren Seiten in gescannten PDFs
- Lizenz für vollständige OCR-Genauigkeit
- Fazit und zusätzliche Ressourcen
1. OCR-API für die Umwandlung von gescannten PDFs in Word einrichten
Um Text aus gescannten PDFs zu extrahieren und in Word-Dokumente umzuwandeln, verwenden wir:
- Aspose.OCR für .NET – Ein leistungsstarkes Tool, das Text aus gescannten Bildern erkennt.
- Aspose.Words für .NET – Diese Bibliothek wandelt den extrahierten Text in Word-Format um.
Installation
Sie können diese APIs ganz einfach über NuGet mit den folgenden Befehlen installieren:
PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words
Alternativ können Sie die DLLs von der Aspose Download-Seite herunterladen.
2. Gescannte PDF in ein bearbeitbares Word-Dokument umwandeln
Befolgen Sie diese Schritte, um gescannte PDF-Dateien in Word (DOCX oder DOC) in C# umzuwandeln:
- OCR initialisieren mit
AsposeOcr
. - Text extrahieren mit
DocumentRecognitionSettings
. - Erkannten Text speichern in einem
StringBuilder
. - Ein Word-Dokument erstellen mit
Aspose.Words
. - Formatierung anwenden und als DOCX oder DOC speichern.
Codebeispiel
Hier ist ein C#-Beispiel für die Umwandlung von gescannten PDFs in Word:
3. Formatierung in der OCR-Umwandlung beibehalten
Während die OCR-Textextraktion leistungsfähig ist, kann sie möglicherweise nicht immer die ursprüngliche Formatierung, Schriftarten und Stile beibehalten. Um eine genaue Formatierung sicherzustellen, beachten Sie die folgenden Tipps:
- Verwenden Sie die Absatzstile von Aspose.Words, um eine konsistente Textformatierung anzuwenden.
- Setzen Sie Schriftarteigenschaften wie Größe, Fett, Kursiv und Ausrichtung.
- Passen Sie Seitenränder und Layout an, um die Ausgabe des Word-Dokuments zu verbessern.
4. Umgang mit mehreren Seiten in gescannten PDFs
Für mehrseitige gescannte PDFs ist es entscheidend, den Text von allen Seiten zu verarbeiten und in ein einzelnes Word-Dokument zu integrieren. Um dies zu erreichen:
- Durchlaufen Sie jede Seite im gescannten PDF.
- Erkennen Sie den Text pro Seite und speichern Sie ihn in einem
StringBuilder
. - Fügen Sie den erkannten Text zum Word-Dokument hinzu.
Dieser Ansatz gewährleistet eine nahtlose Umwandlung von mehrseitigen PDFs in Word.
5. Lizenz für vollständige OCR-Genauigkeit
Standardmäßig arbeitet Aspose.OCR im Evaluierungsmodus, was die Genauigkeit der Texterkennung einschränken kann. Um das volle Potenzial der API freizuschalten:
🔹 Fordern Sie eine kostenlose temporäre Lizenz zu Evaluierungszwecken an.
6. Fazit und zusätzliche Ressourcen
Zusammenfassung
In diesem Leitfaden haben wir behandelt:
✅ Einrichtung von Aspose.OCR für die Verarbeitung gescannter PDFs
✅ Extrahieren von Text aus gescannten PDFs in C#
✅ Umwandeln von erkanntem Text in ein formatiertes Word-Dokument
✅ Umgang mit der Umwandlung von mehrseitigen gescannten PDFs in Word
Durch die Nutzung von Aspose.OCR und Aspose.Words können Sie mühelos bildbasierte PDFs in bearbeitbare Word-Dateien umwandeln. Beginnen Sie noch heute mit dem Erstellen Ihres OCR-gestützten PDF zu Word-Konverters in .NET für nur 99 $! 🚀
More in this category
- Erschwingliche OCR: Aspose.OCR nach Verbrauch abgerechnete Plugins für .NET
- Search Text from Images in C#
- OCR PDF und Text aus PDF in C# mit Aspose.OCR für .NET API extrahieren
- Screenshot in Text mit Aspose.OCR $99 Plugin in C# konvertieren
- Bild in durchsuchbares PDF mit OCR unter Verwendung von C# umwandeln