Convert Scanned PDF to Word in C#

Introductie

Scanned PDF-bestanden bevatten vaak tekst als afbeeldingen, waardoor het onmogelijk is om de inhoud te selecteren, te bewerken of te kopiëren.Als u nodig hebt om scannen PDF’s in bewerkbare Word-documenten te converteren, biedt Optical Character Recognition (OCR) technologie een efficiënte manier om tekst te extraheren terwijl de oorspronkelijke formatting wordt bewaard.In dit artikel leert u hoe u programmatiek omgezet gescannede PDF’s naar Word (DOCX of DOC) met behulp van C# met de Aspose.OCR voor .NET en Asposa.Words voor.NET-bibliotheken.

Waarom scannen PDF’s om te zetten in Word?

Er zijn verschillende verplichtende redenen om gescannelde PDF’s in Word-documenten te converteren:

  • Easily Edit Scanned Documents: Tekst wijzigen zonder de hassle van handmatige retyping.
  • Texte extraheren voor verdere verwerking: Gebruik de extrageerde tekst voor analyse of integratie in andere toepassingen.
  • Behoud Layout en Formatting: Behoud de structuur van het oorspronkelijke document terwijl het bewerkt kan worden.
  • Automatische OCR-gebaseerde documentverwerking: integreren van deze functionaliteit in uw C#-applicaties.

Tabel van inhoud

Set Up OCR API for Scanned PDF to Word Conversion

Om tekst uit gescande PDF’s te extraheren en ze in Word-documenten te converteren, gebruiken we:

Installatie

U kunt deze APIs gemakkelijk installeren via NuGet met de volgende bestellingen:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

Als alternatief kunt u de DLL’s downloaden van de Aspose downloads pagina.

Convert Scanned PDF naar Editable Word Document

Volg de volgende stappen om convert scanned PDF-bestanden naar Word (DOCX of DOC) in C#:

  • Initialiseren OCR met AsposeOcr.
  • Extract tekst met behulp van DocumentRecognitionSettings.
  • Store geïdentificeerde tekst in a StringBuilder.
  • Een Word-document maken met behulp van Aspose.Words.
  • Apply formatting en bewaar als DOCX of DOC.

Code voorbeeld

Hier is een C# voorbeeld dat de scanned PDF to Word conversie toont:

Het behoud van formatting in OCR conversie

Hoewel OCR-tekstextractie krachtig is, kan het niet altijd de originele formatting, fonts en stijlen behouden.

  • Uit Aspose.Words Paragraph Styles om consistente tekstformatting toe te passen.
  • Set font eigenschappen zoals grootte, bold, italics en aanpassing.
  • Aanpassen van pagina-marges en layout voor een betere Word-document-uitgang.

Het beheren van meerdere pagina’s in gescannelde PDF’s

Voor multi-page scanned PDFs is het van cruciaal belang om tekst van alle pagina’s te verwerken en te combineren in een enkel Word-document.

  • Look door elke pagina in de gescannuleerde PDF.
  • Kennen tekst per pagina en opslaan het in een StringBuilder.
  • Angevoeg geïdentificeerde tekst aan het Word-document.

Deze benadering zorgt voor samenloos multi-pagina PDF naar Word conversie.

Licentie voor volledige OCR nauwkeurigheid

Op standaard werkt Aspose.OCR in evaluatiemodus, die de accuratie van de tekst herkennen kan beperken. om het volledige potentieel van het API te ontgrendelen:

Vraag een Free Temporary License voor beoordelingsdoeleinden.

Conclusie en aanvullende middelen

Samenvatting

In deze gids omvatten we:

  • Set up Aspose.OCR voor gescande PDF-verwerking
  • Het extraheren van text uit gescannuleerde PDF’s in C#
  • Converteren gekeerde tekst in een geformateerd Word-document
  • Handelen multi-page scannen PDF naar Word conversie

Door gebruik te maken van Aspose.OCR en Aspoze.Words, kunt u moeiteloos convert afbeeldingsgebaseerde PDF’s naar bewerkbare Word-bestanden. Begin met het opbouwen van uw OCR-gedreven PDF naar Word converter in .NET vandaag voor slechts $99!

Aanvullende tips voor Scanned PDF Conversion

Als u op zoek bent naar manieren om uw werkstroom te verbeteren, overweeg dan het gebruik van C# OCR PDF naar Text-capaciteiten of C# PDF tot DOCX oplossingen voor meer geavanceerde verwerking. Of u nodig hebt om convert scanned PDF to Word voor bewerking, of gewoon wilt Convert scannen PDF document naar Word , deze methoden bieden waardevolle ondersteuning. Voor degenen die vragen, how do I convert a scannet PDF into Word? zullen de genoemde hulpmiddelen u zonder moeite door het proces begeleiden.

Scannen van PDF naar Word Conversion

Ten slotte, voor meer gepersonaliseerde oplossingen, ontdek hoe u convert scaned PDF-bestand naar Word of gebruik een C# Text Recognition Library om uw documentverwerkingcapaciteiten te verbeteren. Deze middelen zullen nuttig blijken voor iedereen die regelmatig met scanned documenten omgaat. U kunt ook gebruik maken van c# PDF naar DOCX gereedschappen om conversies te faciliteren of vertrouwen op de ** C# OCR PDF tot Text** methode om de werkstroom van het extraheren van tekst uit beelden te vereenvoudigen.

More in this category