Convert Scanned PDF to Word in C#

Introduktion

Scannede PDF-filer indeholder ofte tekst som billeder, hvilket gør det umuligt at vælge, redigere eller kopiere indholdet.Hvis du har brug for at konvertere scannet PDF’er til redigerbare Word-dokumenter, tilbyder Optical Character Recognition (OCR) teknologi en effektiv måde at udveksle tekst samtidig med opbevaring af den oprindelige formatering.I denne artikel vil du lære hvordan man programmeret konverterer scanne PDFs til Word (DOCX eller DOC) ved hjælp af C# med Aspose.OCR for .NET og Spring.Words til .Net biblioteker.

Hvorfor konvertere scannede PDF’er til Word?

Der er flere krævende grunde til at konvertere scannede PDF’er til Word-dokumenter:

  • Easy Edit Scanned Documents: Modifier tekst uden den manuelle retyping.
  • Extrakttekst til yderligere behandling: Brug den ekstraherede tekst til analyse eller integration i andre applikationer.
  • Hold layout og formatering: Hold originaldokumentets struktur samtidig med at den kan redigeres.
  • Automatisk OCR-baseret Dokumentbehandling: Integrér denne funktionalitet i dine C#-applikationer.

Tabellen af indhold

Sæt OCR API til Scanned PDF til Word Conversion

For at udveksle tekst fra scannede PDF’er og konvertere dem til Word-dokumenter, vil vi bruge:

Installation

Du kan nemt installere disse APIs via NuGet med følgende kommandoer:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

Alternativt kan du downloade DLL’erne fra Download af Aspose.

Konverter scannet PDF til redigeret Word-dokument

Følg disse trin for at konvertere scannede PDF-filer til Word (DOCX eller DOC) i C#:

  • Initialisere OCR med AsposeOcr.
  • Udvælg tekst ved hjælp af DocumentRecognitionSettings.
  • Store anerkendt tekst i a StringBuilder.
  • Skab et Word-dokument ved hjælp af Aspose.Words.
  • Anvend formatering og gem som DOCX eller DOC.

Eksempler på kode

Her er et eksempel på C#, der viser den skanne PDF til Word konvertering:

Bevarelse af formatering i OCR konvertering

Mens OCR tekstudvinding er kraftig, kan det ikke altid beholde den original formatering, fonts og stilarter. For at sikre nøjagtig formatting, overveje følgende tips:

  • Brug Aspose.Words Paragraph Styles til at anvende konsekvent tekstformatering.
  • Sæt fontegenskaber som størrelse, bold, italics og alignment.
  • Add page margins og layout for forbedret Word-dokumentproduktion.

4. håndtering af flere sider i scannede PDF’er

For multi-page scannede PDF’er er det afgørende at behandle og fusionere tekst fra alle sider til et enkelt Word-dokument.

  • Gå gennem hver side i den scannede PDF.
  • Kend tekst pr. side og gem den i en StringBuilder.
  • Tilføj anerkendt tekst til Word-dokumentet.

Denne tilgang sikrer seamless multi-page PDF til Word konvertering.

Licens til fuld OCR nøjagtighed

Som standard opererer Aspose.OCR i evalueringsmodus, som kan grænse tekstopdagelses nøjagtighed.

🔹 Du skal anmode om en Free Temporary License til evalueringsformål.

Konklusion og yderligere ressourcer

Samlinger

I denne guide dækker vi:

  • Sæt op Aspose.OCR til scannede PDF-behandling
  • Udvinding tekst fra scannede PDF’er i C#
  • Konvertering af genkendt tekst til et formateret Word-dokument
  • Handling Multi-page scannede PDF til Word konvertering

Ved at bruge Aspose.OCR og ASPOSE.Words, kan du nemt konvertere image-baserede PDF’er til redigerbare Word-filer. Start opbygningen af din OCR-powered PDF til Word converter i .NET i dag for kun $99!

Yderligere tips til Scanned PDF Conversion

Hvis du er på udkig efter måder at forbedre dit arbejdsproces, skal du overveje at bruge C# OCR PDF til Tekst kapaciteter eller C# pdf til DOCX løsninger til mere avanceret behandling. Uanset om du har brug for konvertering af scannede PDF-dokumenter til Word til redigering, eller blot ønsker at converter skannet PDF dokumenter i Word giver disse metoder uværdige support. For dem, der spørger, hvor kan jeg konvertere en scanned PDF till Word? vil de nævnte værktøjer guide dig gennem processen hårdt.

Skanning af PDF til Word Conversion

Endelig, for mere skræddersyede løsninger, udforske, hvordan du kan konvertere scannede PDF-filer til Word eller bruge en C# Text Recognition Library for at forbedre dine dokumentbehandlingsmuligheder. Disse ressourcer vil vise sig at være gavnlige for alle, der regelmæssigt beskæftiger sig med skannede dokumenter. Du kan også bruge C# PDF til DOCX værktøjer til at lette konverteringer eller stole på en C # OCR PDF to Text metode til forenkling af arbejdsprocessen med at udveksle tekst fra billeder.

More in this category