
Introduktion
Scannede PDF-filer indeholder ofte tekst som billeder, hvilket gør det umuligt at vælge, redigere eller kopiere indholdet.Hvis du har brug for at konvertere scannet PDF’er til redigerbare Word-dokumenter, tilbyder Optical Character Recognition (OCR) teknologi en effektiv måde at udveksle tekst samtidig med opbevaring af den oprindelige formatering.I denne artikel vil du lære hvordan man programmeret konverterer scanne PDFs til Word (DOCX eller DOC) ved hjælp af C# med Aspose.OCR for .NET og Spring.Words til .Net biblioteker.
Hvorfor konvertere scannede PDF’er til Word?
Der er flere krævende grunde til at konvertere scannede PDF’er til Word-dokumenter:
- Easy Edit Scanned Documents: Modifier tekst uden den manuelle retyping.
- Extrakttekst til yderligere behandling: Brug den ekstraherede tekst til analyse eller integration i andre applikationer.
- Hold layout og formatering: Hold originaldokumentets struktur samtidig med at den kan redigeres.
- Automatisk OCR-baseret Dokumentbehandling: Integrér denne funktionalitet i dine C#-applikationer.
Tabellen af indhold
- Indstill OCR API til Scanned PDF til Word Conversion
- Konverter scannet PDF til redigeret Word-dokument
- Opbevaring af formatering i OCR konvertering
- Behandling af flere sider i scannede PDF’er
- Licens til fuld OCR præcision
- Konklusion og yderligere ressourcer
Sæt OCR API til Scanned PDF til Word Conversion
For at udveksle tekst fra scannede PDF’er og konvertere dem til Word-dokumenter, vil vi bruge:
- Aspose.OCR for .NET – Et kraftfuldt værktøj, der genkender tekst fra scannede billeder.
- Aspose.Words for .NET – Denne bibliotek konverterer den udvundede tekst til Word-format.
Installation
Du kan nemt installere disse APIs via NuGet med følgende kommandoer:
PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words
Alternativt kan du downloade DLL’erne fra Download af Aspose.
Konverter scannet PDF til redigeret Word-dokument
Følg disse trin for at konvertere scannede PDF-filer til Word (DOCX eller DOC) i C#:
- Initialisere OCR med
AsposeOcr
. - Udvælg tekst ved hjælp af
DocumentRecognitionSettings
. - Store anerkendt tekst i a
StringBuilder
. - Skab et Word-dokument ved hjælp af
Aspose.Words
. - Anvend formatering og gem som DOCX eller DOC.
Eksempler på kode
Her er et eksempel på C#, der viser den skanne PDF til Word konvertering:
Bevarelse af formatering i OCR konvertering
Mens OCR tekstudvinding er kraftig, kan det ikke altid beholde den original formatering, fonts og stilarter. For at sikre nøjagtig formatting, overveje følgende tips:
- Brug Aspose.Words Paragraph Styles til at anvende konsekvent tekstformatering.
- Sæt fontegenskaber som størrelse, bold, italics og alignment.
- Add page margins og layout for forbedret Word-dokumentproduktion.
4. håndtering af flere sider i scannede PDF’er
For multi-page scannede PDF’er er det afgørende at behandle og fusionere tekst fra alle sider til et enkelt Word-dokument.
- Gå gennem hver side i den scannede PDF.
- Kend tekst pr. side og gem den i en
StringBuilder
. - Tilføj anerkendt tekst til Word-dokumentet.
Denne tilgang sikrer seamless multi-page PDF til Word konvertering.
Licens til fuld OCR nøjagtighed
Som standard opererer Aspose.OCR i evalueringsmodus, som kan grænse tekstopdagelses nøjagtighed.
🔹 Du skal anmode om en Free Temporary License til evalueringsformål.
Konklusion og yderligere ressourcer
Samlinger
I denne guide dækker vi:
- Sæt op Aspose.OCR til scannede PDF-behandling
- Udvinding tekst fra scannede PDF’er i C#
- Konvertering af genkendt tekst til et formateret Word-dokument
- Handling Multi-page scannede PDF til Word konvertering
Ved at bruge Aspose.OCR og ASPOSE.Words, kan du nemt konvertere image-baserede PDF’er til redigerbare Word-filer. Start opbygningen af din OCR-powered PDF til Word converter i .NET i dag for kun $99!
Yderligere tips til Scanned PDF Conversion
Hvis du er på udkig efter måder at forbedre dit arbejdsproces, skal du overveje at bruge C# OCR PDF til Tekst kapaciteter eller C# pdf til DOCX løsninger til mere avanceret behandling. Uanset om du har brug for konvertering af scannede PDF-dokumenter til Word til redigering, eller blot ønsker at converter skannet PDF dokumenter i Word giver disse metoder uværdige support. For dem, der spørger, hvor kan jeg konvertere en scanned PDF till Word? vil de nævnte værktøjer guide dig gennem processen hårdt.
Skanning af PDF til Word Conversion
Endelig, for mere skræddersyede løsninger, udforske, hvordan du kan konvertere scannede PDF-filer til Word eller bruge en C# Text Recognition Library for at forbedre dine dokumentbehandlingsmuligheder. Disse ressourcer vil vise sig at være gavnlige for alle, der regelmæssigt beskæftiger sig med skannede dokumenter. Du kan også bruge C# PDF til DOCX værktøjer til at lette konverteringer eller stole på en C # OCR PDF to Text metode til forenkling af arbejdsprocessen med at udveksle tekst fra billeder.