
PDF-dokumenter er essensielle i mange forretningsprosesser, ofte som krever programmatisk tilgang til deres skannede innhold. Ekstraktering av tekst fra skannet PDF filer kan være utfordrende, understreker behovet for effektive verktøy. I denne veiledningen, vil vi utforske how to OCR PDF documents and extract text from PDF in C# using the reliable tools Aspose.OCR for .NET API, en ledende C# OCR PDF ekstraksjonsbibliotek tilgjengelig for gratis evaluering.
Hva du vil lære
I denne artikkelen vil vi dekke følgende emner:
- Oversikt over Aspose.OCR for .NET API
- Trinn til OCR PDF og Extract Text
- Hvordan utføre OCR på PDF og lagre tekst
- Konverter OCR PDF til Word
- Konverter OCR PDF til JSON
Oversikt over Aspose.OCR for .NET API
Vi vil bruke den Aspose.OCR for .NET API, en robust **.NET PDF OCR API ** designet for å gjenkjenne tekst fra skannede bilder, smarttelefonbilder og skjermbilder, returnerer resultater i ulike dokumentformat. Denne API konverterer ikke bare bilder til tekst, men skaper også søkbare PDF-er fra scanner og korrigerer eventuelle spellingfeil i den gjenkjente teksten, noe som gjør det til en av de raskeste **C# PDF oCR løsninger ** tilgjengelig for bare $99.
Brannene inneholder AsposeOcr klass, som gir flere metoder for OCR-operasjoner RecognizePdf (string, DocumentRecognitionSettings) Metoden er viktig for utvinning av tekst fra et spesifisert PDF-dokument DocumentRecognitionSettings Klasse gjør det mulig å tilpasse anerkjennelsesprosessen, mens RecognitionResult Klassen encapsulerer resultatene av anerkjennelsen.
Du kan Last ned DLL av API eller installere den via NuGet:
PM> Install-Package Aspose.OCR
Trinn til OCR PDF og Ekstrakt tekst i C#
For å utføre OCR på PDF-dokumenter og trekke ut den anerkjente teksten, følg disse trinnene:
- Skap en instans av AsposeOcr klassen.
- Initialiser et objekt i klassen DocumentRecognitionSettings.
- Angi språket for OCR.
- Få **RecognitionResult ** ved å ringe til Pdf() -metoden, passere bildeveien og DocumentRecognitionSettings og objektet.
- Gå gjennom RecognitionResult -listen for å vise den identifiserte teksten.
Her er et eksempel som illustrerer hvis OCR PDF-dokumenter og ekstrakter anerkjent tekst i C#:
OCR PDF og Ekstrakte tekst fra PDF i C#
Hvordan utføre OCR på PDF og lagre tekst i C#
For å utføre OCR på PDF-dokumenter og lagre den anerkjente teksten, følg disse trinnene:
- Skap en instans av AsposeOcr klassen.
- Initialiser et objekt i klassen DocumentRecognitionSettings.
- Angi språket for OCR.
- Ring **RecognizePdf() ** for å få RekognitionResult.
- Lagre teksten ved hjelp av SaveMultipageDocument() -metoden, som krever utgangsfilveien SaveFormat, og den RecognitionResult og objektet.
Her er et eksempel som viser hvis å OCR PDF-dokumenter og lagre den anerkjente teksten i C#:
Utføre OCR på PDF og lagre tekst i C#
Konverter OCR PDF til Word i C#
For å konvertere skannede PDF-dokumenter til Word, følg de samme trinnene som oppgitt tidligere, men angi SaveFormat.Docx i det siste steget.
Her er et eksempel som illustrerer hvis å OCR PDF og lagre den anerkjente teksten som et Word-dokument i C#:
OCR PDF og konvertere skannede PDF til Word i C#
Konverter OCR PDF til JSON i C#
For å lagre gjenkjent tekst fra PDF-dokumenter i en JSON-fil, følg de foregående trinnene med den eneste endringen som er å angi SaveFormat.Json i det siste steget.
Her er et eksempel som viser hvis å OCR PDF og lagre den anerkjente teksten som en JSON-fil i C#:
Få en gratis evalueringslisens
Du kan Få gratis midlertidig lisens å evaluere Aspose.OCR for .NET API uten noen begrensninger.
Conclusion
I denne veiledningen lærte vi hvordan du utfører OCR på PDF-dokumenter og ekstrakter tekst fra PDF i C TXT, DOCX, og JSON For mer informasjon om Aspose.OCR for .NET API, sjekk ut Dokumentasjon. Hvis du har noen spørsmål, føl deg fri til å nå ut til oss på vår Forumet.
Se også
- Konverter skjermbilder til tekst med OCR i C#
- OCR Image to Text og Spelling Correction i C#
- Konverter skannede PDF til søkbare PDF med OCR i C#
Ved å bruke Aspose.OCR for .NET API , kan du implementere høy nøyaktighet PDF OCR i C# for ulike applikasjoner, inkludert C# OCR Invoice behandling og formhåndtering. Denne forbedringsfylte .Net PDF OKR-løsningen er perfekt for utviklere som ønsker å integrere OKR PDF kapasiteter i sine programmer effektivt.
I tillegg, hvis du trenger å **konvertere PDF til tekst i C# ** , gir denne API en enkel løsning. For de som er interessert i **C# OCR PDF for tekst ** funksjoner, er integrasjonen sømløs, slik at du kan effektivt tekstutvinning fra ulike dokumentformater. Du kan også bruke c# Convert PDF to Text -funksjonaliteten for å enkelt håndtere tekstudveksling fra PDF-er, noe som gjør utviklingsprosessen smalere.
Hvis du leter etter en Aspose OCR C# Example , tjener denne guiden som en omfattende ressurs. Dessuten, for komplekse oppgaver som C# API bruk, dekker denne veiledningen alle de grunnleggende elementene som trengs for å komme i gang effektivt.
For de som ønsker å vurderer PDF SDK og dokumentbehandlings programvare selskapet Aspose på OCR PDFSDK , tjener denne tutorialen som en utmerket utgangspunkt for å forstå dens evner. Uansett om du trenger en C# O CR DLL for integrasjon eller et C# oCR tutorial for veiledning, vil du finne alt du behøver å effektivt bruke API i dine prosjekter.
Videre, hvis du ønsker å utnytte C#-tekstkjenning eller bruke C# OCR-biblioteket for ulike applikasjoner, kan du utforske funksjonene Aspose tilbyr for å støtte denne funksjonen.
Endelig, hvis du trenger å ekstrakte tekst fra PDF i C# , eller bruke en OCR API C # , vil de C# OCR PDF funksjonene som er tilgjengelige raskere utviklingsprosessen din og forbedre applikasjonsfunksjonaliteten.