PDF-dokumenter er væsentlige i mange forretningsprocesser, ofte kræver programmatisk adgang til deres scannede indhold. Ekstraktering af tekst fra skannede PDF filer kan være udfordrende, understreger behovet for effektive værktøjer. I denne tutorial, vil vi udforske how to OCR PDF documents and extract text from PDF in C# using the reliable tools Aspose.OCR til .NET API, en førende C# OCR PDF ekstraktionsbibliotek til rådighed for gratis evaluering.

Hvad du vil lære

I denne artikel vil vi dække følgende emner:

Oversigt over Aspose.OCR for .NET API

Vi vil bruge den Aspose.OCR til .NET API, en robust .NET PDF OCR API designet til at genkende tekst fra scannede billeder, smartphone billeder og skærmbilleder, returnerer resultater i forskellige dokumentformat. Denne API konverterer ikke kun billeder til tekst, men skaber også søgbare PDF’er fra scanner og korrigerer eventuelle spejling fejl i den anerkendte text, hvilket gør det til en af de hurtigste C# PDF oCR løsninger tilgængelige for kun $99.

Branden indeholder den AsposeOcr en klasse, der giver flere metoder til OCR-operationer RecognizePdf(string, DocumentRecognitionSettings) metode er afgørende for udvinding af tekst fra et bestemt PDF-dokument DocumentRecognitionSettings Klasse giver mulighed for tilpasning af anerkendelsesprocessen, mens RecognitionResult Klassen encapsulerer resultaterne af anerkendelsen.

Du kan Download DLL af API eller installere det via NuGet:

PM> Install-Package Aspose.OCR

Trin til OCR PDF og udveksle tekst i C#

For at udføre OCR på PDF-dokumenter og udtrykke den anerkendte tekst, skal du følge disse trin:

  • Skab et eksempel på klassen AsposeOcr.
  • Start et objekt i klassen DocumentRecognitionSettings.
  • Angiv sproget for OCR.
  • RecognitionResult ved at opfordre til Pdf()-metoden, passere billedvejen og DocumentRecognitionSettings af objektet.
  • Gå gennem RecognitionResult-listen for at vise den identificerede tekst.

Her er et eksempel, der illustrerer hvis OCR PDF-dokumenter og udveksle anerkendt tekst i C#:

OCR PDF og udvælg tekst fra PDF i C#

Hvordan at udføre OCR på PDF og gemme tekst i C#

For at udføre OCR på PDF-dokumenter og gemme den anerkendte tekst, skal du følge disse trin:

  • Skab et eksempel på klassen AsposeOcr.
  • Start et objekt i klassen DocumentRecognitionSettings.
  • Angiv sproget for OCR.
  • Ring til RecognizePdf()-metoden for at få RekognitionResult.
  • Spare teksten ved hjælp af SaveMultipageDocument()-metoden, som kræver udgangsfilen SaveFormat, Og den RecognitionResult af objektet.

Her er et eksempel, der viser hvis OCR PDF-dokumenter og gemmer den anerkendte tekst i C#:

Udføre OCR på PDF og gem tekst i C#

Konvertering af OCR PDF til Word i C#

For at konvertere scannede PDF-dokumenter til Word, skal du følge de samme trin som ovenfor, men angive SaveFormat.Docx i det endelige trin.

Her er et eksempel, der illustrerer hvis OCR PDF og gemmer den anerkendte tekst som et Word-dokument i C#:

OCR PDF og konvertere scannede PDF til Word i C#

Konvertering af OCR PDF til JSON i C#

For at gemme anerkendt tekst fra PDF-dokumenter i en JSON-fil, skal du følge de foregående trin med den eneste ændring at angive SaveFormat.Json i det endelige skridt.

Her er et eksempel, der viser hvis OCR PDF og gemmer den anerkendte tekst som en JSON-fil i C#:

Få en gratis evalueringslicens

Du kan Få en gratis midlertidig licens at evaluere Aspose.OCR for .NET API uden nogen begrænsninger.

Konklusion

I denne tutorial lærte vi, hvordan man udfører OCR på PDF-dokumenter og udveksler tekst fra PDF i C TXT, DOKX, og JSON For yderligere oplysninger om Aspose.OCR for .NET API, se den Dokumentation. Hvis du har spørgsmål, føle dig fri til at komme ud til os på vores Forum.

Se også

Ved at udnytte Aspose.OCR for .NET API kan du implementere høj nøjagtighed PDF OCR i C# for forskellige applikationer, herunder C# O CR Invoice behandling og formularbehandling. Denne fortrinsmæssige .NET PDF OCC-løsning er perfekt for udviklere, der søger at integrere OCR PDF kapaciteter effektivt i deres apps.

Derudover, hvis du har brug for at konvertere PDF til tekst i C#, giver denne API en enkel løsning. For dem, der er interesseret i C# OCR PDF till tekst kapaciteter, er integrationen sømløs, hvilket giver mulighed for effektiv tekstudvinding fra forskellige dokumentformater. Du kan også bruge c# Convert PDF to Text funktionalitet til let at håndtere tekst udvinning fra PDF’er, gøre din udviklingsproces glattere.

Hvis du er på udkig efter en Aspose OCR C# Example, tjener denne guide som en omfattende ressource. Derudover, for komplekse opgaver som C# API brug, dækker denne tutorial alle de væsentlige elementer, der er nødvendige for at komme i gang effektivt.

For dem, der ønsker at evaluere PDF SDK og dokumentbehandlingssoftwaren Aspose på OCR PDFSDK, tjener denne tutorial som en fremragende udgangspunkt for at forstå dens evner. Uanset om du har brug for en C# O CR DLL for integration eller et ** C# oCR tutorial** til vejledning, vil du finde alt, hvad du skal bruge API effektivt i dine projekter.

Derudover, hvis du ønsker at udnytte C#-tekst anerkendelse eller bruge C# OCR-biblioteket til forskellige applikationer, kan du udforske de funktioner, som Aspose tilbyder for at understøtte disse funktioner.

Endelig, hvis du har brug for at ekstrakte tekst fra PDF i C# eller bruge en OCR API C #, vil de C# OCR PDF-funktioner, der er til rådighed, gøre din udviklingsproces mere effektiv og forbedre applikationsfunktionaliteten. Du kan også bruge C #OCR-biblioteket til forskellige OCC-opgaver, herunder c # Recognize Text from Image og c # oCR Sample implementationer til yderligere forbedring af dine projekter.

More in this category