
PDF-dokument är väsentliga i många affärsprocesser, som ofta kräver programmatisk åtkomst till deras skannade innehåll. Att extrahera text från skanna PDF filer kan vara utmanande, vilket betonar behovet av effektiva verktyg. I denna handledning kommer vi att utforska how to OCR PDF documents and extract text from PDF in C# using the reliable tools Aspose.OCR för .NET API, en ledande C# OCR PDF extraktionsbibliotek tillgänglig för gratis utvärdering.
Vad du kommer att lära
I den här artikeln kommer vi att täcka följande ämnen:
- Översikt över Aspose.OCR för .NET API
- Steg till OCR PDF och Extract Text
- Hur man gör OCR på PDF och spara text
- Konvertera OCR PDF till Word
- Konvertera OCR PDF till JSON
Översikt över Aspose.OCR för .NET API
Vi kommer att använda den Aspose.OCR för .NET API, .
Branden innehåller den AsposeOcr klass, som tillhandahåller flera metoder för OCR-operationer RecognizePdf(string, DokumentRecognitionSettings) Metoden är nödvändig för att extrahera text från ett specifikt PDF-dokument DocumentRecognitionSettings klass möjliggör anpassning av processen för erkännande, medan RecognitionResult Klassen inkapslar resultaten av erkännandet.
Du kan Ladda ner DLL av API eller installera den via NuGet:
PM> Install-Package Aspose.OCR
Steg till OCR PDF och Extract Text i C#
För att utföra OCR på PDF-dokument och extrahera den erkända texten följer du följande steg:
- Skapa en instans i AsposeOcr klass.
- Initiera ett objekt i DocumentRecognitionSettings-klassen.
- Ange språket för OCR.
- Få RecognitionResult genom att ringa Pdf()-metoden, passera bildvägen och DocumentRecognitionSettings och föremål.
- Gå igenom listan RecognitionResult för att visa den identifierade texten.
Här är ett exempel som illustrerar hur man gör OCR PDF-dokument och extrahera erkänt text i C#:
OCR PDF och extrahera text från PDF i C#
Hur man gör OCR på PDF och spara text i C#
För att utföra OCR på PDF-dokument och spara den erkända texten följer du följande steg:
- Skapa en instans i AsposeOcr klass.
- Initiera ett objekt i DocumentRecognitionSettings-klassen.
- Ange språket för OCR.
- Ring RecognizePdf() för att få RecognitionResult.
- Spara texten med SaveMultipageDocument()-metoden, som kräver utgångsfilvägen SaveFormat, och den RecognitionResult och föremål.
Här är ett exempel som visar hur man gör OCR PDF-dokument och sparar den erkända texten i C#:
Gör OCR på PDF och spara text i C#
Konvertera OCR PDF till Word i C#
Om du vill konvertera skannade PDF-dokument till Word följer du samma steg som ovan, men anger SaveFormat.Docx i det slutliga steget.
Här är ett exempel som illustrerar hur man gör OCR PDF och sparar den erkända texten som ett Word-dokument i C#:
OCR PDF och konvertera skannat PDF till Word i C#
Konvertera OCR PDF till JSON i C#
För att spara erkänd text från PDF-dokument i en JSON-fil, följ de föregående stegen med den enda ändringen att ange SaveFormat.Json i det sista steget.
Här är ett exempel som visar hur man gör OCR PDF och sparar den erkända texten som en JSON-fil i C#:
Få en gratis utvärderingslicens
Du kan Få en gratis tillfällig licens att utvärdera Aspose.OCR för .NET API utan begränsningar.
slutsatser
I denna handledning lärde vi oss hur man utför OCR på PDF-dokument och extraherar text från PDF i C TXT, DOCX, och JSON För mer information om Aspose.OCR för .NET API, kolla in den Dokumentation. Om du har några frågor, känna dig fri att komma ut till oss på vår Forumet.
Se även
- Konvertera skärmdumpar till text med OCR i C#
- OCR Image to Text och Spelling Correction i C#
- Konvertera skannat PDF till sökbart PDF med OCR i C#
Genom att utnyttja Aspose.OCR för .NET API kan du implementera hög noggrannhet PDF OCR i C# för olika applikationer, inklusive C# OCR Invoice bearbetning och formulär hantering. Denna förmånliga .NET PDF OKR-lösning är perfekt för utvecklare som vill integrera OKR PDF-funktioner i sina program på ett effektivt sätt.
Dessutom, om du behöver konvertera PDF till text i C#, ger denna API en enkel lösning. För dem som är intresserade av C# OCR PDF att text funktioner, är integrationen smidig, vilket gör det möjligt för effektiv textutvinning från olika dokumentformat. Du kan också använda funktionen c# Convert PDF to Text för att enkelt hantera texträning från PDFs, göra din utvecklingsprocess jämnare.
Om du letar efter en Aspose OCR C# Example, tjänar den här guiden som en omfattande resurs. Dessutom, för intrikade uppgifter som C# oCR API användning, täcker denna tutorial alla de väsentliga elementen som behövs för att starta effektivt.
För dem som vill bedöma PDF SDK och dokumentbearbetning mjukvaruföretaget Aspose på OCR PDFSDK, tjänar denna handledning som en utmärkt utgångspunkt för att förstå dess förmågor. Oavsett om du behöver en C# oCR DLL för integration eller en C # ocr handledare för vägledning, hittar du allt du måste använda API effektivt i dina projekt.
Dessutom, om du vill utnyttja C#-tekstkänning eller använda ** C# OCR-biblioteket** för olika applikationer, kan du utforska de funktioner som Aspose erbjuder för att stödja dessa funktioner. c# oCR PDF SDK-bedömningen är ett utmärkt tillfälle att experimentera med kapaciteterna i detta bibliotek, vilket säkerställer att du hittar de rätta lösningarna för dina ocr-behov.
Slutligen, om du behöver extra text från PDF i C#, eller använda en OCR API C # , kommer de C# OCR PDF-funktionerna som finns att effektivisera din utvecklingsprocess och förbättra applikationens funktionalitet.