PDF-dokument är en integrerad del av olika affärsprocesser och kräver ofta programmatisk åtkomst till deras skannade innehåll. Att extrahera text från skannade PDF-filer kan vara en komplex uppgift, vilket belyser behovet av effektiva verktyg. I den här guiden kommer vi att fördjupa oss i hur man OCR:ar PDF-dokument och extraherar text från PDF i C# med hjälp av den pålitliga Aspose.OCR för .NET API, ett ledande C# OCR PDF-extraktionsbibliotek som är tillgängligt för gratis utvärdering.

Vad Du Kommer Att Lära Dig

I den här artikeln kommer vi att täcka följande ämnen:

  1. Översikt över Aspose.OCR för .NET API
  2. Steg för att OCR:a PDF och extrahera text
  3. Hur man utför OCR på PDF och sparar text
  4. Konvertera OCR PDF till Word
  5. Konvertera OCR PDF till JSON

Översikt över Aspose.OCR för .NET API

Vi kommer att använda Aspose.OCR för .NET API, ett robust .NET PDF OCR API som är utformat för att känna igen text från skannade bilder, mobiltelefonbilder och skärmdumpar, och returnera resultat i olika dokumentformat. Detta API konverterar inte bara bilder till text utan skapar också sökbara PDF-filer från skanningar och rättar till eventuella stavfel i den erkända texten, vilket gör det till en av de snabbaste C# PDF OCR-lösningarna som finns tillgängliga för endast $99.

API:et har klassen AsposeOcr, som tillhandahåller flera metoder för OCR-operationer. Särskilt metoden RecognizePdf(string, DocumentRecognitionSettings) är avgörande för att extrahera text från ett angivet PDF-dokument. Klassen DocumentRecognitionSettings möjliggör anpassning av igenkänningsprocessen, medan klassen RecognitionResult kapslar in resultaten av igenkänningen.

Du kan ladda ner DLL-filen för API:et eller installera det via NuGet:

PM> Install-Package Aspose.OCR

Steg för att OCR:a PDF och extrahera text i C#

För att utföra OCR på PDF-dokument och extrahera den erkända texten, följ dessa steg:

  1. Skapa en instans av klassen AsposeOcr.
  2. Initiera ett objekt av klassen DocumentRecognitionSettings.
  3. Ange språket för OCR.
  4. RecognitionResult genom att anropa metoden RecognizePdf(), och skicka bildens sökväg och objektet DocumentRecognitionSettings.
  5. Loop genom listan RecognitionResult för att visa den identifierade texten.

Här är ett exempel som illustrerar hur man OCR:ar PDF-dokument och extraherar erkänd text i C#:

OCR PDF och extrahera text från PDF i C#

Hur man utför OCR på PDF och sparar text i C#

För att utföra OCR på PDF-dokument och spara den erkända texten, följ dessa steg:

  1. Skapa en instans av klassen AsposeOcr.
  2. Initiera ett objekt av klassen DocumentRecognitionSettings.
  3. Ange språket för OCR.
  4. Anropa metoden RecognizePdf() för att få RecognitionResult.
  5. Spara texten med hjälp av metoden SaveMultipageDocument(), som kräver sökvägen för utdatafilen, SaveFormat och objektet RecognitionResult.

Här är ett exempel som demonstrerar hur man OCR:ar PDF-dokument och sparar den erkända texten i C#:

Utför OCR på PDF och spara text i C#

Konvertera OCR PDF till Word i C#

För att konvertera skannade PDF-dokument till Word, följ samma steg som beskrivits tidigare, men ange SaveFormat.Docx i det sista steget.

Här är ett exempel som illustrerar hur man OCR:ar PDF och sparar den erkända texten som ett Word-dokument i C#:

OCR PDF och konvertera skannad PDF till Word i C#

Konvertera OCR PDF till JSON i C#

För att spara erkänd text från PDF-dokument i en JSON-fil, följ de tidigare stegen med den enda ändringen att ange SaveFormat.Json i det sista steget.

Här är ett exempel som demonstrerar hur man OCR:ar PDF och sparar den erkända texten som en JSON-fil i C#:

Få en Gratis Utvärderingslicens

Du kan skaffa en gratis tillfällig licens för att utvärdera Aspose.OCR för .NET API utan några begränsningar.

Slutsats

I den här guiden lärde vi oss hur man utför OCR på PDF-dokument och extraherar text från PDF i C#. Vi utforskade också hur man sparar den erkända texten som en TXT, DOCX och JSON fil. För mer information om Aspose.OCR för .NET API, kolla in dess dokumentation. Om du har några frågor, tveka inte att kontakta oss på vårt forum.

Se Även

Genom att utnyttja Aspose.OCR för .NET API kan du implementera hög noggrannhet PDF OCR i C# för olika applikationer, inklusive fakturabehandling och formulärhantering. Denna prisvärda .NET PDF OCR-lösning är perfekt för utvecklare som vill integrera OCR PDF-funktioner i sina applikationer effektivt.