
PDF dokumenty jsou nedílnou součástí různých obchodních procesů, často vyžadující programatický přístup k jejich skenovanému obsahu. Extrakce textu ze skenovaných PDF souborů může být složitý úkol, což zdůrazňuje potřebu efektivních nástrojů. V tomto tutoriálu se podíváme na to, jak provést OCR PDF dokumenty a extrahovat text z PDF v C# pomocí spolehlivého Aspose.OCR for .NET API, přední C# OCR PDF extrakční knihovny dostupné pro bezplatné vyzkoušení.
Co se Naučíte
V tomto článku pokryjeme následující témata:
- Přehled Aspose.OCR for .NET API
- Kroky k OCR PDF a Extrakci Textu
- Jak Provést OCR na PDF a Uložit Text
- Konverze OCR PDF do Wordu
- Konverze OCR PDF do JSON
Přehled Aspose.OCR for .NET API
Využijeme Aspose.OCR for .NET API, robustní .NET PDF OCR API navržené k rozpoznávání textu ze skenovaných obrázků, fotografií ze smartphonů a screenshotů, přičemž výsledky vrací v různých formátech dokumentů. Toto API nejen převádí obrázky na text, ale také vytváří vyhledávatelné PDF ze skenů a opravuje jakékoli pravopisné chyby v rozpoznaném textu, což z něj činí jedno z nejrychlejších C# PDF OCR řešení dostupných za pouhých 99 $.
API obsahuje třídu AsposeOcr, která poskytuje více metod pro OCR operace. Zejména metoda RecognizePdf(string, DocumentRecognitionSettings) je zásadní pro extrakci textu ze specifikovaného PDF dokumentu. Třída DocumentRecognitionSettings umožňuje přizpůsobení procesu rozpoznávání, zatímco třída RecognitionResult encapsuluje výsledky rozpoznání.
Můžete stáhnout DLL API nebo jej nainstalovat přes NuGet:
PM> Install-Package Aspose.OCR
Kroky k OCR PDF a Extrakci Textu v C#
Pro provedení OCR na PDF dokumentech a extrakci rozpoznaného textu postupujte podle těchto kroků:
- Vytvořte instanci třídy AsposeOcr.
- Inicializujte objekt třídy DocumentRecognitionSettings.
- Určete jazyk pro OCR.
- Získejte RecognitionResult vyvoláním metody RecognizePdf(), předáním cesty k obrázku a objektu DocumentRecognitionSettings.
- Procházejte seznam RecognitionResult, abyste zobrazili identifikovaný text.
Zde je příklad ilustrující jak provést OCR PDF dokumenty a extrahovat rozpoznaný text v C#:
Jak Provést OCR na PDF a Uložit Text v C#
Pro provedení OCR na PDF dokumentech a uložení rozpoznaného textu postupujte podle těchto kroků:
- Vytvořte instanci třídy AsposeOcr.
- Inicializujte objekt třídy DocumentRecognitionSettings.
- Určete jazyk pro OCR.
- Zavolejte metodu RecognizePdf() pro získání RecognitionResult.
- Uložte text pomocí metody SaveMultipageDocument(), která vyžaduje cestu k výstupnímu souboru, SaveFormat a objekt RecognitionResult.
Zde je příklad ilustrující jak provést OCR PDF dokumenty a uložit rozpoznaný text v C#:
Konverze OCR PDF do Wordu v C#
Pro konverzi skenovaných PDF dokumentů do Wordu postupujte podle stejných kroků, jak bylo uvedeno výše, ale v posledním kroku určete SaveFormat.Docx.
Zde je příklad ilustrující jak provést OCR PDF a uložit rozpoznaný text jako Word dokument v C#:
Konverze OCR PDF do JSON v C#
Pro uložení rozpoznaného textu z PDF dokumentů do JSON souboru postupujte podle předchozích kroků s jedinou změnou, že v posledním kroku určíte SaveFormat.Json.
Zde je příklad ilustrující jak provést OCR PDF a uložit rozpoznaný text jako JSON soubor v C#:
Získejte Bezplatnou Zkušební Licenci
Můžete získat bezplatnou dočasnou licenci pro hodnocení Aspose.OCR for .NET API bez jakýchkoli omezení.
Závěr
V tomto tutoriálu jsme se naučili, jak provést OCR na PDF dokumentech a extrahovat text z PDF v C#. Také jsme prozkoumali, jak uložit rozpoznaný text jako TXT, DOCX a JSON soubor. Pro více informací o Aspose.OCR for .NET API se podívejte na jeho dokumentaci. Pokud máte jakékoli dotazy, neváhejte nás kontaktovat na našem fóru.
Viz Také
- Převod Screenshotu na Text s OCR v C#
- OCR Obrázek na Text a Oprava Pravopisu v C#
- Převod Skenovaného PDF na Vyhledávatelný PDF s OCR v C#
Využitím Aspose.OCR for .NET API můžete implementovat vysokou přesnost PDF OCR v C# pro různé aplikace, včetně zpracování faktur a zpracování formulářů. Toto cenově dostupné .NET PDF OCR řešení je ideální pro vývojáře, kteří chtějí efektivně integrovat OCR PDF funkce do svých aplikací.