Aspose.OCR pro .NET nabízí silné řešení tohoto problému tím, že umožňuje vývojářům extrahovat text z obrázků a učinit je vyhledatelnými. Tento blogový příspěvek vás povede procesem nastavení vašeho rozvojového prostředí, konfigurace rozpoznávacích parametrů, extrakce textu v balíčku, budování nebo aktualizace hledacího indexu, integrace funkce hledání s archivním prohlížečem a přidání robustní manipulace s chybami.

Kompletní příklad

Krok za krokem průvodce

Krok 1: Vytvořte si své rozvojové prostředí

Chcete-li začít s Aspose.OCR pro .NET, musíte mít rozvojové prostředí nastavené. To zahrnuje instalaci potřebného SDK a jakýchkoliv závislostí. Můžete si stáhnout nejnovější verzi Asposa.ocR z oficiální webové stránky a přidat jej do vašeho projektu prostřednictvím NuGet nebo odkazem na DLL přímo.

Krok 2: Vytvoření archivních souborů

Předtím, než začnete zpracovávat dokumenty, organizujte skenované dokumentové soubory do struktury adresáře, která má smysl pro váš průtok práce. To by mohlo být založeno na datu, typu dokumentu nebo jakémukoli jiném relevantním kritériu. Ujistěte se, že všechny Soubory jsou přístupné z vaší aplikace a že jsou ve formátu podporovaném společností Aspose.OCR (například JPEG, PNG, TIFF atd.).

Krok 3: Konfigurace nastavení rozpoznání

Aspose.OCR vám umožňuje dokončit proces rozpoznávání, aby vyhovoval vašim specifickým potřebám. Můžete nastavit nastavení, jako je jazyk, typ písma a možnosti předběžného zpracování obrazu. Například, pokud pracujete s dokumenty v angličtině, nastavíte jazyk na “anglicky”.

// Step 2: Organize scanned document files into a directory structure
string inputDirectory = @"C:\ScannedDocuments\2023\Invoices";
string[] supportedFormats = { ".jpg", ".png", ".tiff" };

// Get all supported files from the directory
var files = Directory.GetFiles(inputDirectory)
                     .Where(f => supportedFormats.Contains(Path.GetExtension(f), StringComparer.OrdinalIgnoreCase))
                     .ToArray();

Krok 4: Odstraňování textu v batch

Jakmile jsou vaše nastavení konfigurovány, můžete začít extrahovat text z vašich dokumentů. Aspose.OCR podporuje zpracování souborů, což znamená, že můžete zpracovávat více soubory najednou.

// Step 3: Configuring Recognition Settings
ocrEngine.SetLanguage(Language.English);
ocrEngine.SetImagePreprocessing(ImagePreprocessingOptions.Denoising);
ocrEngine.SetResolution(300); // Set DPI for better text detection

Krok 5: Vytvoření nebo aktualizace vyhledávacího indexu

Po extrahování textu z vašich dokumentů musíte vytvořit nebo aktualizovat vyhledávací index, který umožňuje uživatelům rychle najít příslušné dokumenty na základě hledání klíčových slov.

// Step 4: Extract text in batch from a directory of images
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\results";

ocrEngine.RecognizeMultiple(inputDirectory, outputDirectory);

Krok 6: Integrace vyhledávání s archivním prohlížečem

Chcete-li, aby vaše vyhledávané dokumenty přístupné koncovým uživatelům, musíte integrovat funkci hledání do archivní prohlížeče aplikace. To by mohlo být webové rozhraní nebo desktopovou aplikaci.

// Step 5: Building or Updating a Search Index
// Store extracted text in a searchable format (e.g., database or inverted index file)
string extractedText = ocrEngine.RecognizePage("scannedDocument.png").CodeText;
File.WriteAllText("searchIndex.txt", extractedText);

Krok 7: Přidání chování chyb

Konečně, je důležité přidat robustní řešení chyb do aplikace, aby se ujistil, že může milosrdně řešit neočekávané problémy, jako jsou zkorumpované soubory nebo síťové chyby.

Nejlepší postupy

Sledováním kroků uvedených v tomto tutoriálu, můžete využít Aspose.OCR pro .NET k extrahování textu z obrázků a integrovat jej do vyhledatelného formátu. Nezapomeňte důkladně testovat vaši aplikaci s různými typy dokumentů a za různých podmínek k zajištění spolehlivosti. Navíc, zvážit provádění funkcí, jako je hodnocení kvality OCR a automatické opravy dále zlepšit přesnost vašeho procesu extrahu textů.

More in this category