Automatizace zpracování dokumentů může výrazně zvýšit produktivitu a přesnost v různých odvětvích, od právních a finančních služeb až po zdravotní péči a výrobu. Jedním silným nástrojem pro tento úkol je Aspose.OCR pro .NET, který umožňuje vývojářům extrahovat text z skenovaných dokladů a snímků s vysokou přesností. Tento tutoriál ukazuje, jak nastavit a používat Asposa.OCR pro …

Kompletní příklad

Níže je kompletní příklad (hostovaný jako herný) ukazující, jak používat Aspose.OCR pro .NET k provedení OCR na několika snímcích v katalogu a uložit extrahovaný text do odpovídajících textových souborů.

Krok za krokem průvodce

Krok 1: Začněte s motorem OCR

Vytvořte a nastavte motor OCR. Nastavení požadovaného jazyka (anglicky v tomto příkladu).

// Step 1: Initialize the OCR Engine
using Aspose.Ocr;

using (Ocr ocrEngine = new Ocr())
{
    // Set language and other configurations if needed
    ocrEngine.Language = Language.English;

    // (Continue with steps below inside this using block)
}

Krok 2: Nahrávat obrázky pro zpracování

Definujte adresáře vstupu/výstupu, ujistěte se, že složka výstupů existuje a seznamte obrázkové soubory.

// Step 2: Load Images for Processing
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\text";

if (!Directory.Exists(outputDirectory))
{
    Directory.CreateDirectory(outputDirectory);
}

// Get all files from the input directory (same pattern as the gist)
// TIP: to restrict to specific formats, replace "*.*" with "*.png" or "*.jpg"
string[] imageFiles = Directory.GetFiles(
    inputDirectory,
    "*.*",
    SearchOption.TopDirectoryOnly
);

Krok 3: Proveďte OCR na každém obrázku

Zobrazit soubory a rozpoznat text pomocí RecognizeImage(string path).

// Step 3: Perform OCR on Each Image
foreach (string imageFile in imageFiles)
{
    try
    {
        // Recognize text from the image (exactly as in the gist)
        string recognizedText = ocrEngine.RecognizeImage(imageFile);

        // Proceed to Step 4: save text to disk...
    }
    catch (Exception ex)
    {
        Console.WriteLine($"Error processing {imageFile}: {ex.Message}");
    }
}

Krok 4: Uložte extrahovaný text do souborů

Vytvořte odpovídající .txt soubory pro každý zpracovaný obrázek.

// Step 4: Save Extracted Text to Files
string outputFilePath = Path.Combine(
    outputDirectory,
    Path.GetFileNameWithoutExtension(imageFile) + ".txt"
);

File.WriteAllText(outputFilePath, recognizedText);

Console.WriteLine($"Processed: {imageFile} -> {outputFilePath}");

Tipy a tweaks

  • Filterové formáty: Použijte vzorky jako "*.png" nebo "*.jpg" Odstranit non-image soubory.
  • Přesměrovací subfolders: Změna SearchOption.TopDirectoryOnly do SearchOption.AllDirectories.
  • Přístupy na plavidlo prázdné: Pokud string.IsNullOrWhiteSpace(recognizedText)Přihlaste se a pokračujte.
  • ** Paralelní balíčky**: Použití Parallel.ForEach(imageFiles, file => { ... }) Pro rychlejší běh (mysl I/O a licence).

Sledováním těchto kroků můžete automatizovat balíček OCR s Aspose.OCR pro .NET a exportovat čisté textové soubory pro zpracování dolního toku.

More in this category