Automatizácia spracúvania dokumentov môže výrazne zvýšiť produktivitu a presnosť v rôznych odvetviach, od právnych a finančných služieb až po zdravotnú starostlivosť a výrobu. Jedným silným nástrojom pre túto úlohu je Aspose.OCR pre .NET, ktorý umožňuje vývojárom extrahovať text z skenovaného dokumentu a obrázkov s vysokou presnosťou. Tento tutoriál ukazuje, ako nastaviť a používať ASPOSE.OCR pre …

Kompletný príklad

Nižšie je kompletný príklad (hostovaný ako herný) ukazujúci, ako používať Aspose.OCR pre .NET na vykonanie OCR na viacerých snímkach v katalógu a uložiť vytiahnutý text do príslušných textových súborov.

Krok za krokom sprievodca

Krok 1: Inštalácia motora OCR

Vytvorte a nastavte motor OCR. Nastaviť požadovaný jazyk (anglicky v tomto príklade).

// Step 1: Initialize the OCR Engine
using Aspose.Ocr;

using (Ocr ocrEngine = new Ocr())
{
    // Set language and other configurations if needed
    ocrEngine.Language = Language.English;

    // (Continue with steps below inside this using block)
}

Krok 2: Nahrať obrázky na spracovanie

Definujte vstupné/výstupné adresáre, uistite sa, že výstupný priečinok existuje a zoznam obrazových súborov.

// Step 2: Load Images for Processing
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\text";

if (!Directory.Exists(outputDirectory))
{
    Directory.CreateDirectory(outputDirectory);
}

// Get all files from the input directory (same pattern as the gist)
// TIP: to restrict to specific formats, replace "*.*" with "*.png" or "*.jpg"
string[] imageFiles = Directory.GetFiles(
    inputDirectory,
    "*.*",
    SearchOption.TopDirectoryOnly
);

Krok 3: Vykonajte OCR na každom obrázku

Iterate nad súbory a rozpoznať text pomocou RecognizeImage(string path).

// Step 3: Perform OCR on Each Image
foreach (string imageFile in imageFiles)
{
    try
    {
        // Recognize text from the image (exactly as in the gist)
        string recognizedText = ocrEngine.RecognizeImage(imageFile);

        // Proceed to Step 4: save text to disk...
    }
    catch (Exception ex)
    {
        Console.WriteLine($"Error processing {imageFile}: {ex.Message}");
    }
}

Krok 4: Uložiť vytiahnutý text do súborov

Vytvorte zodpovedajúcu .txt súbory pre každý spracovaný obrázok.

// Step 4: Save Extracted Text to Files
string outputFilePath = Path.Combine(
    outputDirectory,
    Path.GetFileNameWithoutExtension(imageFile) + ".txt"
);

File.WriteAllText(outputFilePath, recognizedText);

Console.WriteLine($"Processed: {imageFile} -> {outputFilePath}");

Tipy a Tweaks

  • Filter formáty: Použite vzorky ako "*.png" alebo "*.jpg" Odstrániť non-image súbory.
  • Recurse subfolders: Zmeny SearchOption.TopDirectoryOnly na SearchOption.AllDirectories.
  • Skip prázdne výstupy: Ak string.IsNullOrWhiteSpace(recognizedText)Prihláste sa a pokračujte.
  • ** Paralelné balíky**: Použitie Parallel.ForEach(imageFiles, file => { ... }) pre rýchlejšie preteky (mind I/O a licencovanie).

Postupom týchto krokov môžete automatizovať balíček OCR s ASPOSE.OCR pre .NET a exportovať čisté textové súbory pre nízkonákladové spracovanie.

More in this category