Аутоматска обрада докумената са Aspose.OCR .NET | File Format Processing Plugins for C# .NET Core

Аутоматизација обраде докумената може значајно побољшати продуктивност и тачност у различитим индустријама, од правних и финансијских услуга до здравствене заштите и производње. Један моћан алат за ову задатак је Аспозе.ОЦР за .НЕТ, који омогућава програмерима да екстрактирају текст из скенираним документима и сликама са високом прецизношћу.

Потпуни пример

Испод је комплетни пример (хостиран као хост) који показује како да користите Aspose.OCR за .NET да бисте извршили ОЦР на више слика у директоријуму и сачували извучен текст у одговарајуће текстуалне датотеке.

Корак по корак водич

Корак 1: Иницијализација ОЦР мотора

Креирајте и конфигуришите ОЦР мотор. Поставите жељени језик (англиски у овом примјеру).

// Step 1: Initialize the OCR Engine
using Aspose.Ocr;

using (Ocr ocrEngine = new Ocr())
{
    // Set language and other configurations if needed
    ocrEngine.Language = Language.English;

    // (Continue with steps below inside this using block)
}

Корак 2: Преузмите слике за обраду

Дефинишете директоријуме улаза / излаза, уверите се да постоји фасцикла извоза и наведете сличне датотеке.

// Step 2: Load Images for Processing
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\text";

if (!Directory.Exists(outputDirectory))
{
    Directory.CreateDirectory(outputDirectory);
}

// Get all files from the input directory (same pattern as the gist)
// TIP: to restrict to specific formats, replace "*.*" with "*.png" or "*.jpg"
string[] imageFiles = Directory.GetFiles(
    inputDirectory,
    "*.*",
    SearchOption.TopDirectoryOnly
);

Корак 3: Извршите ОЦР на свакој слици

Итерати преко датотека и препознати текст користећи RecognizeImage(string path).

// Step 3: Perform OCR on Each Image
foreach (string imageFile in imageFiles)
{
    try
    {
        // Recognize text from the image (exactly as in the gist)
        string recognizedText = ocrEngine.RecognizeImage(imageFile);

        // Proceed to Step 4: save text to disk...
    }
    catch (Exception ex)
    {
        Console.WriteLine($"Error processing {imageFile}: {ex.Message}");
    }
}

Корак 4: Сачувајте извучен текст у датотеке

Креирајте кореспондент .txt датотеке за сваку обрађену слику.

// Step 4: Save Extracted Text to Files
string outputFilePath = Path.Combine(
    outputDirectory,
    Path.GetFileNameWithoutExtension(imageFile) + ".txt"
);

File.WriteAllText(outputFilePath, recognizedText);

Console.WriteLine($"Processed: {imageFile} -> {outputFilePath}");

Tipovi i Tweaks

Филтер формати: Користите шаблоне као "*.png" или "*.jpg" Преузмите датотеке које нису слике.
Повратак подложнике: Промена SearchOption.TopDirectoryOnly да SearchOption.AllDirectories.
Скип празан излаз: Ако string.IsNullOrWhiteSpace(recognizedText)Prijavite se i nastavite.
Паралелни батерије: Употреба Parallel.ForEach(imageFiles, file => { ... }) за брже трке (мислим И / О и лиценцирање).

Следећи ове кораке можете аутоматизовати баццх ОЦР са Асписе.ОКР за .НЕТ и извозити чисте текстуалне датотеке за обраду доњег тока.

Потпуни пример#

Корак по корак водич#

Корак 1: Иницијализација ОЦР мотора#

Корак 2: Преузмите слике за обраду#

Корак 3: Извршите ОЦР на свакој слици#

Корак 4: Сачувајте извучен текст у датотеке#

Tipovi i Tweaks#

More in this category