Автоматизирането на обработката на документи може значително да подобри производителността и точността в различни индустрии, от правни и финансови услуги до здравеопазване и производство. Един мощен инструмент за тази задача е Aspose.OCR за .NET, което позволява на разработчиците да извличат текст от скенираните документи и изображения с висока точност. Този урок показва как да се създаде и използва Аппосе.ОЦР за …

Пълният пример

По-долу е пълен пример (хостиран като гейм), който показва как да използвате Aspose.OCR за .NET, за да изпълните OCR на няколко изображения в директория и да запазите извлеченият текст в съответните текстови файлове.

Стъпка по стъпка ръководство

Стъпка 1: Иницијализиране на двигателя OCR

Създайте и конфигурирайте двигателя OCR. Настройте желания език (английски в този пример).

// Step 1: Initialize the OCR Engine
using Aspose.Ocr;

using (Ocr ocrEngine = new Ocr())
{
    // Set language and other configurations if needed
    ocrEngine.Language = Language.English;

    // (Continue with steps below inside this using block)
}

Стъпка 2: Изтегляне на изображения за обработка

Определете директориите за вход/изход, уверете се, че изходната папка съществува и избройте файловете за изображения.

// Step 2: Load Images for Processing
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\text";

if (!Directory.Exists(outputDirectory))
{
    Directory.CreateDirectory(outputDirectory);
}

// Get all files from the input directory (same pattern as the gist)
// TIP: to restrict to specific formats, replace "*.*" with "*.png" or "*.jpg"
string[] imageFiles = Directory.GetFiles(
    inputDirectory,
    "*.*",
    SearchOption.TopDirectoryOnly
);

Стъпка 3: Извършете OCR на всяка снимка

Изтегляне на файлове и разпознаване на текст чрез RecognizeImage(string path).

// Step 3: Perform OCR on Each Image
foreach (string imageFile in imageFiles)
{
    try
    {
        // Recognize text from the image (exactly as in the gist)
        string recognizedText = ocrEngine.RecognizeImage(imageFile);

        // Proceed to Step 4: save text to disk...
    }
    catch (Exception ex)
    {
        Console.WriteLine($"Error processing {imageFile}: {ex.Message}");
    }
}

Стъпка 4: Съхраняване на извлечен текст в файлове

Създаване на кореспонденция .txt Филм за всяка обработена картина.

// Step 4: Save Extracted Text to Files
string outputFilePath = Path.Combine(
    outputDirectory,
    Path.GetFileNameWithoutExtension(imageFile) + ".txt"
);

File.WriteAllText(outputFilePath, recognizedText);

Console.WriteLine($"Processed: {imageFile} -> {outputFilePath}");

Етикети & Tweaks

  • Филтър формати: Използвайте шаблони като "*.png" или "*.jpg" Изтегляне на не-изображения файлове.
  • ** Рекурс субфолдъри**: Промяна SearchOption.TopDirectoryOnly за SearchOption.AllDirectories.
    • Скип празни изходи**: Ако string.IsNullOrWhiteSpace(recognizedText)Регистрирайте се и продължете.
  • Паралелни батерии: Използване Parallel.ForEach(imageFiles, file => { ... }) за по-бързи състезания (мисъл I/O и лицензиране).

Като следвате тези стъпки, можете да автоматизирате комплект OCR с Aspose.OCR за .NET и да експортирате чисти текстови файлове за обработка на долния поток.

More in this category