Автоматизация обработки документов может значительно повысить производительность и точность в различных отраслях, от юридических и финансовых услуг до здравоохранения и производства. Одним из мощных инструментов для этой задачи является Aspose.OCR для .NET, что позволяет разработчикам выводить текст из сканированных документов и изображений с высокой точностью.

Полный пример

Ниже представлен полный пример, демонстрирующий, как использовать Aspose.OCR для .NET для выполнения OCR на нескольких изображениях в каталоге и сохранения извлеченного текста в соответствующие текстовые файлы.

Step-by-Step Руководство

Шаг 1: Инициативы двигателя OCR

Создайте и конфигурируйте двигатель OCR. Настроить желаемый язык (английский в этом примере).

// Step 1: Initialize the OCR Engine
using Aspose.Ocr;

using (Ocr ocrEngine = new Ocr())
{
    // Set language and other configurations if needed
    ocrEngine.Language = Language.English;

    // (Continue with steps below inside this using block)
}

Шаг 2: Загрузите изображения для обработки

Определите каталоги ввода/выхода, убедитесь, что папка выхода существует, и перечислите файлы изображения.

// Step 2: Load Images for Processing
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\text";

if (!Directory.Exists(outputDirectory))
{
    Directory.CreateDirectory(outputDirectory);
}

// Get all files from the input directory (same pattern as the gist)
// TIP: to restrict to specific formats, replace "*.*" with "*.png" or "*.jpg"
string[] imageFiles = Directory.GetFiles(
    inputDirectory,
    "*.*",
    SearchOption.TopDirectoryOnly
);

Шаг 3: выполните OCR на каждом изображении

Итерать над файлами и распознавать текст с помощью RecognizeImage(string path).

// Step 3: Perform OCR on Each Image
foreach (string imageFile in imageFiles)
{
    try
    {
        // Recognize text from the image (exactly as in the gist)
        string recognizedText = ocrEngine.RecognizeImage(imageFile);

        // Proceed to Step 4: save text to disk...
    }
    catch (Exception ex)
    {
        Console.WriteLine($"Error processing {imageFile}: {ex.Message}");
    }
}

Шаг 4: Сохраните извлеченный текст в файлы

Создайте корреспондент .txt Файлы для каждого обрабатываемого изображения.

// Step 4: Save Extracted Text to Files
string outputFilePath = Path.Combine(
    outputDirectory,
    Path.GetFileNameWithoutExtension(imageFile) + ".txt"
);

File.WriteAllText(outputFilePath, recognizedText);

Console.WriteLine($"Processed: {imageFile} -> {outputFilePath}");

Трейлер & Tweaks

  • Филтерные форматы: используйте такие шаблоны, как "*.png" или "*.jpg" Скачать не-изображения файлов.
  • ** Рекурс субфолдеры**: Изменение SearchOption.TopDirectoryOnly Для SearchOption.AllDirectories.
    • Скип пустых выходов**: Если string.IsNullOrWhiteSpace(recognizedText)Присоединяйтесь и продолжайте.
  • Паралельные батареи: Использование Parallel.ForEach(imageFiles, file => { ... }) для более быстрых гонок (мысли I/O и лицензирования).

Следуя этим шагам, вы можете автоматизировать пакет OCR с Aspose.OCR для .NET и экспортировать чистые текстовые файлы для обработки низкого потока.

More in this category