Автоматична обробка документів з використанням Aspose.OCR .NET | File Format Processing Plugins for C# .NET Core

Автоматизація обробки документів може значно підвищити продуктивність і точність в різних галузях, від юридичних і фінансових послуг до охорони здоров’я та виробництва. Можливим інструментом для цієї задачі є Aspose.OCR для .NET, що дозволяє розробникам витягувати текст з сканованих документів і зображень з високою точністю. Цей навчальний заклад показує, як встановити і використовувати асфоз.ОКР для ,NET для автоматизації завдань обміну документами, включаючи операції OCR і інтеграцію з системами третьої сторони.

Повний приклад

Нижче є повний приклад (хостит як гейм), який показує, як використовувати Aspose.OCR для .NET для виконання OCR на кількох зображеннях в каталозі і зберегти витягнутий текст до відповідних текстових файлів.

Крок за кроком інструкція

Крок 1: Ініціалізація двигуна OCR

Створіть і налаштуйте двигун OCR. Налаштування бажаного мови (англійська в цьому прикладі).

// Step 1: Initialize the OCR Engine
using Aspose.Ocr;

using (Ocr ocrEngine = new Ocr())
{
    // Set language and other configurations if needed
    ocrEngine.Language = Language.English;

    // (Continue with steps below inside this using block)
}

Крок 2: Завантажити зображення для обробки

Визначте каталоги входу/виходу, переконайтеся, що папка виходу існує, а також перейміть файли зображення.

// Step 2: Load Images for Processing
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\text";

if (!Directory.Exists(outputDirectory))
{
    Directory.CreateDirectory(outputDirectory);
}

// Get all files from the input directory (same pattern as the gist)
// TIP: to restrict to specific formats, replace "*.*" with "*.png" or "*.jpg"
string[] imageFiles = Directory.GetFiles(
    inputDirectory,
    "*.*",
    SearchOption.TopDirectoryOnly
);

Крок 3: Виконання OCR на кожному зображенні

Завантажити файли та розпізнати текст за допомогою RecognizeImage(string path).

// Step 3: Perform OCR on Each Image
foreach (string imageFile in imageFiles)
{
    try
    {
        // Recognize text from the image (exactly as in the gist)
        string recognizedText = ocrEngine.RecognizeImage(imageFile);

        // Proceed to Step 4: save text to disk...
    }
    catch (Exception ex)
    {
        Console.WriteLine($"Error processing {imageFile}: {ex.Message}");
    }
}

Крок 4: Зберегти витягнутий текст в файли

Створення Координації .txt Файли для кожного обраного зображення.

// Step 4: Save Extracted Text to Files
string outputFilePath = Path.Combine(
    outputDirectory,
    Path.GetFileNameWithoutExtension(imageFile) + ".txt"
);

File.WriteAllText(outputFilePath, recognizedText);

Console.WriteLine($"Processed: {imageFile} -> {outputFilePath}");

Створення Tips & Tweaks

Фільтр формати: Використовуйте шаблони, як "*.png" або "*.jpg" Завантажити файли без зображення.
- Повторні підрозділи**: зміна SearchOption.TopDirectoryOnly до SearchOption.AllDirectories.
- Скіп порожні виходи**: якщо string.IsNullOrWhiteSpace(recognizedText)Зареєструйтесь і продовжуйте.
** Паралельні батареї**: Використання Parallel.ForEach(imageFiles, file => { ... }) Для більш швидких поїздок (мислення I/O і ліцензії).

Використовуючи ці кроки, ви можете автоматизувати комплект OCR з Aspose.OCR для .NET і експортувати чисті текстові файли для нижчого потоку обробки.

Повний приклад#

Крок за кроком інструкція#

Крок 1: Ініціалізація двигуна OCR#

Крок 2: Завантажити зображення для обробки#

Крок 3: Виконання OCR на кожному зображенні#

Крок 4: Зберегти витягнутий текст в файли#

Створення Tips & Tweaks#

More in this category