Automatische documentverwerking met Aspose.OCR .NET | File Format Processing Plugins for C# .NET Core

Automatisering van documentverwerking kan de productiviteit en nauwkeurigheid aanzienlijk verbeteren in verschillende industrieën, van juridische en financiële diensten tot gezondheidszorg en vervaardiging. Een krachtige tool voor deze taak is Aspose.OCR voor .NET, die ontwikkelaars in staat stelt om tekst uit gescannuleerde documenten en beelden met hoge precisie te extraheren. Dit tutorial toont hoe te installeren en gebruik te maken van Asposa.OCR voor.NET om document verwerking taken te automatiseren, waaronder OCR-operaties en integratie met systemen van derden.

Volledige voorbeeld

Hieronder is een volledige voorbeeld (gehost als een gist) die laat zien hoe u Aspose.OCR voor .NET kunt gebruiken om OCR op meerdere afbeeldingen in een directory uit te voeren en de geserveerde tekst naar overeenkomstige tekstbestanden te bewaren.

Step-by-step gids

Stap 1: Initialiseren van de OCR-motor

Creëer en installeer de OCR-motor. Set de gewenste taal (Engels in dit voorbeeld).

// Step 1: Initialize the OCR Engine
using Aspose.Ocr;

using (Ocr ocrEngine = new Ocr())
{
    // Set language and other configurations if needed
    ocrEngine.Language = Language.English;

    // (Continue with steps below inside this using block)
}

Stap 2: Laden van afbeeldingen voor verwerking

Definieer input/output directories, zorg ervoor dat de output map bestaat en lijst foto-bestanden.

// Step 2: Load Images for Processing
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\text";

if (!Directory.Exists(outputDirectory))
{
    Directory.CreateDirectory(outputDirectory);
}

// Get all files from the input directory (same pattern as the gist)
// TIP: to restrict to specific formats, replace "*.*" with "*.png" or "*.jpg"
string[] imageFiles = Directory.GetFiles(
    inputDirectory,
    "*.*",
    SearchOption.TopDirectoryOnly
);

Stap 3: OCR uitvoeren op elke afbeelding

Iterate over bestanden en herken tekst met behulp van RecognizeImage(string path).

// Step 3: Perform OCR on Each Image
foreach (string imageFile in imageFiles)
{
    try
    {
        // Recognize text from the image (exactly as in the gist)
        string recognizedText = ocrEngine.RecognizeImage(imageFile);

        // Proceed to Step 4: save text to disk...
    }
    catch (Exception ex)
    {
        Console.WriteLine($"Error processing {imageFile}: {ex.Message}");
    }
}

Stap 4: Bewaar geëxtraceerde tekst naar bestanden

Creëer een correspondentie .txt bestand voor elke verwerkt afbeelding.

// Step 4: Save Extracted Text to Files
string outputFilePath = Path.Combine(
    outputDirectory,
    Path.GetFileNameWithoutExtension(imageFile) + ".txt"
);

File.WriteAllText(outputFilePath, recognizedText);

Console.WriteLine($"Processed: {imageFile} -> {outputFilePath}");

Tips & Tweaks

Filterformaten: Gebruik patronen zoals "*.png" of "*.jpg" om niet-image bestanden te verwijderen.
Recurse subfolders: wijziging SearchOption.TopDirectoryOnly om te SearchOption.AllDirectories.
Skip lege uitgangen: Als string.IsNullOrWhiteSpace(recognizedText)Log in en ga verder.
** Parallel batches**: Gebruik Parallel.ForEach(imageFiles, file => { ... }) voor snellere rennen (mind I/O en licentie).

Door deze stappen te volgen kunt u de OCR-batch met Aspose.OCR voor .NET automatiseren en schone tekstbestanden voor downstream verwerking exporteren.

Volledige voorbeeld#

Step-by-step gids#

Stap 1: Initialiseren van de OCR-motor#

Stap 2: Laden van afbeeldingen voor verwerking#

Stap 3: OCR uitvoeren op elke afbeelding#

Stap 4: Bewaar geëxtraceerde tekst naar bestanden#

Tips & Tweaks#

More in this category