Automatisering af dokumentbearbejdning kan væsentligt forbedre produktivitet og nøjagtighed i forskellige industrier, fra juridiske og finansielle tjenester til sundhed og fremstilling. Et kraftfuldt værktøj til denne opgave er Aspose.OCR for .NET, som gør det muligt for udviklere at udveksle tekst fra scannede dokumenter og billeder med høj præcision. Denne tutorial viser, hvordan man opretter og bruger ASPOSE.OCR for ,NET til at automatisere dokumentbehandling opgaver, herunder pakke OCR-operationer og integration med tredjepartssystemer.

Et fuldstændigt eksempel

Nedenfor er et komplet eksempel (hostet som en gist) der viser, hvordan man bruger Aspose.OCR for .NET til at udføre OCR på flere billeder i en katalog og gemme den ekstraherede tekst til de tilsvarende tekstfiler.

Step-by-Step Guide

Trin 1: Start med OCR-motoren

Oprette og konfigurere OCR-motoren. indstille det ønskede sprog (Engelsk i dette eksempel).

// Step 1: Initialize the OCR Engine
using Aspose.Ocr;

using (Ocr ocrEngine = new Ocr())
{
    // Set language and other configurations if needed
    ocrEngine.Language = Language.English;

    // (Continue with steps below inside this using block)
}

Trin 2: Lade billeder til behandling

Definer input/output kataloger, sørg for, at output mappen eksisterer og liste billedfiler.

// Step 2: Load Images for Processing
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\text";

if (!Directory.Exists(outputDirectory))
{
    Directory.CreateDirectory(outputDirectory);
}

// Get all files from the input directory (same pattern as the gist)
// TIP: to restrict to specific formats, replace "*.*" with "*.png" or "*.jpg"
string[] imageFiles = Directory.GetFiles(
    inputDirectory,
    "*.*",
    SearchOption.TopDirectoryOnly
);

Trin 3: Udfør OCR på hvert billede

Tjek over filer og genkender tekst ved hjælp af RecognizeImage(string path).

// Step 3: Perform OCR on Each Image
foreach (string imageFile in imageFiles)
{
    try
    {
        // Recognize text from the image (exactly as in the gist)
        string recognizedText = ocrEngine.RecognizeImage(imageFile);

        // Proceed to Step 4: save text to disk...
    }
    catch (Exception ex)
    {
        Console.WriteLine($"Error processing {imageFile}: {ex.Message}");
    }
}

Trin 4: Save udvundet tekst til filer

Skab en tilsvarende .txt filer for hver bearbejdet billede.

// Step 4: Save Extracted Text to Files
string outputFilePath = Path.Combine(
    outputDirectory,
    Path.GetFileNameWithoutExtension(imageFile) + ".txt"
);

File.WriteAllText(outputFilePath, recognizedText);

Console.WriteLine($"Processed: {imageFile} -> {outputFilePath}");

Tips og tweaks

  • Filterformater: Brug mønstre som "*.png" eller "*.jpg" For at slette ikke-billede filer.
  • Recurse subfolders: Ændring SearchOption.TopDirectoryOnly til SearchOption.AllDirectories.
  • Skib tom udgang: Hvis string.IsNullOrWhiteSpace(recognizedText)Log og fortsæt.
  • Parallel batches: Brug Parallel.ForEach(imageFiles, file => { ... }) For hurtigere løb (mind I/O og licens).

Ved at følge disse trin kan du automatisere pakke OCR med Aspose.OCR for .NET og eksportere rene tekstfiler til nedstream behandling.

More in this category