Automatisk dokumentbearbetning kan avsevärt förbättra produktivitet och noggrannhet i olika branscher, från juridiska och finansiella tjänster till hälsovård och tillverkning. Ett kraftfullt verktyg för denna uppgift är Aspose.OCR för .NET, vilket gör det möjligt för utvecklare att extrahera text från skannade dokument och bilder med hög precision. Denna handledning visar hur man konfigurerar och använder Asposa.OCR för …

Fullständigt exempel

Nedan är ett komplett exempel (hostad som en gäng) som visar hur man använder Aspose.OCR för .NET för att utföra OCR på flera bilder i en katalog och spara den extraherade texten till motsvarande textfiler.

Steg för steg guide

Steg 1: Initiera OCR-motorn

Skapa och konfigurera OCR-motorn. Ställ in det önskade språket (Engelska i detta exempel).

// Step 1: Initialize the OCR Engine
using Aspose.Ocr;

using (Ocr ocrEngine = new Ocr())
{
    // Set language and other configurations if needed
    ocrEngine.Language = Language.English;

    // (Continue with steps below inside this using block)
}

Steg 2: Ladda upp bilder för bearbetning

Definiera input/output kataloger, se till att outputmappen finns och lista bildfiler.

// Step 2: Load Images for Processing
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\text";

if (!Directory.Exists(outputDirectory))
{
    Directory.CreateDirectory(outputDirectory);
}

// Get all files from the input directory (same pattern as the gist)
// TIP: to restrict to specific formats, replace "*.*" with "*.png" or "*.jpg"
string[] imageFiles = Directory.GetFiles(
    inputDirectory,
    "*.*",
    SearchOption.TopDirectoryOnly
);

Steg 3: Gör OCR på varje bild

Iterat över filer och känna igen text med hjälp av RecognizeImage(string path).

// Step 3: Perform OCR on Each Image
foreach (string imageFile in imageFiles)
{
    try
    {
        // Recognize text from the image (exactly as in the gist)
        string recognizedText = ocrEngine.RecognizeImage(imageFile);

        // Proceed to Step 4: save text to disk...
    }
    catch (Exception ex)
    {
        Console.WriteLine($"Error processing {imageFile}: {ex.Message}");
    }
}

Steg 4: Spara extraherad text till filer

Skapa en motsvarande .txt filer för varje bearbetad bild.

// Step 4: Save Extracted Text to Files
string outputFilePath = Path.Combine(
    outputDirectory,
    Path.GetFileNameWithoutExtension(imageFile) + ".txt"
);

File.WriteAllText(outputFilePath, recognizedText);

Console.WriteLine($"Processed: {imageFile} -> {outputFilePath}");

Tips & Tweaks

  • Filterformat: Använd mönster som "*.png" eller "*.jpg" för att ta bort icke-bildfiler.
  • Rekurs subfolders: Förändring SearchOption.TopDirectoryOnly till SearchOption.AllDirectories.
  • Skip tomma utgångar: Om string.IsNullOrWhiteSpace(recognizedText)Logga in och fortsätt.
  • ** Parallell batch**: Använd Parallel.ForEach(imageFiles, file => { ... }) för snabbare körningar (mind I/O och licens).

Genom att följa dessa steg kan du automatisera batch OCR med Aspose.OCR för .NET och exportera rena textfiler för nedströmsbehandling.

More in this category