Automatisierung der Dokumentverarbeitung kann die Produktivität und Genauigkeit in verschiedenen Branchen, von juristischen und finanziellen Dienstleistungen bis hin zur Gesundheitsversorgung und Herstellung signifikant erhöhen. Ein mächtiges Werkzeug für diese Aufgabe ist Aspose.OCR für .NET, das Entwickler ermöglicht, Text aus scannen Dokumente und Bilder mit hoher Präzision zu extrahieren. Dieser Tutorial zeigt, wie man aufstellen und verwenden Asposa.ocR for .Net, um Dokumentbearbeitung Aufgaben zu automatisieren, einschließlich der OCR-Operationen und Integration mit Drittanbieter-Systemen.

Vollständiges Beispiel

Unten ist ein vollständiges Beispiel (hosted as a gist) demonstriert, wie Sie Aspose.OCR für .NET verwenden, um OCR auf mehreren Bildern in einem Katalog durchzuführen und den extrahierten Text in entsprechende Textdateien speichern.

Schritt für Schritt Guide

Schritt 1: Initialisieren Sie den OCR-Motor

Erstellen und konfigurieren Sie den OCR-Motor. Set die gewünschte Sprache (Englisch in diesem Beispiel).

// Step 1: Initialize the OCR Engine
using Aspose.Ocr;

using (Ocr ocrEngine = new Ocr())
{
    // Set language and other configurations if needed
    ocrEngine.Language = Language.English;

    // (Continue with steps below inside this using block)
}

Schritt 2: Laden Sie Bilder für die Verarbeitung

Definieren Sie Eingang/Ausgangsdirekteure, stellen Sie sicher, dass die Ausgangspapier existiert und listen Sie Bilddateien.

// Step 2: Load Images for Processing
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\text";

if (!Directory.Exists(outputDirectory))
{
    Directory.CreateDirectory(outputDirectory);
}

// Get all files from the input directory (same pattern as the gist)
// TIP: to restrict to specific formats, replace "*.*" with "*.png" or "*.jpg"
string[] imageFiles = Directory.GetFiles(
    inputDirectory,
    "*.*",
    SearchOption.TopDirectoryOnly
);

Schritt 3: OCR auf jedem Bild ausführen

Iterate über Dateien und erkennt Text mit RecognizeImage(string path).

// Step 3: Perform OCR on Each Image
foreach (string imageFile in imageFiles)
{
    try
    {
        // Recognize text from the image (exactly as in the gist)
        string recognizedText = ocrEngine.RecognizeImage(imageFile);

        // Proceed to Step 4: save text to disk...
    }
    catch (Exception ex)
    {
        Console.WriteLine($"Error processing {imageFile}: {ex.Message}");
    }
}

Schritt 4: Speichern Sie extrahierte Texte in Dateien

Eine Korrespondenz erstellen .txt Datei für jedes verarbeiteten Bild.

// Step 4: Save Extracted Text to Files
string outputFilePath = Path.Combine(
    outputDirectory,
    Path.GetFileNameWithoutExtension(imageFile) + ".txt"
);

File.WriteAllText(outputFilePath, recognizedText);

Console.WriteLine($"Processed: {imageFile} -> {outputFilePath}");

Tipps & Tweaks

  • Filterformate: Verwenden Sie Muster wie "*.png" oder "*.jpg" Um nicht-image-Dateien zu löschen.
  • Rekurse Subfolders: Änderung SearchOption.TopDirectoryOnly zu SearchOption.AllDirectories.
  • Schiff leere Ausgänge: Wenn string.IsNullOrWhiteSpace(recognizedText)Log und fortsetzen.
  • Parallel Battchen: Verwenden Sie Parallel.ForEach(imageFiles, file => { ... }) für schnelleres Rennen (mind I/O und Lizenzierung).

Durch die Folge dieser Schritte können Sie OCR mit Aspose.OCR für .NET automatisieren und saubere Textdateien für Downstream-Verarbeitung exportieren.

More in this category