L’automatització del tractament de documents pot augmentar significativament la productivitat i l’exactitud en diferents indústries, des dels serveis legals i financers fins a la salut i la fabricació. Una eina poderosa per a aquesta tasca és Aspose.OCR per .NET, que permet als desenvolupadors extreure text dels documents escanats i les imatges amb alta precisió. Aquest tutorial mostra com configurar i utilitzar Aspos.ocR pel .Net per automatitzar les tasques de processament del document, incloent les operacions OCR de batx i integració amb sistemes de tercers.

Exemple complet

A continuació es troba un exemple complet (hostat com a gel) que demostra com utilitzar Aspose.OCR per a .NET per executar OCR en múltiples imatges en un directori i salvar el text extraït als fitxers de text corresponents.

Guia de pas a pas

Pas 1: Iniciar el motor OCR

Crear i configurar el motor OCR. Establir el llenguatge desitjat (anglès en aquest exemple).

// Step 1: Initialize the OCR Engine
using Aspose.Ocr;

using (Ocr ocrEngine = new Ocr())
{
    // Set language and other configurations if needed
    ocrEngine.Language = Language.English;

    // (Continue with steps below inside this using block)
}

Pas 2: Carregar imatges per processar

Defineix les directories d’entrada / sortida, assegura que la carpeta de sortida existeix i enumera els fitxers d’imatge.

// Step 2: Load Images for Processing
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\text";

if (!Directory.Exists(outputDirectory))
{
    Directory.CreateDirectory(outputDirectory);
}

// Get all files from the input directory (same pattern as the gist)
// TIP: to restrict to specific formats, replace "*.*" with "*.png" or "*.jpg"
string[] imageFiles = Directory.GetFiles(
    inputDirectory,
    "*.*",
    SearchOption.TopDirectoryOnly
);

Pas 3: Performan OCR en cada imatge

Iterar sobre els fitxers i reconèixer el text utilitzant RecognizeImage(string path).

// Step 3: Perform OCR on Each Image
foreach (string imageFile in imageFiles)
{
    try
    {
        // Recognize text from the image (exactly as in the gist)
        string recognizedText = ocrEngine.RecognizeImage(imageFile);

        // Proceed to Step 4: save text to disk...
    }
    catch (Exception ex)
    {
        Console.WriteLine($"Error processing {imageFile}: {ex.Message}");
    }
}

Pas 4: Salvar text extraït a fitxers

Creació d’una correspondència .txt Arxiu per a cada imatge processada.

// Step 4: Save Extracted Text to Files
string outputFilePath = Path.Combine(
    outputDirectory,
    Path.GetFileNameWithoutExtension(imageFile) + ".txt"
);

File.WriteAllText(outputFilePath, recognizedText);

Console.WriteLine($"Processed: {imageFile} -> {outputFilePath}");

Tipus i Tweaks

  • Formats de filtre: Utilitza patrons com "*.png" o "*.jpg" per descarregar els arxius no-imatge.
  • Returs subfolders: Canvi SearchOption.TopDirectoryOnly per a SearchOption.AllDirectories.
  • *Els vaixells són buits *: si string.IsNullOrWhiteSpace(recognizedText)Enllaç i continuació.
  • Batxes paral·leles: Utilitzar Parallel.ForEach(imageFiles, file => { ... }) per a rutes més ràpides (mind I/O i llicència).

Amb aquests passos es pot automatitzar el batx OCR amb Aspose.OCR per a .NET i exportar fitxers de text nets per al processament de baix flux.

More in this category