L’automazione del trattamento dei documenti può migliorare significativamente la produttività e l’accuratezza in varie industrie, dai servizi legali e finanziari all’assistenza sanitaria e alla fabbricazione. Uno strumento potente per questo compito è Aspose.OCR per .NET, che consente agli sviluppatori di estrarre il testo dai Documenti scansionati e le immagini con alta precisione. Questo tutorial mostra come impostare e utilizzare ASPOSE.OCR per il .Net per automatizzare i compiti di trattamento del documento, tra cui le operazioni OCR di pacchetto e la integrazione con i sistemi di terze parti.

Esempio completo

Di seguito è un esempio completo (hosted as a gist) che dimostra come utilizzare Aspose.OCR per .NET per eseguire OCR su più immagini in un directory e salvare il testo estratto nei corrispondenti file di testo.

Guida passo dopo passo

Passo 1: Iniziare il motore OCR

Creare e configurare il motore OCR. Imposta la lingua desiderata (inglese in questo esempio).

// Step 1: Initialize the OCR Engine
using Aspose.Ocr;

using (Ocr ocrEngine = new Ocr())
{
    // Set language and other configurations if needed
    ocrEngine.Language = Language.English;

    // (Continue with steps below inside this using block)
}

Passo 2: Caricare le immagini per il trattamento

Definisci le directory di input/output, assicurati che la cartella di output esiste e elencare i file di immagine.

// Step 2: Load Images for Processing
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\text";

if (!Directory.Exists(outputDirectory))
{
    Directory.CreateDirectory(outputDirectory);
}

// Get all files from the input directory (same pattern as the gist)
// TIP: to restrict to specific formats, replace "*.*" with "*.png" or "*.jpg"
string[] imageFiles = Directory.GetFiles(
    inputDirectory,
    "*.*",
    SearchOption.TopDirectoryOnly
);

Passo 3: Eseguire OCR su ogni immagine

Iterare i file e riconoscere il testo utilizzando RecognizeImage(string path).

// Step 3: Perform OCR on Each Image
foreach (string imageFile in imageFiles)
{
    try
    {
        // Recognize text from the image (exactly as in the gist)
        string recognizedText = ocrEngine.RecognizeImage(imageFile);

        // Proceed to Step 4: save text to disk...
    }
    catch (Exception ex)
    {
        Console.WriteLine($"Error processing {imageFile}: {ex.Message}");
    }
}

Passo 4: Salva il testo estratto nei file

Creare una corrispondenza .txt file per ogni immagine elaborata.

// Step 4: Save Extracted Text to Files
string outputFilePath = Path.Combine(
    outputDirectory,
    Path.GetFileNameWithoutExtension(imageFile) + ".txt"
);

File.WriteAllText(outputFilePath, recognizedText);

Console.WriteLine($"Processed: {imageFile} -> {outputFilePath}");

Tipi e Tweaks

  • Formati di filtro: utilizzare i modelli come "*.png" o "*.jpg" per eliminare i file non-immagine.
  • Ricorso di subfolders: Cambiamento SearchOption.TopDirectoryOnly per SearchOption.AllDirectories.
  • *Scopri le uscite vuote: se string.IsNullOrWhiteSpace(recognizedText)Inserisci e continua.
  • Battes parallele: utilizzo Parallel.ForEach(imageFiles, file => { ... }) per corse più veloci (mind I/O e licenza).

Seguendo questi passaggi, è possibile automatizzare il pacch OCR con Aspose.OCR per .NET e esportare file di testo puliti per il trattamento downstream.

More in this category