Traitement automatique de documents avec Aspose.OCR .NET | File Format Processing Plugins for C# .NET Core

L’automatisation du traitement des documents peut considérablement améliorer la productivité et l’exactitude dans différentes industries, des services juridiques et financiers aux soins de santé et à la fabrication. Un outil puissant pour cette tâche est Aspose.OCR pour .NET, qui permet aux développeurs d’extraire le texte de documents scannés et des images avec une haute précision. Ce tutoriel montre comment configurer et utiliser Asposa.OCR pour …

Exemple complet

Ci-dessous est un exemple complet (hosté comme un hébergement) montrant comment utiliser Aspose.OCR pour .NET pour effectuer OCR sur plusieurs images dans un catalogue et enregistrer le texte extrait dans les fichiers texte correspondants.

Guide étape par étape

Étape 1: Initialisez le moteur OCR

Créer et configurer le moteur OCR. Configurez la langue souhaitée (anglais dans cet exemple).

// Step 1: Initialize the OCR Engine
using Aspose.Ocr;

using (Ocr ocrEngine = new Ocr())
{
    // Set language and other configurations if needed
    ocrEngine.Language = Language.English;

    // (Continue with steps below inside this using block)
}

Étape 2 : Télécharger les images pour le traitement

Définissez les directories d’entrée / sortie, assurez-vous que la feuille d’entrée existe et enregistrez les fichiers image.

// Step 2: Load Images for Processing
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\text";

if (!Directory.Exists(outputDirectory))
{
    Directory.CreateDirectory(outputDirectory);
}

// Get all files from the input directory (same pattern as the gist)
// TIP: to restrict to specific formats, replace "*.*" with "*.png" or "*.jpg"
string[] imageFiles = Directory.GetFiles(
    inputDirectory,
    "*.*",
    SearchOption.TopDirectoryOnly
);

Étape 3: Permettez OCR sur chaque image

Télécharger les fichiers et reconnaître le texte en utilisant RecognizeImage(string path).

// Step 3: Perform OCR on Each Image
foreach (string imageFile in imageFiles)
{
    try
    {
        // Recognize text from the image (exactly as in the gist)
        string recognizedText = ocrEngine.RecognizeImage(imageFile);

        // Proceed to Step 4: save text to disk...
    }
    catch (Exception ex)
    {
        Console.WriteLine($"Error processing {imageFile}: {ex.Message}");
    }
}

Étape 4: Enregistrer le texte extrait dans les fichiers

Créer un correspondant .txt fichier pour chaque image traitée.

// Step 4: Save Extracted Text to Files
string outputFilePath = Path.Combine(
    outputDirectory,
    Path.GetFileNameWithoutExtension(imageFile) + ".txt"
);

File.WriteAllText(outputFilePath, recognizedText);

Console.WriteLine($"Processed: {imageFile} -> {outputFilePath}");

Téléchargement & Tweaks

** Formats de filtre**: Utilisez des modèles comme "*.png" ou "*.jpg" Éliminer les fichiers non-image.
Récurs sous-folders : Changement SearchOption.TopDirectoryOnly à SearchOption.AllDirectories.
- Les sorties de bateau sont vides**: Si string.IsNullOrWhiteSpace(recognizedText)Logez et continuez.
Batches parallèles: Utilisation Parallel.ForEach(imageFiles, file => { ... }) Pour des courses plus rapides (mind I/O et licence).

En suivant ces étapes, vous pouvez automatiser le pack OCR avec Aspose.OCR pour .NET et exporter des fichiers de texte propres pour le traitement en dessous.

Exemple complet#

Guide étape par étape#

Étape 1: Initialisez le moteur OCR#

Étape 2 : Télécharger les images pour le traitement#

Étape 3: Permettez OCR sur chaque image#

Étape 4: Enregistrer le texte extrait dans les fichiers#

Téléchargement & Tweaks#

More in this category