L’automatisation du traitement des documents peut considérablement améliorer la productivité et l’exactitude dans différentes industries, des services juridiques et financiers aux soins de santé et à la fabrication. Un outil puissant pour cette tâche est Aspose.OCR pour .NET, qui permet aux développeurs d’extraire le texte de documents scannés et des images avec une haute précision. Ce tutoriel montre comment configurer et utiliser Asposa.OCR pour …
Exemple complet
Ci-dessous est un exemple complet (hosté comme un hébergement) montrant comment utiliser Aspose.OCR pour .NET pour effectuer OCR sur plusieurs images dans un catalogue et enregistrer le texte extrait dans les fichiers texte correspondants.
Guide étape par étape
Étape 1: Initialisez le moteur OCR
Créer et configurer le moteur OCR. Configurez la langue souhaitée (anglais dans cet exemple).
// Step 1: Initialize the OCR Engine
using Aspose.Ocr;
using (Ocr ocrEngine = new Ocr())
{
// Set language and other configurations if needed
ocrEngine.Language = Language.English;
// (Continue with steps below inside this using block)
}
Étape 2 : Télécharger les images pour le traitement
Définissez les directories d’entrée / sortie, assurez-vous que la feuille d’entrée existe et enregistrez les fichiers image.
// Step 2: Load Images for Processing
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\text";
if (!Directory.Exists(outputDirectory))
{
Directory.CreateDirectory(outputDirectory);
}
// Get all files from the input directory (same pattern as the gist)
// TIP: to restrict to specific formats, replace "*.*" with "*.png" or "*.jpg"
string[] imageFiles = Directory.GetFiles(
inputDirectory,
"*.*",
SearchOption.TopDirectoryOnly
);
Étape 3: Permettez OCR sur chaque image
Télécharger les fichiers et reconnaître le texte en utilisant RecognizeImage(string path)
.
// Step 3: Perform OCR on Each Image
foreach (string imageFile in imageFiles)
{
try
{
// Recognize text from the image (exactly as in the gist)
string recognizedText = ocrEngine.RecognizeImage(imageFile);
// Proceed to Step 4: save text to disk...
}
catch (Exception ex)
{
Console.WriteLine($"Error processing {imageFile}: {ex.Message}");
}
}
Étape 4: Enregistrer le texte extrait dans les fichiers
Créer un correspondant .txt
fichier pour chaque image traitée.
// Step 4: Save Extracted Text to Files
string outputFilePath = Path.Combine(
outputDirectory,
Path.GetFileNameWithoutExtension(imageFile) + ".txt"
);
File.WriteAllText(outputFilePath, recognizedText);
Console.WriteLine($"Processed: {imageFile} -> {outputFilePath}");
Téléchargement & Tweaks
- ** Formats de filtre**: Utilisez des modèles comme
"*.png"
ou"*.jpg"
Éliminer les fichiers non-image. - Récurs sous-folders : Changement
SearchOption.TopDirectoryOnly
àSearchOption.AllDirectories
. - Les sorties de bateau sont vides**: Si
string.IsNullOrWhiteSpace(recognizedText)
Logez et continuez.
- Les sorties de bateau sont vides**: Si
- Batches parallèles: Utilisation
Parallel.ForEach(imageFiles, file => { ... })
Pour des courses plus rapides (mind I/O et licence).
En suivant ces étapes, vous pouvez automatiser le pack OCR avec Aspose.OCR pour .NET et exporter des fichiers de texte propres pour le traitement en dessous.