Aspose.OCR pour .NET offre une solution puissante à ce problème en permettant aux développeurs d’extraire le texte des images et de les rendre recherchables. Cet article de blog vous guidera par le processus de configuration de votre environnement de développement, configurer les paramètres de reconnaissance, extraire du texte dans un ensemble, construire ou mettre à jour un indice de recherche, intégrer la fonctionnalité de la recherche avec un visualisateur d’archives, et ajouter une gestion robuste des erreurs.

Exemple complet

Guide étape par étape

Étape 1 : Développer votre environnement de développement

Pour commencer avec Aspose.OCR pour .NET, vous devez avoir un environnement de développement établi. Cela inclut l’installation des SDK nécessaires et toute dépendance. Vous pouvez télécharger la dernière version d’ASPOSE.OKR du site officiel et l’ajouter à votre projet via NuGet ou en faisant référence au DLL directement.

Étape 2 : organiser vos fichiers d’archives

Avant de commencer à traiter les documents, organiser vos fichiers de document scanés dans une structure de directory qui fait sens pour votre flux de travail. Cela pourrait être basé sur la date, le type du document, ou tout autre critère pertinent. Assurez-vous que tous les dossiers sont accessibles à partir de votre application et qu’ils sont dans un format soutenu par Aspose.OCR (comme JPEG, PNG, TIFF, etc.).

Étape 3 : Configurer les paramètres de reconnaissance

Aspose.OCR vous permet de finaliser le processus de reconnaissance pour répondre à vos besoins spécifiques. Vous pouvez configurer des paramètres tels que la langue, le type de caractère et les options de pré-traitement de l’image. Par exemple, si vous travaillez avec des documents en anglais, vous définiriez le langage à “Anglais”. En outre, il se peut que vous voulez ajuster la configuration DPI pour une meilleure détection de texte sur les images à haute résolution.

// Step 2: Organize scanned document files into a directory structure
string inputDirectory = @"C:\ScannedDocuments\2023\Invoices";
string[] supportedFormats = { ".jpg", ".png", ".tiff" };

// Get all supported files from the directory
var files = Directory.GetFiles(inputDirectory)
                     .Where(f => supportedFormats.Contains(Path.GetExtension(f), StringComparer.OrdinalIgnoreCase))
                     .ToArray();

Étape 4 : extraire le texte en batch

Une fois que vos paramètres sont configurés, vous pouvez commencer à extraire du texte de vos documents. Aspose.OCR prend en charge le traitement des pièces, ce qui signifie que vous pourrez traiter plusieurs fichiers à la fois. Ceci est particulièrement utile pour les grands archives de documents scannés.

// Step 3: Configuring Recognition Settings
ocrEngine.SetLanguage(Language.English);
ocrEngine.SetImagePreprocessing(ImagePreprocessingOptions.Denoising);
ocrEngine.SetResolution(300); // Set DPI for better text detection

Étape 5: Créer ou mettre à jour un index de recherche

Après avoir extrait le texte de vos documents, vous devez construire ou mettre à jour un indice de recherche qui permet aux utilisateurs de trouver rapidement les documents pertinents sur la base des recherches de mots-clés.

// Step 4: Extract text in batch from a directory of images
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\results";

ocrEngine.RecognizeMultiple(inputDirectory, outputDirectory);

Étape 6: Intégrer la recherche avec un navigateur d’archives

Pour rendre vos documents recherchables accessibles aux utilisateurs finaux, vous devez intégrer la fonctionnalité de recherche dans une application de visionnaire d’archives. Ceci pourrait être une interface web ou une applications de bureau. Le visiteur devrait permettre à l’utilisateur de rechercher par le texte indexé et de voir les documents scannés correspondants.

// Step 5: Building or Updating a Search Index
// Store extracted text in a searchable format (e.g., database or inverted index file)
string extractedText = ocrEngine.RecognizePage("scannedDocument.png").CodeText;
File.WriteAllText("searchIndex.txt", extractedText);

Étape 7 : ajouter le traitement des erreurs

Enfin, il est important d’ajouter une gestion robuste de l’erreur à votre application pour s’assurer qu’elle peut gérer avec charité des problèmes inattendus tels que les fichiers corrompus ou les erreurs réseau.

Migliori pratiche

En faisant des documents scannés recherchables est un moyen puissant d’améliorer l’usabilité des archives numériques. En suivant les étapes indiquées dans ce tutoriel, vous pouvez utiliser Aspose.OCR pour .NET pour extraire le texte des images et le intégrer dans un format à rechercher. Rappelez-vous de tester votre application en profondeur avec différents types de documents et sous différentes conditions pour assurer la fiabilidade. De plus, envisagez de mettre en œuvre des fonctionnalités telles que l’évaluation de la qualité OCR et la correction automatique pour améliorer davantage la précision de votre processus d’extraction du texte.

More in this category