Les documents PDF sont essentiels à divers processus commerciaux, nécessitant souvent un accès programmatique à leur contenu numérisé. L’extraction de texte à partir de fichiers PDF numérisés peut être une tâche complexe, soulignant la nécessité d’outils efficaces. Dans ce tutoriel, nous allons explorer comment effectuer de l’OCR sur des documents PDF et extraire du texte à partir de PDF en C# en utilisant la fiable Aspose.OCR pour .NET API, une bibliothèque de C# OCR PDF de premier plan disponible pour une évaluation gratuite.

Ce que vous apprendrez

Dans cet article, nous aborderons les sujets suivants :

  1. Aperçu de l’Aspose.OCR pour .NET API
  2. Étapes pour effectuer de l’OCR sur PDF et extraire du texte
  3. Comment effectuer de l’OCR sur PDF et enregistrer le texte
  4. Conversion d’OCR PDF en Word
  5. Conversion d’OCR PDF en JSON

Aperçu de l’Aspose.OCR pour .NET API

Nous utiliserons l’Aspose.OCR pour .NET API, une API .NET PDF OCR robuste conçue pour reconnaître du texte à partir d’images numérisées, de photos de smartphones et de captures d’écran, retournant des résultats dans divers formats de documents. Cette API non seulement convertit les images en texte mais crée également des PDF consultables à partir de scans et corrige les fautes d’orthographe dans le texte reconnu, ce qui en fait l’une des solutions C# PDF OCR les plus rapides disponibles pour seulement 99 $.

L’API comporte la classe AsposeOcr, qui fournit plusieurs méthodes pour les opérations OCR. Notamment, la méthode RecognizePdf(string, DocumentRecognitionSettings) est essentielle pour extraire du texte d’un document PDF spécifié. La classe DocumentRecognitionSettings permet de personnaliser le processus de reconnaissance, tandis que la classe RecognitionResult encapsule les résultats de la reconnaissance.

Vous pouvez télécharger le DLL de l’API ou l’installer via NuGet :

PM> Install-Package Aspose.OCR

Étapes pour effectuer de l’OCR sur PDF et extraire du texte en C#

Pour effectuer de l’OCR sur des documents PDF et extraire le texte reconnu, suivez ces étapes :

  1. Créez une instance de la classe AsposeOcr.
  2. Initialisez un objet de la classe DocumentRecognitionSettings.
  3. Spécifiez la langue pour l’OCR.
  4. Obtenez le RecognitionResult en invoquant la méthode RecognizePdf(), en passant le chemin de l’image et l’objet DocumentRecognitionSettings.
  5. Parcourez la liste RecognitionResult pour afficher le texte identifié.

Voici un exemple illustrant comment effectuer de l’OCR sur des documents PDF et extraire le texte reconnu en C# :

OCR PDF et Extraire du texte à partir de PDF en C#

Comment effectuer de l’OCR sur PDF et enregistrer le texte en C#

Pour effectuer de l’OCR sur des documents PDF et enregistrer le texte reconnu, suivez ces étapes :

  1. Créez une instance de la classe AsposeOcr.
  2. Initialisez un objet de la classe DocumentRecognitionSettings.
  3. Spécifiez la langue pour l’OCR.
  4. Appelez la méthode RecognizePdf() pour obtenir le RecognitionResult.
  5. Enregistrez le texte en utilisant la méthode SaveMultipageDocument(), qui nécessite le chemin du fichier de sortie, le SaveFormat, et l’objet RecognitionResult.

Voici un exemple démontrant comment effectuer de l’OCR sur des documents PDF et enregistrer le texte reconnu en C# :

Effectuer de l’OCR sur PDF et Enregistrer le texte en C#

Conversion d’OCR PDF en Word en C#

Pour convertir des documents PDF numérisés en Word, suivez les mêmes étapes que celles décrites précédemment, mais spécifiez SaveFormat.Docx à l’étape finale.

Voici un exemple illustrant comment effectuer de l’OCR sur PDF et enregistrer le texte reconnu en tant que document Word en C# :

OCR PDF et Convertir le PDF numérisé en Word en C#

Conversion d’OCR PDF en JSON en C#

Pour enregistrer le texte reconnu à partir de documents PDF dans un fichier JSON, suivez les étapes précédentes avec pour seul changement de spécifier SaveFormat.Json à l’étape finale.

Voici un exemple démontrant comment effectuer de l’OCR sur PDF et enregistrer le texte reconnu en tant que fichier JSON en C# :

Obtenez une licence d’évaluation gratuite

Vous pouvez obtenir une licence temporaire gratuite pour évaluer l’Aspose.OCR pour .NET API sans aucune limitation.

Conclusion

Dans ce tutoriel, nous avons appris à effectuer de l’OCR sur des documents PDF et à extraire du texte à partir de PDF en C#. Nous avons également exploré comment enregistrer le texte reconnu en tant que fichier TXT, DOCX et JSON. Pour plus d’informations sur l’Aspose.OCR pour .NET API, consultez sa documentation. Si vous avez des questions, n’hésitez pas à nous contacter sur notre forum.

Voir aussi

En tirant parti de l’Aspose.OCR pour .NET API, vous pouvez mettre en œuvre une OCR PDF de haute précision en C# pour diverses applications, y compris le traitement des factures et la gestion des formulaires. Cette solution .NET PDF OCR abordable est parfaite pour les développeurs souhaitant intégrer efficacement des capacités OCR PDF dans leurs applications.