Documentos PDF son esenciales en muchos procesos empresariales, a menudo requieren acceso programático a su contenido escaneado. Extracción de texto de archivos PDF escánados puede ser desafiante, enfatizando la necesidad de herramientas eficaces. En este tutorial, exploraremos cómo obtener documentos PDF OCR y extraer texto del PDF en C# utilizando la fiable ASPOSE.OCR para .NET API, una biblioteca de extracción de PDF líder C# OCR disponible para evaluación gratuita.

Lo que aprenderás

En este artículo abordaremos los siguientes temas:

Revisión de Aspose.OCR para .NET API

Vamos a utilizar el ASPOSE.OCR para .NET API, .

El fuego contiene el AsposeOcr clase, que proporciona múltiples métodos para las operaciones de OCR RecognizePdf(string, DocumentRecognitionSettings) El método es esencial para extraer texto de un documento PDF especificado DocumentRecognitionSettings la clase permite la personalización del proceso de reconocimiento, mientras que el RecognitionResult La clase encapsula los resultados del reconocimiento.

Usted puede Descarga el DLL de la API o instalarlo a través de NuGet:

PM> Install-Package Aspose.OCR

Pasos a OCR PDF y Extract Text en C#

Para realizar OCR en documentos PDF y extraer el texto reconocido, siga estos pasos:

  • Crea una instancia de la clase AsposeOcr.
  • Iniciar un objeto de la clase DocumentRecognitionSettings.
  • Especificar el idioma para OCR.
  • Obtenga el RecognitionResult invocando el método Pdf(), pasando el camino de la imagen y el DocumentRecognitionSettings El objeto.
  • Pasar a través de la lista RecognitionResult para mostrar el texto identificado.

Aquí hay un ejemplo que ilustra cómo obtener documentos PDF de OCR y extraer texto reconocido en C#:

OCR PDF y extraer texto de PDF en C#

Cómo realizar OCR en PDF y guardar texto en C#

Para realizar OCR en documentos PDF y salvar el texto reconocido, siga estos pasos:

  • Crea una instancia de la clase AsposeOcr.
  • Iniciar un objeto de la clase DocumentRecognitionSettings.
  • Especificar el idioma para OCR.
  • Póngase en contacto con el método RecognizePdf() para obtener el RecognitionResult.
  • Salva el texto utilizando el método SaveMultipageDocument(), que requiere la ruta de archivo de salida, el SaveFormat, y el RecognitionResult El objeto.

Aquí hay un ejemplo que demuestra cómo acceder a documentos PDF de OCR y guardar el texto reconocido en C#:

Performan OCR en PDF y guardan texto en C#

Convertir OCR PDF a Word en C#

Para convertir documentos de PDF escaneados a Word, siga los mismos pasos que se mencionaron anteriormente, pero especifique SaveFormat.Docx en el paso final.

Aquí hay un ejemplo que ilustra cómo acceder a OCR PDF y guardar el texto reconocido como documento de Word en C#:

OCR PDF y Convertir Scanned PDF en Word en C#

Convertir OCR PDF a JSON en C#

Para guardar el texto reconocido de los documentos PDF en un archivo JSON, siga los pasos anteriores con el único cambio de ser especificar SaveFormat.Json en el paso final.

Aquí hay un ejemplo que demuestra cómo acceder a OCR PDF y guardar el texto reconocido como un archivo JSON en C#:

Obtenga una licencia de evaluación gratuita

Usted puede Obtener una licencia temporal gratuita para evaluar el Aspose.OCR para .NET API sin limitaciones.

Conclusión

En este tutorial, aprendimos cómo realizar OCR en documentos PDF y extraer texto de PDF en C TXT, DOCX, y JSON Para obtener más información sobre el Aspose.OCR para .NET API, consulte su Documentación. Si tiene alguna pregunta, se siente libre para llegar a nosotros en nuestro El Foro.

Ver también

Al aprovechar la Aspose.OCR para .NET API, puede implementar una alta precisión PDF OCR en C# para diversas aplicaciones, incluyendo el procesamiento y el manejo de formularios de C# Faturas de OCR. Esta requisita solución de OKR PDF es perfecta para los desarrolladores que buscan integrar eficientemente las capacidades de DOCR en sus aplicacións.

Además, si necesita convertir PDF en texto en C#, esta API proporciona una solución sencilla.Para aquellos interesados en C# OCR PDF a texto capacidades, la integración es sin sentido, lo que permite la extracción de texto eficiente de varios formatos de documento.También puede utilizar la funcionalidad c# Convert PDF to Text para manejar fácilmente la extración del texto de PDF, haciendo su proceso de desarrollo más suave.

Si usted está buscando un Aspose OCR C# Example, esta guía sirve como un recurso integral. Además, para tareas intricadas como el uso de C# API , este tutorial cubre todos los elementos esenciales necesarios para comenzar eficazmente.

Para aquellos que quieren evaluar el SDK de PDF y la empresa de software de procesamiento de documentos Aspose en OCR PDF SDk, este tutorial sirve como un excelente punto de partida para entender sus capacidades. Ya sea que necesitas un C# O CR DLL para la integración o un** C# oCR tutorial** por la guía, encontrarás todo lo que necesita para utilizar eficazmente la API en tus proyectos.

Además, si desea aprovechar el reconocimiento de texto C# o utilizar la biblioteca OCR para diferentes aplicaciones, puede explorar las características que Aspose ofrece para apoyar estas funcionalidades.La evaluación SDK PDF es una excelente oportunidad para experimentar con las capacidades de esta biblioteca, garantizando que encuentre las soluciones adecuadas para sus necesidades OCC.

Por último, si necesitas extraer texto de PDF en C#, o utilizar una API de OCRC, las características disponibles de C#OCR PDF simplificarán el proceso de desarrollo y mejorarán la funcionalidad de tu aplicación. También puedes utilizar la Biblioteca de OCR para diversas tareas de OKR, incluidas las implementaciones de Reconocer Texto de Imagen y Sample de UCR para mejorar aún más tus proyectos.

More in this category