
Los documentos PDF son fundamentales para varios procesos comerciales, a menudo necesitando acceso programático a su contenido escaneado. Extraer texto de archivos PDF escaneados puede ser una tarea compleja, lo que resalta la necesidad de herramientas efectivas. En este tutorial, profundizaremos en cómo realizar OCR en documentos PDF y extraer texto de PDF en C# utilizando la confiable Aspose.OCR para .NET API, una destacada biblioteca de extracción de OCR PDF en C# disponible para evaluación gratuita.
Lo Que Aprenderás
En este artículo, cubriremos los siguientes temas:
- Descripción general de Aspose.OCR para .NET API
- Pasos para realizar OCR en PDF y Extraer Texto
- Cómo Realizar OCR en PDF y Guardar Texto
- Convertir OCR PDF a Word
- Convertir OCR PDF a JSON
Descripción general de Aspose.OCR para .NET API
Utilizaremos la Aspose.OCR para .NET API, una robusta API de OCR PDF para .NET diseñada para reconocer texto de imágenes escaneadas, fotos de teléfonos inteligentes y capturas de pantalla, devolviendo resultados en varios formatos de documentos. Esta API no solo convierte imágenes a texto, sino que también crea PDFs buscables a partir de escaneos y corrige cualquier error ortográfico en el texto reconocido, convirtiéndola en una de las soluciones de OCR PDF en C# más rápidas disponibles por solo $99.
La API cuenta con la clase AsposeOcr, que proporciona múltiples métodos para operaciones de OCR. Notablemente, el método RecognizePdf(string, DocumentRecognitionSettings) es esencial para extraer texto de un documento PDF especificado. La clase DocumentRecognitionSettings permite la personalización del proceso de reconocimiento, mientras que la clase RecognitionResult encapsula los resultados del reconocimiento.
Puedes descargar el DLL de la API o instalarlo a través de NuGet:
PM> Install-Package Aspose.OCR
Pasos para realizar OCR en PDF y Extraer Texto en C#
Para realizar OCR en documentos PDF y extraer el texto reconocido, sigue estos pasos:
- Crea una instancia de la clase AsposeOcr.
- Inicializa un objeto de la clase DocumentRecognitionSettings.
- Especifica el idioma para OCR.
- Obtén el RecognitionResult invocando el método RecognizePdf(), pasando la ruta de la imagen y el objeto DocumentRecognitionSettings.
- Recorre la lista RecognitionResult para mostrar el texto identificado.
Aquí tienes un ejemplo que ilustra cómo realizar OCR en documentos PDF y extraer texto reconocido en C#:
Cómo Realizar OCR en PDF y Guardar Texto en C#
Para realizar OCR en documentos PDF y guardar el texto reconocido, sigue estos pasos:
- Crea una instancia de la clase AsposeOcr.
- Inicializa un objeto de la clase DocumentRecognitionSettings.
- Especifica el idioma para OCR.
- Llama al método RecognizePdf() para obtener el RecognitionResult.
- Guarda el texto utilizando el método SaveMultipageDocument(), que requiere la ruta del archivo de salida, el SaveFormat y el objeto RecognitionResult.
Aquí tienes un ejemplo que demuestra cómo realizar OCR en documentos PDF y guardar el texto reconocido en C#:
Convertir OCR PDF a Word en C#
Para convertir documentos PDF escaneados a Word, sigue los mismos pasos que se describieron anteriormente, pero especifica SaveFormat.Docx en el paso final.
Aquí tienes un ejemplo que ilustra cómo realizar OCR en PDF y guardar el texto reconocido como un documento de Word en C#:
Convertir OCR PDF a JSON en C#
Para guardar el texto reconocido de documentos PDF en un archivo JSON, sigue los pasos anteriores con el único cambio de especificar SaveFormat.Json en el paso final.
Aquí tienes un ejemplo que demuestra cómo realizar OCR en PDF y guardar el texto reconocido como un archivo JSON en C#:
Obtén una Licencia de Evaluación Gratuita
Puedes obtener una licencia temporal gratuita para evaluar la Aspose.OCR para .NET API sin ninguna limitación.
Conclusión
En este tutorial, aprendimos cómo realizar OCR en documentos PDF y extraer texto de PDF en C#. También exploramos cómo guardar el texto reconocido como un archivo TXT, DOCX, y JSON. Para más información sobre la Aspose.OCR para .NET API, consulta su documentación. Si tienes alguna pregunta, no dudes en contactarnos en nuestro foro.
Véase También
- Convertir Captura de Pantalla a Texto con OCR en C#
- OCR Imagen a Texto y Corrección Ortográfica en C#
- Convertir PDF Escaneado a PDF Buscable con OCR en C#
Al aprovechar la Aspose.OCR para .NET API, puedes implementar OCR PDF de alta precisión en C# para diversas aplicaciones, incluyendo el procesamiento de facturas y manejo de formularios. Esta solución de OCR PDF asequible para .NET es perfecta para desarrolladores que buscan integrar capacidades de OCR PDF en sus aplicaciones de manera eficiente.