Hacer que los documentos escaneados sean buscables con Aspose.OCR .NET | File Format Processing Plugins for C# .NET Core

Aspose.OCR para .NET ofrece una potente solución a este problema permitiendo a los desarrolladores extraer texto de las imágenes y hacerlas buscables. Este post de blog le guiará a través del proceso de configuración de su entorno de desarrollo, configurando las configuraciones de reconocimiento, extrayendo texto en un paquete, construyendo o actualizando un índice de búsqueda, integrando la funcionalidad de busca con un visualizador de archivos, y añadiendo un robusto manejo de errores. Al final de este tutorial, tendrás una comprensión completa de cómo hacer que los documentos escaneados puedan ser buscados utilizando Aspose.OKR.

Ejemplo completo

Guía paso a paso

Paso 1: Crea tu entorno de desarrollo

Para comenzar con Aspose.OCR para .NET, necesita tener un entorno de desarrollo establecido. Esto incluye la instalación de los SDK necesarios y cualquier dependencia. Puede descargar la última versión de Asposa.ocR desde el sitio web oficial y añadirlo a su proyecto a través de NuGet o al referirse al DLL directamente.

Paso 2: Organizar tus archivos

Antes de comenzar a procesar los documentos, organiza sus archivos de documento escaneados en una estructura de directorio que hace sentido para su flujo de trabajo. Esto podría estar basado en la fecha, tipo del documento, o cualquier otro criterio relevante. Asegúrese de que todos los ficheros son accesibles desde su aplicación y que están en un formato apoyado por Aspose.OCR (como JPEG, PNG, TIFF, etc.).

Paso 3: Configurar las configuraciones de reconocimiento

Aspose.OCR le permite fin-tune el proceso de reconocimiento para satisfacer sus necesidades específicas. Usted puede configurar configuraciones como lenguaje, tipo de font, y opciones de preprocesamiento de imágenes. Por ejemplo, si usted está trabajando con documentos en inglés, usted definiría el idioma a “Inglés”. Además, puede querer ajustar la configuración de DPI para una mejor detección de texto en imágenes de alta resolución.

// Step 2: Organize scanned document files into a directory structure
string inputDirectory = @"C:\ScannedDocuments\2023\Invoices";
string[] supportedFormats = { ".jpg", ".png", ".tiff" };

// Get all supported files from the directory
var files = Directory.GetFiles(inputDirectory)
                     .Where(f => supportedFormats.Contains(Path.GetExtension(f), StringComparer.OrdinalIgnoreCase))
                     .ToArray();

Paso 4: Extracción de texto en batch

Una vez que se configuran sus configuraciones, puede comenzar a extraer texto de sus documentos. Aspose.OCR soporta el procesamiento de batch, lo que significa que puede procesar varios ficheros a la vez. Esto es particularmente útil para grandes archivos de documentos escaneados.

// Step 3: Configuring Recognition Settings
ocrEngine.SetLanguage(Language.English);
ocrEngine.SetImagePreprocessing(ImagePreprocessingOptions.Denoising);
ocrEngine.SetResolution(300); // Set DPI for better text detection

Paso 5: Construir o actualizar un índice de búsqueda

Después de extraer texto de sus documentos, hay que construir o actualizar un índice de búsqueda que permite a los usuarios encontrar rápidamente los documentos relevantes basados en las buscas de palabras clave.

// Step 4: Extract text in batch from a directory of images
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\results";

ocrEngine.RecognizeMultiple(inputDirectory, outputDirectory);

Paso 6: Integrar la búsqueda con un archivo

Para hacer que sus documentos buscables sean accesibles a los usuarios finales, hay que integrar la funcionalidad de búsqueda en una aplicación de visualizador de archivos. Esto podría ser una interfaz basada en la web o una app de escritorio. El visualizado debería permitir que los Usuarios busquen a través del texto indexado y vean los correspondientes documentos escaneados.

// Step 5: Building or Updating a Search Index
// Store extracted text in a searchable format (e.g., database or inverted index file)
string extractedText = ocrEngine.RecognizePage("scannedDocument.png").CodeText;
File.WriteAllText("searchIndex.txt", extractedText);

Paso 7: Agregar el tratamiento de errores

Por último, es importante agregar un robusto tratamiento de errores a su aplicación para asegurarse de que pueda gestionar con gracia problemas inesperados como ficheros corrompidos o fallos de red. Esto incluye los erros de registro para propósitos de debugging y proporcionar mensajes de error amigables al usuario cuando sea necesario.

Mejores Prácticas

Hacer que los documentos escaneados sean buscables es una potente manera de mejorar la usabilidad de los archivos digitales. Al seguir los pasos indicados en este tutorial, puede aprovechar Aspose.OCR para .NET para extraer texto de imágenes e integrarlo en un formato buscable. Recuerde probar su aplicación detalladamente con diferentes tipos de documentos y bajo diferentes condiciones para garantizar la fiabilidad. Además, considere implementar funciones como la evaluación de calidad de OCR y la corrección automática para mejorar aún más la precisión de su proceso de extracción de texto.

Ejemplo completo#

Guía paso a paso#

Paso 1: Crea tu entorno de desarrollo#

Paso 2: Organizar tus archivos#

Paso 3: Configurar las configuraciones de reconocimiento#

Paso 4: Extracción de texto en batch#

Paso 5: Construir o actualizar un índice de búsqueda#

Paso 6: Integrar la búsqueda con un archivo#

Paso 7: Agregar el tratamiento de errores#

Mejores Prácticas#

More in this category