La automatización del procesamiento de documentos puede aumentar significativamente la productividad y la precisión en diferentes industrias, desde los servicios legales y financieros hasta la salud y el fabrico. Una poderosa herramienta para esta tarea es Aspose.OCR para .NET, que permite a los desarrolladores extraer texto de los documentos escaneados y las imágenes con alta exactitud. Este tutorial muestra cómo configurar y utilizar Aspos.ocR por .Net para automatizar las tareas de tratamiento de documento, incluidas las operaciones de OCR de conjunto e integración con los sistemas de terceras partes.
Ejemplo completo
A continuación se muestra un ejemplo completo (hostado como un gesto) que demuestra cómo utilizar Aspose.OCR para .NET para realizar OCR en múltiples imágenes en un directorio y salvar el texto extraído a los archivos de texto correspondientes.
Guía paso a paso
Paso 1: Iniciar el motor OCR
Crea y configura el motor OCR. Configure el idioma deseado (en inglés en este ejemplo).
// Step 1: Initialize the OCR Engine
using Aspose.Ocr;
using (Ocr ocrEngine = new Ocr())
{
// Set language and other configurations if needed
ocrEngine.Language = Language.English;
// (Continue with steps below inside this using block)
}
Paso 2: Cargar imágenes para procesar
Define los directorios de entrada / salida, asegúrese de que la carpeta de salida existe y enumera los archivos de imagen.
// Step 2: Load Images for Processing
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\text";
if (!Directory.Exists(outputDirectory))
{
Directory.CreateDirectory(outputDirectory);
}
// Get all files from the input directory (same pattern as the gist)
// TIP: to restrict to specific formats, replace "*.*" with "*.png" or "*.jpg"
string[] imageFiles = Directory.GetFiles(
inputDirectory,
"*.*",
SearchOption.TopDirectoryOnly
);
Paso 3: Performan OCR en cada imagen
Iterate sobre los archivos y reconocer el texto utilizando RecognizeImage(string path)
.
// Step 3: Perform OCR on Each Image
foreach (string imageFile in imageFiles)
{
try
{
// Recognize text from the image (exactly as in the gist)
string recognizedText = ocrEngine.RecognizeImage(imageFile);
// Proceed to Step 4: save text to disk...
}
catch (Exception ex)
{
Console.WriteLine($"Error processing {imageFile}: {ex.Message}");
}
}
Paso 4: Salva el texto extraído en archivos
Crea un correspondente .txt
archivos para cada imagen procesada.
// Step 4: Save Extracted Text to Files
string outputFilePath = Path.Combine(
outputDirectory,
Path.GetFileNameWithoutExtension(imageFile) + ".txt"
);
File.WriteAllText(outputFilePath, recognizedText);
Console.WriteLine($"Processed: {imageFile} -> {outputFilePath}");
Temas y Tweaks
- Formatos de filtro: Utilice patrones como
"*.png"
o"*.jpg"
Descargar archivos no de imagen. - Subfolders de recurrencia**: Cambios
SearchOption.TopDirectoryOnly
paraSearchOption.AllDirectories
.
- Subfolders de recurrencia**: Cambios
- Puestos vacíos de la nave*: Si
string.IsNullOrWhiteSpace(recognizedText)
Logue y continúe. - Batches paralelos: Utilización
Parallel.ForEach(imageFiles, file => { ... })
para carreras más rápidas (mente I/O y licencia).
Al seguir estas etapas, puede automatizar el conjunto de OCR con Aspose.OCR para .NET y exportar archivos de texto limpios para el procesamiento de corriente baja.