La automatización del procesamiento de documentos puede aumentar significativamente la productividad y la precisión en diferentes industrias, desde los servicios legales y financieros hasta la salud y el fabrico. Una poderosa herramienta para esta tarea es Aspose.OCR para .NET, que permite a los desarrolladores extraer texto de los documentos escaneados y las imágenes con alta exactitud. Este tutorial muestra cómo configurar y utilizar Aspos.ocR por .Net para automatizar las tareas de tratamiento de documento, incluidas las operaciones de OCR de conjunto e integración con los sistemas de terceras partes.

Ejemplo completo

A continuación se muestra un ejemplo completo (hostado como un gesto) que demuestra cómo utilizar Aspose.OCR para .NET para realizar OCR en múltiples imágenes en un directorio y salvar el texto extraído a los archivos de texto correspondientes.

Guía paso a paso

Paso 1: Iniciar el motor OCR

Crea y configura el motor OCR. Configure el idioma deseado (en inglés en este ejemplo).

// Step 1: Initialize the OCR Engine
using Aspose.Ocr;

using (Ocr ocrEngine = new Ocr())
{
    // Set language and other configurations if needed
    ocrEngine.Language = Language.English;

    // (Continue with steps below inside this using block)
}

Paso 2: Cargar imágenes para procesar

Define los directorios de entrada / salida, asegúrese de que la carpeta de salida existe y enumera los archivos de imagen.

// Step 2: Load Images for Processing
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\text";

if (!Directory.Exists(outputDirectory))
{
    Directory.CreateDirectory(outputDirectory);
}

// Get all files from the input directory (same pattern as the gist)
// TIP: to restrict to specific formats, replace "*.*" with "*.png" or "*.jpg"
string[] imageFiles = Directory.GetFiles(
    inputDirectory,
    "*.*",
    SearchOption.TopDirectoryOnly
);

Paso 3: Performan OCR en cada imagen

Iterate sobre los archivos y reconocer el texto utilizando RecognizeImage(string path).

// Step 3: Perform OCR on Each Image
foreach (string imageFile in imageFiles)
{
    try
    {
        // Recognize text from the image (exactly as in the gist)
        string recognizedText = ocrEngine.RecognizeImage(imageFile);

        // Proceed to Step 4: save text to disk...
    }
    catch (Exception ex)
    {
        Console.WriteLine($"Error processing {imageFile}: {ex.Message}");
    }
}

Paso 4: Salva el texto extraído en archivos

Crea un correspondente .txt archivos para cada imagen procesada.

// Step 4: Save Extracted Text to Files
string outputFilePath = Path.Combine(
    outputDirectory,
    Path.GetFileNameWithoutExtension(imageFile) + ".txt"
);

File.WriteAllText(outputFilePath, recognizedText);

Console.WriteLine($"Processed: {imageFile} -> {outputFilePath}");

Temas y Tweaks

  • Formatos de filtro: Utilice patrones como "*.png" o "*.jpg" Descargar archivos no de imagen.
    • Subfolders de recurrencia**: Cambios SearchOption.TopDirectoryOnly para SearchOption.AllDirectories.
  • Puestos vacíos de la nave*: Si string.IsNullOrWhiteSpace(recognizedText)Logue y continúe.
  • Batches paralelos: Utilización Parallel.ForEach(imageFiles, file => { ... }) para carreras más rápidas (mente I/O y licencia).

Al seguir estas etapas, puede automatizar el conjunto de OCR con Aspose.OCR para .NET y exportar archivos de texto limpios para el procesamiento de corriente baja.

More in this category