A automatização do processamento de documentos pode aumentar significativamente a produtividade e a precisão em várias indústrias, desde serviços legais e financeiros até cuidados de saúde e fabricação. Uma ferramenta poderosa para esta tarefa é Aspose.OCR para .NET, que permite aos desenvolvedores extrair texto dos documentos escaneados e imagens com alta precocidade. Este tutorial mostra como configurar e usar Aspos.OCR para …

Exemplo completo

Abaixo está um exemplo completo (hostado como um gesto) mostrando como usar Aspose.OCR para .NET para executar OCR em múltiplas imagens em um diretório e salvar o texto extraído para arquivos de texto correspondentes.

Guia passo a passo

Passo 1: Iniciar o motor OCR

Crie e configure o motor OCR. Defina o idioma desejado (Inglês neste exemplo).

// Step 1: Initialize the OCR Engine
using Aspose.Ocr;

using (Ocr ocrEngine = new Ocr())
{
    // Set language and other configurations if needed
    ocrEngine.Language = Language.English;

    // (Continue with steps below inside this using block)
}

Passo 2: Carregar imagens para processamento

Define os diretórios de entrada / saída, certifique-se de que a pasta de saída existe e enumere os arquivos de imagem.

// Step 2: Load Images for Processing
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\text";

if (!Directory.Exists(outputDirectory))
{
    Directory.CreateDirectory(outputDirectory);
}

// Get all files from the input directory (same pattern as the gist)
// TIP: to restrict to specific formats, replace "*.*" with "*.png" or "*.jpg"
string[] imageFiles = Directory.GetFiles(
    inputDirectory,
    "*.*",
    SearchOption.TopDirectoryOnly
);

Passo 3: Performante OCR em cada imagem

Iterar sobre arquivos e reconhecer texto usando RecognizeImage(string path).

// Step 3: Perform OCR on Each Image
foreach (string imageFile in imageFiles)
{
    try
    {
        // Recognize text from the image (exactly as in the gist)
        string recognizedText = ocrEngine.RecognizeImage(imageFile);

        // Proceed to Step 4: save text to disk...
    }
    catch (Exception ex)
    {
        Console.WriteLine($"Error processing {imageFile}: {ex.Message}");
    }
}

Passo 4: Salve texto extraído para arquivos

Crie um correspondente .txt arquivo para cada imagem processada.

// Step 4: Save Extracted Text to Files
string outputFilePath = Path.Combine(
    outputDirectory,
    Path.GetFileNameWithoutExtension(imageFile) + ".txt"
);

File.WriteAllText(outputFilePath, recognizedText);

Console.WriteLine($"Processed: {imageFile} -> {outputFilePath}");

Tipos e Tweaks

  • Formatos de filtro: Use padrões como "*.png" ou "*.jpg" Desligar arquivos não-imagem.
    • Subfolders recursivos**: Mudança SearchOption.TopDirectoryOnly Para SearchOption.AllDirectories.
  • Vídeos vazios do navio*: Se string.IsNullOrWhiteSpace(recognizedText)Log e continue.
  • Batches paralelos: Utilização Parallel.ForEach(imageFiles, file => { ... }) para corridas mais rápidas (mind I/O e licenciamento).

Ao seguir estas etapas, você pode automatizar o pacote OCR com Aspose.OCR para .NET e exportar arquivos de texto limpos para processamento em baixo.

More in this category