Automatizacija obrade dokumenata može znatno poboljšati produktivnost i točnost u različitim industrijama, od pravnih i financijskih usluga do zdravstvene skrbi i proizvodnje. Jedan moćan alat za ovu zadaću je Aspose.OCR za .NET, koji omogućuje razvijalcima da izvlače tekst iz skeniranih dokumenta i slika s visokom preciznošću.

Potpuni primjer

Ispod je potpuni primjer (hosted as a gist) koji pokazuje kako koristiti Aspose.OCR za .NET za izvršavanje OCR-a na više slika u direktoriju i sačuvati izveden tekst na odgovarajuće tekstne datoteke.

korak po korak vodič

Korak 1: Inicijalizirajte OCR motor

Stvorite i konfigurirajte OCR motor. postavite željeni jezik (Engleski u ovom primjeru).

// Step 1: Initialize the OCR Engine
using Aspose.Ocr;

using (Ocr ocrEngine = new Ocr())
{
    // Set language and other configurations if needed
    ocrEngine.Language = Language.English;

    // (Continue with steps below inside this using block)
}

Korak 2: Preuzmite slike za obradu

Definicija ulaznih/izlaznih direktorija, osigurati da izlazni folder postoji i popisati datoteke slike.

// Step 2: Load Images for Processing
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\text";

if (!Directory.Exists(outputDirectory))
{
    Directory.CreateDirectory(outputDirectory);
}

// Get all files from the input directory (same pattern as the gist)
// TIP: to restrict to specific formats, replace "*.*" with "*.png" or "*.jpg"
string[] imageFiles = Directory.GetFiles(
    inputDirectory,
    "*.*",
    SearchOption.TopDirectoryOnly
);

Korak 3: Učinite OCR na svakoj slici

Iterate preko datoteka i prepoznajte tekst pomoću RecognizeImage(string path).

// Step 3: Perform OCR on Each Image
foreach (string imageFile in imageFiles)
{
    try
    {
        // Recognize text from the image (exactly as in the gist)
        string recognizedText = ocrEngine.RecognizeImage(imageFile);

        // Proceed to Step 4: save text to disk...
    }
    catch (Exception ex)
    {
        Console.WriteLine($"Error processing {imageFile}: {ex.Message}");
    }
}

Korak 4: Sačuvajte izveden tekst u datoteke

Stvaranje odgovarajućeg .txt Prijava za svaku obrađenu sliku.

// Step 4: Save Extracted Text to Files
string outputFilePath = Path.Combine(
    outputDirectory,
    Path.GetFileNameWithoutExtension(imageFile) + ".txt"
);

File.WriteAllText(outputFilePath, recognizedText);

Console.WriteLine($"Processed: {imageFile} -> {outputFilePath}");

Sljedeći članakTips & Tweaks

  • Filter formati: Koristite uzorke poput "*.png" ili "*.jpg" Uklanjanje ne-imaginalnih datoteka.
  • Povratni subfolderi: promjena SearchOption.TopDirectoryOnly na SearchOption.AllDirectories.
  • Putni izlazi na plovilu: Ako string.IsNullOrWhiteSpace(recognizedText)Prijavite se i nastavite.
  • ** Paralelni batši**: Koristite Parallel.ForEach(imageFiles, file => { ... }) za brže trke (mind I/O i licenciranje).

Slijedom ovih koraka možete automatizirati pakiranje OCR-a s Aspose.OCR-om za .NET i izvoziti čiste tekstne datoteke za obrad.

More in this category