Automatizacija obrade dokumenata može znatno poboljšati produktivnost i točnost u različitim industrijama, od pravnih i financijskih usluga do zdravstvene skrbi i proizvodnje. Jedan moćan alat za ovu zadaću je Aspose.OCR za .NET, koji omogućuje razvijalcima da izvlače tekst iz skeniranih dokumenta i slika s visokom preciznošću.
Potpuni primjer
Ispod je potpuni primjer (hosted as a gist) koji pokazuje kako koristiti Aspose.OCR za .NET za izvršavanje OCR-a na više slika u direktoriju i sačuvati izveden tekst na odgovarajuće tekstne datoteke.
korak po korak vodič
Korak 1: Inicijalizirajte OCR motor
Stvorite i konfigurirajte OCR motor. postavite željeni jezik (Engleski u ovom primjeru).
// Step 1: Initialize the OCR Engine
using Aspose.Ocr;
using (Ocr ocrEngine = new Ocr())
{
// Set language and other configurations if needed
ocrEngine.Language = Language.English;
// (Continue with steps below inside this using block)
}
Korak 2: Preuzmite slike za obradu
Definicija ulaznih/izlaznih direktorija, osigurati da izlazni folder postoji i popisati datoteke slike.
// Step 2: Load Images for Processing
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\text";
if (!Directory.Exists(outputDirectory))
{
Directory.CreateDirectory(outputDirectory);
}
// Get all files from the input directory (same pattern as the gist)
// TIP: to restrict to specific formats, replace "*.*" with "*.png" or "*.jpg"
string[] imageFiles = Directory.GetFiles(
inputDirectory,
"*.*",
SearchOption.TopDirectoryOnly
);
Korak 3: Učinite OCR na svakoj slici
Iterate preko datoteka i prepoznajte tekst pomoću RecognizeImage(string path)
.
// Step 3: Perform OCR on Each Image
foreach (string imageFile in imageFiles)
{
try
{
// Recognize text from the image (exactly as in the gist)
string recognizedText = ocrEngine.RecognizeImage(imageFile);
// Proceed to Step 4: save text to disk...
}
catch (Exception ex)
{
Console.WriteLine($"Error processing {imageFile}: {ex.Message}");
}
}
Korak 4: Sačuvajte izveden tekst u datoteke
Stvaranje odgovarajućeg .txt
Prijava za svaku obrađenu sliku.
// Step 4: Save Extracted Text to Files
string outputFilePath = Path.Combine(
outputDirectory,
Path.GetFileNameWithoutExtension(imageFile) + ".txt"
);
File.WriteAllText(outputFilePath, recognizedText);
Console.WriteLine($"Processed: {imageFile} -> {outputFilePath}");
Sljedeći članakTips & Tweaks
- Filter formati: Koristite uzorke poput
"*.png"
ili"*.jpg"
Uklanjanje ne-imaginalnih datoteka. - Povratni subfolderi: promjena
SearchOption.TopDirectoryOnly
naSearchOption.AllDirectories
. - Putni izlazi na plovilu: Ako
string.IsNullOrWhiteSpace(recognizedText)
Prijavite se i nastavite. - ** Paralelni batši**: Koristite
Parallel.ForEach(imageFiles, file => { ... })
za brže trke (mind I/O i licenciranje).
Slijedom ovih koraka možete automatizirati pakiranje OCR-a s Aspose.OCR-om za .NET i izvoziti čiste tekstne datoteke za obrad.