Procesarea automată a documentelor poate îmbunătăți în mod semnificativ productivitatea și precizia în diferite industrii, de la servicii juridice și financiare la asistență medicală și fabricație. Un instrument puternic pentru această sarcină este Aspose.OCR pentru .NET, care permite dezvoltatorilor să extrage text din documente scanate și imagini cu precizie ridicată. Acest tutorial arată cum să se stabilească și să utilizeze Asposa.OCR pentru …
Exemplu complet
Mai jos este un exemplu complet (hostat ca un ghost) care demonstrează cum să utilizați Aspose.OCR pentru .NET pentru a efectua OCR pe mai multe imagini într-un director și să salvați textul extras în fișierele de text corespunzătoare.
Ghidul pas cu pas
Pasul 1: Inițializați motorul OCR
Creați și configurați motorul OCR. Setarea limbii dorite (Engleză în acest exemplu).
// Step 1: Initialize the OCR Engine
using Aspose.Ocr;
using (Ocr ocrEngine = new Ocr())
{
// Set language and other configurations if needed
ocrEngine.Language = Language.English;
// (Continue with steps below inside this using block)
}
Pasul 2: Încărcați imagini pentru prelucrare
Definiți directorii de intrare/output, asigurați-vă că folderul de ieșire există și listați fișierele de imagine.
// Step 2: Load Images for Processing
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\text";
if (!Directory.Exists(outputDirectory))
{
Directory.CreateDirectory(outputDirectory);
}
// Get all files from the input directory (same pattern as the gist)
// TIP: to restrict to specific formats, replace "*.*" with "*.png" or "*.jpg"
string[] imageFiles = Directory.GetFiles(
inputDirectory,
"*.*",
SearchOption.TopDirectoryOnly
);
Pasul 3: Performanța OCR pe fiecare imagine
Iterarea fișierelor și recunoașterea textului folosind RecognizeImage(string path)
.
// Step 3: Perform OCR on Each Image
foreach (string imageFile in imageFiles)
{
try
{
// Recognize text from the image (exactly as in the gist)
string recognizedText = ocrEngine.RecognizeImage(imageFile);
// Proceed to Step 4: save text to disk...
}
catch (Exception ex)
{
Console.WriteLine($"Error processing {imageFile}: {ex.Message}");
}
}
Pasul 4: Salvați textul extras în fișiere
Creați o corespondență .txt
fișier pentru fiecare imagine procesată.
// Step 4: Save Extracted Text to Files
string outputFilePath = Path.Combine(
outputDirectory,
Path.GetFileNameWithoutExtension(imageFile) + ".txt"
);
File.WriteAllText(outputFilePath, recognizedText);
Console.WriteLine($"Processed: {imageFile} -> {outputFilePath}");
Etichete & Tweaks
- Formate de filtrare: Utilizați modele ca
"*.png"
sau"*.jpg"
Pentru a evita fișierele non-image. - Răspundeți subfoldere*: Modificare
SearchOption.TopDirectoryOnly
pentruSearchOption.AllDirectories
. - Excursuri de navă goale*: dacă
string.IsNullOrWhiteSpace(recognizedText)
Înregistraţi şi continuaţi. - Pachete paralele: Utilizare
Parallel.ForEach(imageFiles, file => { ... })
pentru curse mai rapide (mind I/O și licență).
Prin urmarea acestor pași, puteți automatiza OCR cu Aspose.OCR pentru .NET și exportați fișiere de text curate pentru procesarea în jos.