Automatisering af dokumentbearbejdning kan væsentligt forbedre produktivitet og nøjagtighed i forskellige industrier, fra juridiske og finansielle tjenester til sundhed og fremstilling. Et kraftfuldt værktøj til denne opgave er Aspose.OCR for .NET, som gør det muligt for udviklere at udveksle tekst fra scannede dokumenter og billeder med høj præcision. Denne tutorial viser, hvordan man opretter og bruger ASPOSE.OCR for ,NET til at automatisere dokumentbehandling opgaver, herunder pakke OCR-operationer og integration med tredjepartssystemer.
Et fuldstændigt eksempel
Nedenfor er et komplet eksempel (hostet som en gist) der viser, hvordan man bruger Aspose.OCR for .NET til at udføre OCR på flere billeder i en katalog og gemme den ekstraherede tekst til de tilsvarende tekstfiler.
Step-by-Step Guide
Trin 1: Start med OCR-motoren
Oprette og konfigurere OCR-motoren. indstille det ønskede sprog (Engelsk i dette eksempel).
// Step 1: Initialize the OCR Engine
using Aspose.Ocr;
using (Ocr ocrEngine = new Ocr())
{
// Set language and other configurations if needed
ocrEngine.Language = Language.English;
// (Continue with steps below inside this using block)
}
Trin 2: Lade billeder til behandling
Definer input/output kataloger, sørg for, at output mappen eksisterer og liste billedfiler.
// Step 2: Load Images for Processing
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\text";
if (!Directory.Exists(outputDirectory))
{
Directory.CreateDirectory(outputDirectory);
}
// Get all files from the input directory (same pattern as the gist)
// TIP: to restrict to specific formats, replace "*.*" with "*.png" or "*.jpg"
string[] imageFiles = Directory.GetFiles(
inputDirectory,
"*.*",
SearchOption.TopDirectoryOnly
);
Trin 3: Udfør OCR på hvert billede
Tjek over filer og genkender tekst ved hjælp af RecognizeImage(string path)
.
// Step 3: Perform OCR on Each Image
foreach (string imageFile in imageFiles)
{
try
{
// Recognize text from the image (exactly as in the gist)
string recognizedText = ocrEngine.RecognizeImage(imageFile);
// Proceed to Step 4: save text to disk...
}
catch (Exception ex)
{
Console.WriteLine($"Error processing {imageFile}: {ex.Message}");
}
}
Trin 4: Save udvundet tekst til filer
Skab en tilsvarende .txt
filer for hver bearbejdet billede.
// Step 4: Save Extracted Text to Files
string outputFilePath = Path.Combine(
outputDirectory,
Path.GetFileNameWithoutExtension(imageFile) + ".txt"
);
File.WriteAllText(outputFilePath, recognizedText);
Console.WriteLine($"Processed: {imageFile} -> {outputFilePath}");
Tips og tweaks
- Filterformater: Brug mønstre som
"*.png"
eller"*.jpg"
For at slette ikke-billede filer. - Recurse subfolders: Ændring
SearchOption.TopDirectoryOnly
tilSearchOption.AllDirectories
. - Skib tom udgang: Hvis
string.IsNullOrWhiteSpace(recognizedText)
Log og fortsæt. - Parallel batches: Brug
Parallel.ForEach(imageFiles, file => { ... })
For hurtigere løb (mind I/O og licens).
Ved at følge disse trin kan du automatisere pakke OCR med Aspose.OCR for .NET og eksportere rene tekstfiler til nedstream behandling.