Аутоматизација обраде докумената може значајно побољшати продуктивност и тачност у различитим индустријама, од правних и финансијских услуга до здравствене заштите и производње. Један моћан алат за ову задатак је Аспозе.ОЦР за .НЕТ, који омогућава програмерима да екстрактирају текст из скенираним документима и сликама са високом прецизношћу.
Потпуни пример
Испод је комплетни пример (хостиран као хост) који показује како да користите Aspose.OCR за .NET да бисте извршили ОЦР на више слика у директоријуму и сачували извучен текст у одговарајуће текстуалне датотеке.
Корак по корак водич
Корак 1: Иницијализација ОЦР мотора
Креирајте и конфигуришите ОЦР мотор. Поставите жељени језик (англиски у овом примјеру).
// Step 1: Initialize the OCR Engine
using Aspose.Ocr;
using (Ocr ocrEngine = new Ocr())
{
// Set language and other configurations if needed
ocrEngine.Language = Language.English;
// (Continue with steps below inside this using block)
}
Корак 2: Преузмите слике за обраду
Дефинишете директоријуме улаза / излаза, уверите се да постоји фасцикла извоза и наведете сличне датотеке.
// Step 2: Load Images for Processing
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\text";
if (!Directory.Exists(outputDirectory))
{
Directory.CreateDirectory(outputDirectory);
}
// Get all files from the input directory (same pattern as the gist)
// TIP: to restrict to specific formats, replace "*.*" with "*.png" or "*.jpg"
string[] imageFiles = Directory.GetFiles(
inputDirectory,
"*.*",
SearchOption.TopDirectoryOnly
);
Корак 3: Извршите ОЦР на свакој слици
Итерати преко датотека и препознати текст користећи RecognizeImage(string path)
.
// Step 3: Perform OCR on Each Image
foreach (string imageFile in imageFiles)
{
try
{
// Recognize text from the image (exactly as in the gist)
string recognizedText = ocrEngine.RecognizeImage(imageFile);
// Proceed to Step 4: save text to disk...
}
catch (Exception ex)
{
Console.WriteLine($"Error processing {imageFile}: {ex.Message}");
}
}
Корак 4: Сачувајте извучен текст у датотеке
Креирајте кореспондент .txt
датотеке за сваку обрађену слику.
// Step 4: Save Extracted Text to Files
string outputFilePath = Path.Combine(
outputDirectory,
Path.GetFileNameWithoutExtension(imageFile) + ".txt"
);
File.WriteAllText(outputFilePath, recognizedText);
Console.WriteLine($"Processed: {imageFile} -> {outputFilePath}");
Tipovi i Tweaks
- Филтер формати: Користите шаблоне као
"*.png"
или"*.jpg"
Преузмите датотеке које нису слике. - Повратак подложнике: Промена
SearchOption.TopDirectoryOnly
даSearchOption.AllDirectories
. - Скип празан излаз: Ако
string.IsNullOrWhiteSpace(recognizedText)
Prijavite se i nastavite. - Паралелни батерије: Употреба
Parallel.ForEach(imageFiles, file => { ... })
за брже трке (мислим И / О и лиценцирање).
Следећи ове кораке можете аутоматизовати баццх ОЦР са Асписе.ОКР за .НЕТ и извозити чисте текстуалне датотеке за обраду доњег тока.