Автоматизирането на обработката на документи може значително да подобри производителността и точността в различни индустрии, от правни и финансови услуги до здравеопазване и производство. Един мощен инструмент за тази задача е Aspose.OCR за .NET, което позволява на разработчиците да извличат текст от скенираните документи и изображения с висока точност. Този урок показва как да се създаде и използва Аппосе.ОЦР за …
Пълният пример
По-долу е пълен пример (хостиран като гейм), който показва как да използвате Aspose.OCR за .NET, за да изпълните OCR на няколко изображения в директория и да запазите извлеченият текст в съответните текстови файлове.
Стъпка по стъпка ръководство
Стъпка 1: Иницијализиране на двигателя OCR
Създайте и конфигурирайте двигателя OCR. Настройте желания език (английски в този пример).
// Step 1: Initialize the OCR Engine
using Aspose.Ocr;
using (Ocr ocrEngine = new Ocr())
{
// Set language and other configurations if needed
ocrEngine.Language = Language.English;
// (Continue with steps below inside this using block)
}
Стъпка 2: Изтегляне на изображения за обработка
Определете директориите за вход/изход, уверете се, че изходната папка съществува и избройте файловете за изображения.
// Step 2: Load Images for Processing
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\text";
if (!Directory.Exists(outputDirectory))
{
Directory.CreateDirectory(outputDirectory);
}
// Get all files from the input directory (same pattern as the gist)
// TIP: to restrict to specific formats, replace "*.*" with "*.png" or "*.jpg"
string[] imageFiles = Directory.GetFiles(
inputDirectory,
"*.*",
SearchOption.TopDirectoryOnly
);
Стъпка 3: Извършете OCR на всяка снимка
Изтегляне на файлове и разпознаване на текст чрез RecognizeImage(string path)
.
// Step 3: Perform OCR on Each Image
foreach (string imageFile in imageFiles)
{
try
{
// Recognize text from the image (exactly as in the gist)
string recognizedText = ocrEngine.RecognizeImage(imageFile);
// Proceed to Step 4: save text to disk...
}
catch (Exception ex)
{
Console.WriteLine($"Error processing {imageFile}: {ex.Message}");
}
}
Стъпка 4: Съхраняване на извлечен текст в файлове
Създаване на кореспонденция .txt
Филм за всяка обработена картина.
// Step 4: Save Extracted Text to Files
string outputFilePath = Path.Combine(
outputDirectory,
Path.GetFileNameWithoutExtension(imageFile) + ".txt"
);
File.WriteAllText(outputFilePath, recognizedText);
Console.WriteLine($"Processed: {imageFile} -> {outputFilePath}");
Етикети & Tweaks
- Филтър формати: Използвайте шаблони като
"*.png"
или"*.jpg"
Изтегляне на не-изображения файлове. - ** Рекурс субфолдъри**: Промяна
SearchOption.TopDirectoryOnly
заSearchOption.AllDirectories
. - Скип празни изходи**: Ако
string.IsNullOrWhiteSpace(recognizedText)
Регистрирайте се и продължете.
- Скип празни изходи**: Ако
- Паралелни батерии: Използване
Parallel.ForEach(imageFiles, file => { ... })
за по-бързи състезания (мисъл I/O и лицензиране).
Като следвате тези стъпки, можете да автоматизирате комплект OCR с Aspose.OCR за .NET и да експортирате чисти текстови файлове за обработка на долния поток.