Tự động xử lý tài liệu có thể cải thiện đáng kể năng suất và độ chính xác trong các ngành công nghiệp khác nhau, từ các dịch vụ pháp lý và tài chính đến chăm sóc sức khỏe và sản xuất. Một công cụ mạnh mẽ cho nhiệm vụ này là Aspose.OCR cho .NET, cho phép các nhà phát triển để lấy văn bản khỏi các giấy tờ được quét và hình ảnh với độ rõ ràng cao. hướng dẫn này cho thấy làm thế nào để thiết lập và sử dụng ASPOSE.OCR cho …
Một ví dụ đầy đủ
Dưới đây là một ví dụ đầy đủ (được lưu trữ như một gạch) cho thấy làm thế nào để sử dụng Aspose.OCR cho .NET để thực hiện OCR trên nhiều hình ảnh trong một thư mục và lưu văn bản được rút ra vào các tệp text tương ứng.
Hướng dẫn Step-by-Step
Bước 1: Khởi động động cơ OCR
Tạo và cấu hình động cơ OCR. Thiết lập ngôn ngữ mong muốn (tiếng Anh trong ví dụ này).
// Step 1: Initialize the OCR Engine
using Aspose.Ocr;
using (Ocr ocrEngine = new Ocr())
{
// Set language and other configurations if needed
ocrEngine.Language = Language.English;
// (Continue with steps below inside this using block)
}
Bước 2: tải hình ảnh để xử lý
Thiết lập danh mục nhập / xuất, đảm bảo thư mục xuất hiện, và liệt kê các tệp hình ảnh.
// Step 2: Load Images for Processing
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\text";
if (!Directory.Exists(outputDirectory))
{
Directory.CreateDirectory(outputDirectory);
}
// Get all files from the input directory (same pattern as the gist)
// TIP: to restrict to specific formats, replace "*.*" with "*.png" or "*.jpg"
string[] imageFiles = Directory.GetFiles(
inputDirectory,
"*.*",
SearchOption.TopDirectoryOnly
);
Bước 3: Thực hiện OCR trên mỗi hình ảnh
Iterate trên các tập tin và nhận ra văn bản bằng cách sử dụng RecognizeImage(string path)
.
// Step 3: Perform OCR on Each Image
foreach (string imageFile in imageFiles)
{
try
{
// Recognize text from the image (exactly as in the gist)
string recognizedText = ocrEngine.RecognizeImage(imageFile);
// Proceed to Step 4: save text to disk...
}
catch (Exception ex)
{
Console.WriteLine($"Error processing {imageFile}: {ex.Message}");
}
}
Bước 4: Lưu văn bản rút ra vào tệp
Tạo một tương ứng .txt
file cho mỗi hình ảnh được xử lý.
// Step 4: Save Extracted Text to Files
string outputFilePath = Path.Combine(
outputDirectory,
Path.GetFileNameWithoutExtension(imageFile) + ".txt"
);
File.WriteAllText(outputFilePath, recognizedText);
Console.WriteLine($"Processed: {imageFile} -> {outputFilePath}");
Tin tức & Tweaks
- Filter formats: Sử dụng các mẫu như
"*.png"
hoặc"*.jpg"
Tải về các file non-image - *Chuyến mãi: Thay đổi
SearchOption.TopDirectoryOnly
đểSearchOption.AllDirectories
. - Ship empty outputs*: Nếu
string.IsNullOrWhiteSpace(recognizedText)
Đăng ký và tiếp tục. - Bước đồng bộ: Sử dụng
Parallel.ForEach(imageFiles, file => { ... })
cho các cuộc chạy nhanh hơn (mind I/O và giấy phép).
Bằng cách làm theo các bước này, bạn có thể tự động tổ chức OCR với Aspose.OCR cho .NET và xuất các tệp văn bản sạch cho việc xử lý downstream.