Tự động xử lý tài liệu có thể cải thiện đáng kể năng suất và độ chính xác trong các ngành công nghiệp khác nhau, từ các dịch vụ pháp lý và tài chính đến chăm sóc sức khỏe và sản xuất. Một công cụ mạnh mẽ cho nhiệm vụ này là Aspose.OCR cho .NET, cho phép các nhà phát triển để lấy văn bản khỏi các giấy tờ được quét và hình ảnh với độ rõ ràng cao. hướng dẫn này cho thấy làm thế nào để thiết lập và sử dụng ASPOSE.OCR cho …

Một ví dụ đầy đủ

Dưới đây là một ví dụ đầy đủ (được lưu trữ như một gạch) cho thấy làm thế nào để sử dụng Aspose.OCR cho .NET để thực hiện OCR trên nhiều hình ảnh trong một thư mục và lưu văn bản được rút ra vào các tệp text tương ứng.

Hướng dẫn Step-by-Step

Bước 1: Khởi động động cơ OCR

Tạo và cấu hình động cơ OCR. Thiết lập ngôn ngữ mong muốn (tiếng Anh trong ví dụ này).

// Step 1: Initialize the OCR Engine
using Aspose.Ocr;

using (Ocr ocrEngine = new Ocr())
{
    // Set language and other configurations if needed
    ocrEngine.Language = Language.English;

    // (Continue with steps below inside this using block)
}

Bước 2: tải hình ảnh để xử lý

Thiết lập danh mục nhập / xuất, đảm bảo thư mục xuất hiện, và liệt kê các tệp hình ảnh.

// Step 2: Load Images for Processing
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\text";

if (!Directory.Exists(outputDirectory))
{
    Directory.CreateDirectory(outputDirectory);
}

// Get all files from the input directory (same pattern as the gist)
// TIP: to restrict to specific formats, replace "*.*" with "*.png" or "*.jpg"
string[] imageFiles = Directory.GetFiles(
    inputDirectory,
    "*.*",
    SearchOption.TopDirectoryOnly
);

Bước 3: Thực hiện OCR trên mỗi hình ảnh

Iterate trên các tập tin và nhận ra văn bản bằng cách sử dụng RecognizeImage(string path).

// Step 3: Perform OCR on Each Image
foreach (string imageFile in imageFiles)
{
    try
    {
        // Recognize text from the image (exactly as in the gist)
        string recognizedText = ocrEngine.RecognizeImage(imageFile);

        // Proceed to Step 4: save text to disk...
    }
    catch (Exception ex)
    {
        Console.WriteLine($"Error processing {imageFile}: {ex.Message}");
    }
}

Bước 4: Lưu văn bản rút ra vào tệp

Tạo một tương ứng .txt file cho mỗi hình ảnh được xử lý.

// Step 4: Save Extracted Text to Files
string outputFilePath = Path.Combine(
    outputDirectory,
    Path.GetFileNameWithoutExtension(imageFile) + ".txt"
);

File.WriteAllText(outputFilePath, recognizedText);

Console.WriteLine($"Processed: {imageFile} -> {outputFilePath}");

Tin tức & Tweaks

  • Filter formats: Sử dụng các mẫu như "*.png" hoặc "*.jpg" Tải về các file non-image
  • *Chuyến mãi: Thay đổi SearchOption.TopDirectoryOnly để SearchOption.AllDirectories.
  • Ship empty outputs*: Nếu string.IsNullOrWhiteSpace(recognizedText)Đăng ký và tiếp tục.
  • Bước đồng bộ: Sử dụng Parallel.ForEach(imageFiles, file => { ... }) cho các cuộc chạy nhanh hơn (mind I/O và giấy phép).

Bằng cách làm theo các bước này, bạn có thể tự động tổ chức OCR với Aspose.OCR cho .NET và xuất các tệp văn bản sạch cho việc xử lý downstream.

More in this category