Pemprosesan dokumen otomatis dapat secara signifikan meningkatkan produktivitas dan ketepatan di berbagai industri, dari layanan hukum dan keuangan hingga kesehatan dan manufaktur. Salah satu alat yang kuat untuk tugas ini adalah Aspose.OCR untuk .NET, yang memungkinkan pengembang untuk mengekstrak teks dari dokumen dan gambar yang dipindai dengan keakuratan yang tinggi. tutorial ini menunjukkan bagaimana mengatur dan menggunakan Asposa.ocR for .Net untuk otomatiskan tugas pemrosesan dokumen, termasuk operasi OCR batch dan integrasi dengan sistem pihak ketiga.

Contoh lengkap

Di bawah ini adalah contoh lengkap (diterima sebagai host) yang menunjukkan bagaimana menggunakan Aspose.OCR untuk .NET untuk melakukan OCR pada beberapa gambar dalam direktori dan menyimpan teks yang dikeluarkan ke file teks tersebut. contoh ini ialah sumber kebenaran untuk langkah-langkah yang diikuti.

Panduan Langkah-Langkah

Langkah 1: Inisiatifkan OCR Engine

Mencipta dan mengkonfigurasi mesin OCR. menetapkan bahasa yang diinginkan (Bahasa Inggris dalam contoh ini).

// Step 1: Initialize the OCR Engine
using Aspose.Ocr;

using (Ocr ocrEngine = new Ocr())
{
    // Set language and other configurations if needed
    ocrEngine.Language = Language.English;

    // (Continue with steps below inside this using block)
}

Langkah 2: Mengisi gambar untuk pemrosesan

Tetapkan direktori input/output, pastikan folder output ada, dan daftar file gambar.

// Step 2: Load Images for Processing
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\text";

if (!Directory.Exists(outputDirectory))
{
    Directory.CreateDirectory(outputDirectory);
}

// Get all files from the input directory (same pattern as the gist)
// TIP: to restrict to specific formats, replace "*.*" with "*.png" or "*.jpg"
string[] imageFiles = Directory.GetFiles(
    inputDirectory,
    "*.*",
    SearchOption.TopDirectoryOnly
);

Langkah 3: Melakukan OCR pada setiap gambar

Iterate file dan mengidentifikasi teks menggunakan RecognizeImage(string path).

// Step 3: Perform OCR on Each Image
foreach (string imageFile in imageFiles)
{
    try
    {
        // Recognize text from the image (exactly as in the gist)
        string recognizedText = ocrEngine.RecognizeImage(imageFile);

        // Proceed to Step 4: save text to disk...
    }
    catch (Exception ex)
    {
        Console.WriteLine($"Error processing {imageFile}: {ex.Message}");
    }
}

Langkah 4: Simpan teks yang dikeluarkan ke file

Mencipta sebuah korelasi .txt file untuk setiap gambar yang diproses.

// Step 4: Save Extracted Text to Files
string outputFilePath = Path.Combine(
    outputDirectory,
    Path.GetFileNameWithoutExtension(imageFile) + ".txt"
);

File.WriteAllText(outputFilePath, recognizedText);

Console.WriteLine($"Processed: {imageFile} -> {outputFilePath}");

Tips dan Tweaks

  • Filter format: Gunakan pola seperti "*.png" atau "*.jpg" Untuk menghapus file non-image.
  • *Penggantian Subfolders: Perubahan SearchOption.TopDirectoryOnly Untuk SearchOption.AllDirectories.
    • Kapal yang kosong * * Jika string.IsNullOrWhiteSpace(recognizedText)Log dan teruskan.
  • Batu Paralel : Gunakan Parallel.ForEach(imageFiles, file => { ... }) Untuk perjalanan yang lebih cepat (mind I/O dan lisensi).

Dengan mengikuti langkah-langkah ini, Anda dapat mengautomatikkan batch OCR dengan Aspose.OCR untuk .NET dan mengekspor file teks bersih untuk proses downstream.

More in this category