Pemprosesan dokumen otomatis dapat secara signifikan meningkatkan produktivitas dan ketepatan di berbagai industri, dari layanan hukum dan keuangan hingga kesehatan dan manufaktur. Salah satu alat yang kuat untuk tugas ini adalah Aspose.OCR untuk .NET, yang memungkinkan pengembang untuk mengekstrak teks dari dokumen dan gambar yang dipindai dengan keakuratan yang tinggi. tutorial ini menunjukkan bagaimana mengatur dan menggunakan Asposa.ocR for .Net untuk otomatiskan tugas pemrosesan dokumen, termasuk operasi OCR batch dan integrasi dengan sistem pihak ketiga.
Contoh lengkap
Di bawah ini adalah contoh lengkap (diterima sebagai host) yang menunjukkan bagaimana menggunakan Aspose.OCR untuk .NET untuk melakukan OCR pada beberapa gambar dalam direktori dan menyimpan teks yang dikeluarkan ke file teks tersebut. contoh ini ialah sumber kebenaran untuk langkah-langkah yang diikuti.
Panduan Langkah-Langkah
Langkah 1: Inisiatifkan OCR Engine
Mencipta dan mengkonfigurasi mesin OCR. menetapkan bahasa yang diinginkan (Bahasa Inggris dalam contoh ini).
// Step 1: Initialize the OCR Engine
using Aspose.Ocr;
using (Ocr ocrEngine = new Ocr())
{
// Set language and other configurations if needed
ocrEngine.Language = Language.English;
// (Continue with steps below inside this using block)
}
Langkah 2: Mengisi gambar untuk pemrosesan
Tetapkan direktori input/output, pastikan folder output ada, dan daftar file gambar.
// Step 2: Load Images for Processing
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\text";
if (!Directory.Exists(outputDirectory))
{
Directory.CreateDirectory(outputDirectory);
}
// Get all files from the input directory (same pattern as the gist)
// TIP: to restrict to specific formats, replace "*.*" with "*.png" or "*.jpg"
string[] imageFiles = Directory.GetFiles(
inputDirectory,
"*.*",
SearchOption.TopDirectoryOnly
);
Langkah 3: Melakukan OCR pada setiap gambar
Iterate file dan mengidentifikasi teks menggunakan RecognizeImage(string path)
.
// Step 3: Perform OCR on Each Image
foreach (string imageFile in imageFiles)
{
try
{
// Recognize text from the image (exactly as in the gist)
string recognizedText = ocrEngine.RecognizeImage(imageFile);
// Proceed to Step 4: save text to disk...
}
catch (Exception ex)
{
Console.WriteLine($"Error processing {imageFile}: {ex.Message}");
}
}
Langkah 4: Simpan teks yang dikeluarkan ke file
Mencipta sebuah korelasi .txt
file untuk setiap gambar yang diproses.
// Step 4: Save Extracted Text to Files
string outputFilePath = Path.Combine(
outputDirectory,
Path.GetFileNameWithoutExtension(imageFile) + ".txt"
);
File.WriteAllText(outputFilePath, recognizedText);
Console.WriteLine($"Processed: {imageFile} -> {outputFilePath}");
Tips dan Tweaks
- Filter format: Gunakan pola seperti
"*.png"
atau"*.jpg"
Untuk menghapus file non-image. - *Penggantian Subfolders: Perubahan
SearchOption.TopDirectoryOnly
UntukSearchOption.AllDirectories
. - Kapal yang kosong * * Jika
string.IsNullOrWhiteSpace(recognizedText)
Log dan teruskan.
- Kapal yang kosong * * Jika
- Batu Paralel : Gunakan
Parallel.ForEach(imageFiles, file => { ... })
Untuk perjalanan yang lebih cepat (mind I/O dan lisensi).
Dengan mengikuti langkah-langkah ini, Anda dapat mengautomatikkan batch OCR dengan Aspose.OCR untuk .NET dan mengekspor file teks bersih untuk proses downstream.