Aspose.OCR untuk .NET menawarkan solusi yang kuat untuk masalah ini dengan memungkinkan pengembang untuk mengekstrak teks dari gambar dan membuat mereka dapat dicari. posting blog ini akan membimbing Anda melalui proses mengatur lingkungan pengembangan Anda, mengkonfigurasi pengaturan pengenalan, mengeluarkan teks dalam setch, membangun atau memperbarui indeks pencarian, menggabungkan fungsi carian dengan penonton arsip, dan menambahkan pengendalian kesalahan yang kukuh.
Contoh lengkap
Panduan Langkah-Langkah
Langkah 1: Membangun Lingkungan Pembangunan Anda
Untuk memulai dengan Aspose.OCR untuk .NET, Anda perlu memiliki lingkungan pengembangan yang ditetapkan. ini termasuk menginstal SDK yang diperlukan dan ketergantungan apa pun. Anda dapat mengunduh versi terbaru dari Asposa.ocR dari situs resmi dan menambahkan ke proyek Anda melalui NuGet atau dengan merujuk ke DLL secara langsung.
Langkah 2: Mengatur File Arkib Anda
Sebelum Anda mulai memproses dokumen, mengatur file dokumentasi Anda ke dalam struktur direktori yang masuk akal untuk aliran kerja Anda. ini dapat berdasarkan tanggal, jenis dokumen atau kriteria lain yang relevan. Pastikan bahwa semua file dapat diakses dari aplikasi Anda dan bahwa mereka berada dalam format yang didukung oleh Aspose.OCR (seperti JPEG, PNG, TIFF, dll).
Langkah 3: Mengkonfigurasi Pengenalan
Aspose.OCR memungkinkan Anda untuk menyempurnakan proses pengenalan untuk memenuhi kebutuhan spesifik Anda. Anda dapat mengkonfigurasi pengaturan seperti bahasa, jenis font, dan pilihan preprocessing gambar. Sebagai contoh, jika Anda bekerja dengan dokumen dalam bahasa Inggris, Anda akan mengatur bahasa ke “Inggris”.
// Step 2: Organize scanned document files into a directory structure
string inputDirectory = @"C:\ScannedDocuments\2023\Invoices";
string[] supportedFormats = { ".jpg", ".png", ".tiff" };
// Get all supported files from the directory
var files = Directory.GetFiles(inputDirectory)
.Where(f => supportedFormats.Contains(Path.GetExtension(f), StringComparer.OrdinalIgnoreCase))
.ToArray();
Langkah 4: Mengekstrak teks dalam batch
Setelah pengaturan Anda terkonfigurasi, Anda dapat mulai mengekstrak teks dari dokumen Anda. Aspose.OCR mendukung pemrosesan batch, yang berarti Anda bisa memproses beberapa file sekaligus. Ini sangat berguna untuk arsip besar dokumen yang dipindai.
// Step 3: Configuring Recognition Settings
ocrEngine.SetLanguage(Language.English);
ocrEngine.SetImagePreprocessing(ImagePreprocessingOptions.Denoising);
ocrEngine.SetResolution(300); // Set DPI for better text detection
Langkah 5: Membangun atau Mengemas kini Indeks Pencarian
Setelah mengekstrak teks dari dokumen Anda, Anda perlu membangun atau memperbarui indeks pencarian yang memungkinkan pengguna untuk dengan cepat menemukan dokumen yang relevan berdasarkan carian kata kunci. ini melibatkan menyimpan teks yang dikeluarkan dalam format yang dapat dicari, seperti database atau file indeks terbalik.
// Step 4: Extract text in batch from a directory of images
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\results";
ocrEngine.RecognizeMultiple(inputDirectory, outputDirectory);
Langkah 6: Mengintegrasikan Pencarian dengan Archive Viewer
Untuk membuat dokumen yang dapat dicari dapat diakses oleh pengguna akhir, Anda perlu mengintegrasikan fungsi pencarian ke dalam aplikasi penonton arsip. Ini bisa menjadi antarmuka berbasis web atau aplikasi desktop. Penonton harus memungkinkan pengguna untuk mencari melalui teks yang diindeks dan melihat dokumen-dokumen yang dipindai yang sesuai.
// Step 5: Building or Updating a Search Index
// Store extracted text in a searchable format (e.g., database or inverted index file)
string extractedText = ocrEngine.RecognizePage("scannedDocument.png").CodeText;
File.WriteAllText("searchIndex.txt", extractedText);
Langkah 7: Menambahkan Error Handling
Akhirnya, penting untuk menambahkan pengendalian kesalahan yang kuat ke aplikasi Anda untuk memastikan bahwa itu dapat dengan baik menangani masalah yang tidak dijangka seperti file yang rusak atau rangkaian kesalahan. ini termasuk login error untuk tujuan debugging dan menyediakan user-friendly error messages ketika perlu.
Praktik Terbaik
Membuat dokumen yang dipindai dapat dicari adalah cara yang kuat untuk meningkatkan kebolehpercayaan arsip digital. Dengan mengikuti langkah-langkah yang dinyatakan dalam tutorial ini, Anda dapat menggunakan Aspose.OCR untuk .NET untuk mengekstrak teks dari gambar dan mengintegrasikannya ke dalam format yang dapat ditemukan. Ingat untuk memeriksa aplikasi Anda secara menyeluruh dengan berbagai jenis dokumen dan di bawah berbagai kondisi untuk memastikan kepercayaan. Selain itu, pertimbangkan untuk menerapkan fitur seperti penilaian kualitas OCR dan koreksi otomatis untuk terus meningkatkan keakuratan proses ekstraksi teks Anda.