Dokumen PDF merupakan bagian integral dari berbagai proses bisnis, sering kali memerlukan akses programatik ke konten yang dipindai. Mengambil teks dari file PDF yang dipindai bisa menjadi tugas yang kompleks, menyoroti kebutuhan akan alat yang efektif. Dalam tutorial ini, kita akan membahas cara melakukan OCR pada dokumen PDF dan mengekstrak teks dari PDF di C# menggunakan Aspose.OCR untuk .NET API yang andal, sebuah perpustakaan ekstraksi OCR PDF C# terkemuka yang tersedia untuk evaluasi gratis.

Apa yang Akan Anda Pelajari

Dalam artikel ini, kita akan membahas topik berikut:

  1. Ikhtisar Aspose.OCR untuk .NET API
  2. Langkah-langkah untuk OCR PDF dan Mengekstrak Teks
  3. Cara Melakukan OCR pada PDF dan Menyimpan Teks
  4. Mengonversi OCR PDF ke Word
  5. Mengonversi OCR PDF ke JSON

Ikhtisar Aspose.OCR untuk .NET API

Kita akan memanfaatkan Aspose.OCR untuk .NET API, sebuah API PDF OCR .NET yang kuat dirancang untuk mengenali teks dari gambar yang dipindai, foto smartphone, dan tangkapan layar, mengembalikan hasil dalam berbagai format dokumen. API ini tidak hanya mengonversi gambar menjadi teks tetapi juga membuat PDF yang dapat dicari dari pemindaian dan memperbaiki kesalahan ejaan dalam teks yang dikenali, menjadikannya salah satu solusi PDF OCR C# tercepat yang tersedia hanya dengan $99.

API ini memiliki kelas AsposeOcr yang menyediakan berbagai metode untuk operasi OCR. Secara khusus, metode RecognizePdf(string, DocumentRecognitionSettings) sangat penting untuk mengekstrak teks dari dokumen PDF yang ditentukan. Kelas DocumentRecognitionSettings memungkinkan kustomisasi proses pengenalan, sementara kelas RecognitionResult mengenkapsulasi hasil pengenalan.

Anda dapat mengunduh DLL dari API atau menginstalnya melalui NuGet:

PM> Install-Package Aspose.OCR

Langkah-langkah untuk OCR PDF dan Mengekstrak Teks di C#

Untuk melakukan OCR pada dokumen PDF dan mengekstrak teks yang dikenali, ikuti langkah-langkah berikut:

  1. Buat instansi dari kelas AsposeOcr.
  2. Inisialisasi objek dari kelas DocumentRecognitionSettings.
  3. Tentukan bahasa untuk OCR.
  4. Dapatkan RecognitionResult dengan memanggil metode RecognizePdf(), melewatkan jalur gambar dan objek DocumentRecognitionSettings.
  5. Loop melalui daftar RecognitionResult untuk menampilkan teks yang diidentifikasi.

Berikut adalah contoh yang menggambarkan cara melakukan OCR pada dokumen PDF dan mengekstrak teks yang dikenali di C#:

OCR PDF dan Ekstrak Teks dari PDF di C#

Cara Melakukan OCR pada PDF dan Menyimpan Teks di C#

Untuk melakukan OCR pada dokumen PDF dan menyimpan teks yang dikenali, ikuti langkah-langkah berikut:

  1. Buat instansi dari kelas AsposeOcr.
  2. Inisialisasi objek dari kelas DocumentRecognitionSettings.
  3. Tentukan bahasa untuk OCR.
  4. Panggil metode RecognizePdf() untuk mendapatkan RecognitionResult.
  5. Simpan teks menggunakan metode SaveMultipageDocument(), yang memerlukan jalur file output, SaveFormat, dan objek RecognitionResult.

Berikut adalah contoh yang menunjukkan cara melakukan OCR pada dokumen PDF dan menyimpan teks yang dikenali di C#:

Melakukan OCR pada PDF dan Menyimpan Teks di C#

Mengonversi OCR PDF ke Word di C#

Untuk mengonversi dokumen PDF yang dipindai ke Word, ikuti langkah yang sama seperti yang dijelaskan sebelumnya, tetapi tentukan SaveFormat.Docx di langkah terakhir.

Berikut adalah contoh yang menggambarkan cara melakukan OCR pada PDF dan menyimpan teks yang dikenali sebagai dokumen Word di C#:

OCR PDF dan Mengonversi PDF yang Dipindai ke Word di C#

Mengonversi OCR PDF ke JSON di C#

Untuk menyimpan teks yang dikenali dari dokumen PDF dalam file JSON, ikuti langkah-langkah sebelumnya dengan satu-satunya perubahan adalah menentukan SaveFormat.Json di langkah terakhir.

Berikut adalah contoh yang menunjukkan cara melakukan OCR pada PDF dan menyimpan teks yang dikenali sebagai file JSON di C#:

Dapatkan Lisensi Evaluasi Gratis

Anda dapat mendapatkan lisensi sementara gratis untuk mengevaluasi Aspose.OCR untuk .NET API tanpa batasan.

Kesimpulan

Dalam tutorial ini, kita telah belajar cara melakukan OCR pada dokumen PDF dan mengekstrak teks dari PDF di C#. Kita juga telah mengeksplorasi cara menyimpan teks yang dikenali sebagai file TXT, DOCX, dan JSON. Untuk informasi lebih lanjut tentang Aspose.OCR untuk .NET API, lihat dokumentasinya. Jika Anda memiliki pertanyaan, jangan ragu untuk menghubungi kami di forum.

Lihat Juga

Dengan memanfaatkan Aspose.OCR untuk .NET API, Anda dapat menerapkan keakuratan tinggi OCR PDF di C# untuk berbagai aplikasi, termasuk pemrosesan faktur dan penanganan formulir. Solusi PDF OCR .NET yang terjangkau ini sangat cocok untuk pengembang yang ingin mengintegrasikan kemampuan OCR PDF ke dalam aplikasi mereka secara efisien.