Convert Scanned PDF to Word in C#

Pengenalan

File PDF yang dipindai sering mengandung teks sebagai gambar, sehingga tidak mungkin untuk memilih, mengedit, atau menyalin konten.Jika Anda perlu untuk mengkonversi PDF yang dipindai ke dokumen Word yang dapat diedit, teknologi Pengenalan Karakter Optik (OCR) menawarkan cara yang efisien untuk mengekstrak teks sambil mempertahankan format asli.Dalam artikel ini, Anda akan belajar bagaimana untuk mengkonversi PDF yang dipindai ke Word (DOCX atau DOC) menggunakan C# dengan Aspose.OCR untuk .NET dan Aspose.Words untuk .NET perpustakaan.

Mengapa Mengkonversi PDF yang Dipindai ke Word?

Ada beberapa alasan memaksa untuk menukar PDF yang dipindai ke dokumen Word:

  • Mengedit Dokumen yang Dipindai dengan Mudah: Mengubah teks tanpa kegagalan retyping manual.
  • Teks ekstrak untuk pemrosesan lebih lanjut: Gunakan teks ekstrak untuk analisis atau integrasi ke aplikasi lain.
  • Mengekalkan Layout dan Formatting: Mengekalkan struktur dokumen asli sambil membuatnya dapat diedit.
  • Automate OCR-Based Document Processing: Mengintegrasikan fungsi ini dengan mudah ke dalam aplikasi C# Anda.

Jadual Konten

Setup OCR API untuk Scanned PDF to Word Conversion

Untuk mengekstrak teks dari PDF yang dipindai dan mengubahnya menjadi dokumen Word, kami akan menggunakan:

Instalasi

Anda dapat dengan mudah menginstal API ini melalui NuGet dengan perintah berikut:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

Sebagai alternatif, Anda dapat mengunduh DLL dari Aspose Download Halaman.

Konversi Scanned PDF ke Editable Word Document

Ikuti langkah-langkah berikut untuk mengkonversi file PDF yang dipindai ke Word (DOCX atau DOC) dalam C#:

  • Initialize OCR dengan AsposeOcr.
  • Teks Ekstrak menggunakan DocumentRecognitionSettings.
  • Menjual teks yang diidentifikasi dalam a StringBuilder.
  • Mencipta dokumen Word dengan menggunakan Aspose.Words.
  • Menggunakan format dan simpan sebagai DOCX atau DOC.

kode sampel

Berikut adalah contoh C# yang menunjukkan scaned PDF to Word conversion:

Memelihara Format dalam OCR Conversion

Meskipun ekstraksi teks OCR kuat, ia mungkin tidak selalu mempertahankan format asli, fon, dan gaya. Untuk memastikan format yang tepat, pertimbangkan tips berikut:

  • Menggunakan Aspose.Words Paragraph Styles untuk menerapkan format teks yang konsisten.
  • Set sifat font seperti ukuran, berani, itik, dan alignment.
  • Sesuai margin halaman dan layout untuk peningkatan output dokumen Word.

Mengendalikan Multiple Pages dalam PDF Scanned

Untuk PDF yang dipindai berbilang halaman, sangat penting untuk memproses dan menggabungkan teks dari semua halaman ke dalam satu dokumen Word.

  • Pergilah melalui setiap halaman dalam PDF yang dipindai.
  • Mengidentifikasi teks per halaman dan menyimpannya dalam StringBuilder.
  • Tambah teks yang diakui ke dokumen Word.

Pendekatan ini memastikan konversi PDF ke Word tanpa banyak halaman.

Lisensi untuk Ketepatan OCR Penuh

Secara default, Aspose.OCR beroperasi dalam mode evaluasi, yang dapat mengehadkan ketepatan pengenalan teks.

Permintaan untuk mendapatkan Lisensi Temporary Gratis untuk tujuan evaluasi.

Kesimpulan dan Sumber Daya Tambahan

Kesimpulannya

Dalam panduan ini, kami meliputi:

  • Mengatur Aspose.OCR untuk pemrosesan PDF yang dipindai
  • Mengekstrak teks dari PDF yang dipindai dalam C#
  • Konversi Teks yang diidentifikasi menjadi dokumen Word yang diformat
  • Mengendalikan multi-page scan PDF ke Word konversi

Dengan menggunakan Aspose.OCR dan Aspose.Words, Anda dapat dengan mudah mengkonversi PDF berbasis gambar ke file Word yang dapat diedit.Mulai membangun PDF ke Word Converter di .NET hari ini hanya untuk $99!

Tips Tambahan untuk Scanned PDF Conversion

Jika Anda sedang mencari cara untuk meningkatkan aliran kerja Anda, pertimbangkan menggunakan kapasitas C# OCR PDF ke Text atau ** C# PDF kepada DOCX** solusi untuk pemrosesan yang lebih maju. Apakah Anda perlu untuk convert PDF yang dipindai ke Word untuk pengeditan, atau hanya ingin konvert dokumen pdf yang disemai menjadi Word , metode ini memberikan dukungan yang tak ternilai. Bagi mereka yang bertanya, bagaimana saya mengubah PDF dengan Word? alat-alat yang disebutkan akan membimbing Anda melalui proses dengan mudah.

Scan PDF ke Word Conversion

Akhirnya, untuk solusi yang lebih disesuaikan, pelajari cara untuk mengkonversi file PDF yang dipindai ke Word atau menggunakan C# Text Recognition Library untuk meningkatkan kemampuan pemrosesan dokumen Anda. sumber daya ini akan terbukti bermanfaat bagi siapa pun yang berurusan dengan dokumen yang dipancarkan secara teratur. Anda juga dapat menggunakan alat-alat c# PDF ke DOCX untuk memfasilitasi konversi atau bergantung pada ** C# OCR PDF menjadi Text** metode untuk menyederhanakan aliran kerja untuk mengekstrak teks dari gambar.

More in this category