Convert Scanned PDF to Word in C#

Introduction

Fail-fail PDF yang disemak sering mengandungi teks sebagai imej, menjadikan ia mustahil untuk memilih, mengedit, atau menyalin kandungan.Jika anda perlu untuk mengubah PDF-deskripsi ke dalam dokumen Word yang boleh diedit , teknologi Pengiktirafan watak optik (OCR) menawarkan cara yang cekap untuk mengekstrak teks sambil menyimpan pemformatan asal.Dalam artikel ini, anda akan mempelajari bagaimana untuk mengkonversi secara programmatik PDF scan ke Word (DOCX atau DOC) menggunakan C# dengan Aspose.OCr untuk .NET dan Words untuk perpustakaan .Net.

Mengapa menukar PDF yang disemak kepada Word?

Terdapat beberapa sebab yang memaksa untuk menukar PDF yang disemak kepada dokumen Word:

  • Mengedit Dokumen yang disemak dengan mudah : Mengubah teks tanpa kegagalan retyping manual.
  • Teks ekstrak untuk pemprosesan lanjut : Gunakan teks yang dikeluarkan untuk analisis atau integrasi ke dalam aplikasi lain.
  • Mengekalkan tataletak dan pemformatan : Simpan struktur dokumen asal sambil menjadikannya boleh diedit.
  • Proses dokumen berasaskan OCR automatik : Mengintegrasikan fungsi ini dengan mudah ke dalam aplikasi C# anda.

Jadual Kandungan

Setup API OCR untuk PDF yang disemak ke Word Conversion

Untuk mengekstrak teks daripada PDF yang disemak dan menukarnya kepada dokumen Word, kami akan menggunakan:

Installation

Anda boleh dengan mudah memasang API ini melalui NuGet dengan perintah berikut:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

Sebaliknya, anda boleh memuat turun DLL daripada Halaman untuk Downloads.

Menukar PDF yang disemak kepada Dokumen Word yang boleh diedit

Ikuti langkah-langkah berikut untuk mengubah fail PDF yang disemak ke Word (DOCX atau DOC) dalam C#:

  • Initialize OCR dengan AsposeOcr.
  • Mengekstrak teks menggunakan DocumentRecognitionSettings.
  • Store teks yang diiktiraf dalam a StringBuilder.
  • Mencipta dokumen Word menggunakan Aspose.Words.
  • Menggunakan format dan simpan sebagai DOCX atau DOC.

Kod sampel

Berikut ialah contoh C# yang menunjukkan scan PDF ke Word konversi:

Mengekalkan pemformatan dalam OCR Conversion

Walaupun pengekstrakan teks OCR berkuasa, ia mungkin tidak sentiasa mengekalkan format asal, fon, dan gaya . Untuk memastikan pemformatan yang tepat, pertimbangkan tip berikut:

  • Menggunakan Aspose.Words Paragraf Gaya untuk menggunakan pemformatan teks yang konsisten.
  • Set sifat font seperti saiz, berani, italics, dan alignment.
  • Sesuai margin halaman dan tataletak untuk peningkatan output dokumen Word.

4. mengendalikan pelbagai halaman dalam PDF yang disemak

Untuk PDF yang disemak pelbagai halaman, penting untuk memproses dan menggabungkan teks dari semua halaman ke dalam satu dokumen Word:

  • Pergilah melalui setiap halaman dalam PDF yang disemak.
  • Mengiktiraf teks per halaman dan menyimpannya dalam StringBuilder.
  • Tambah teks yang diiktiraf kepada dokumen Word.

Pendekatan ini memastikan penukaran PDF ke Word ** tanpa banyak halaman**.

5. lesen untuk ketepatan OCR penuh

Secara lalai, Aspose.OCR beroperasi dalam mod penilaian, yang boleh mengehadkan ketepatan pengenalan teks:

🔹 Permintaan ** [Lisensi Tempatan Percuma] https://purchase.aspose.com/temporary-license** untuk tujuan penilaian.

6. kesimpulan dan sumber tambahan

Summary

Dalam panduan ini, kami meliputi:

  • Menetapkan Aspose.OCR untuk pemprosesan PDF yang disemak
  • Mengekstrak teks daripada PDF yang disemak dalam C#
  • Menukar teks yang diiktiraf ke dalam dokumen Word yang dibentuk
  • Mengendalikan multi-page scan PDF ke Word penukaran

Dengan menggunakan Aspose.OCR dan Aspo.Words , anda boleh dengan mudah mengubah PDF berasaskan imej ke fail Word yang boleh diedit. Mulakan pembinaan PDF ke Word Converterdalam .NET hari ini untuk hanya$99! 🚀

Tips tambahan untuk penukaran PDF

Jika anda sedang mencari cara untuk meningkatkan aliran kerja anda, pertimbangkan menggunakan C# OCR PDF ke Text keupayaan atau C# PDF kepada DOCX penyelesaian untuk pemprosesan yang lebih canggih. sama ada anda perlu untuk convert PDF yang disemak ke Word untuk pengeditan , atau hanya mahu konvert dokumen PDF di Word , kaedah-kaedah ini menyediakan sokongan yang tidak ternilai. bagi mereka yang bertanya, bagaimana saya akan menukar PDF dalam Word? alat-alat yang dinyatakan akan membimbing anda melalui proses dengan mudah.

Mengimbas PDF untuk Word Conversion

Akhirnya, untuk penyelesaian yang lebih disesuaikan, pelajari bagaimana untuk mengubah fail PDF yang disemak ke Word atau menggunakan C# Perpustakaan Pengiktirafan teks untuk meningkatkan keupayaan pemprosesan dokumen anda. Sumber-sumber ini akan terbukti bermanfaat bagi sesiapa sahaja yang berurusan dengan dokumen yang dipancarkan secara berkala. Anda juga boleh menggunakan alat-alatc# PDF ke DOCXuntuk memudahkan penukaran atau bergantung kepada kaedah C# OCR PDF kepada teks untuk menyederhanakan aliran kerja untuk mengekstrak teks daripada imej.

More in this category