Convert Scanned PDF to Word in C#

Introduction

Fail-fail PDF yang disemak sering mengandungi teks sebagai imej, menjadikan ia mustahil untuk memilih, mengedit, atau menyalin kandungan.Jika anda perlu untuk mengubah PDF-deskripsi ke dalam dokumen Word yang boleh diedit , teknologi Pengiktirafan watak optik (OCR) menawarkan cara yang cekap untuk mengekstrak teks sambil menyimpan pemformatan asal.Dalam artikel ini, anda akan mempelajari bagaimana untuk *mengkonversi secara programmatik PDF scan ke Word (DOCX atau DOC) menggunakan C# **dengan ** Aspose.OCr untuk .NET dan ** Words untuk perpustakaan .Net.

Mengapa menukar PDF yang disemak kepada Word?

Terdapat beberapa sebab yang memaksa untuk menukar PDF yang disemak kepada dokumen Word:

  • Mengedit Dokumen yang disemak dengan mudah : Mengubah teks tanpa kegagalan retyping manual.
  • Teks ekstrak untuk pemprosesan lanjut : Gunakan teks yang dikeluarkan untuk analisis atau integrasi ke dalam aplikasi lain.
  • Mengekalkan tataletak dan pemformatan : Simpan struktur dokumen asal sambil menjadikannya boleh diedit.
  • Proses dokumen berasaskan OCR automatik : Mengintegrasikan fungsi ini dengan mudah ke dalam aplikasi C# anda.

Jadual Kandungan

Setup API OCR untuk PDF yang disemak ke Word Conversion

Untuk mengekstrak teks daripada PDF yang disemak dan menukarnya kepada dokumen Word, kami akan menggunakan:

Installation

Anda boleh dengan mudah memasang API ini melalui NuGet dengan perintah berikut:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

Sebaliknya, anda boleh memuat turun DLL daripada Halaman untuk Downloads.

Menukar PDF yang disemak kepada Dokumen Word yang boleh diedit

Ikuti langkah-langkah berikut untuk mengubah fail PDF yang disemak ke Word (DOCX atau DOC) dalam C# :

  • Initialize OCR dengan AsposeOcr.
    • Mengekstrak teks* menggunakan DocumentRecognitionSettings.
  • Store teks yang diiktiraf dalam a StringBuilder.
    • Mencipta dokumen Word* menggunakan Aspose.Words.
  • Menggunakan format dan simpan sebagai DOCX atau DOC.

Kod sampel

Berikut ialah contoh C# yang menunjukkan scan PDF ke Word konversi :

Mengekalkan pemformatan dalam OCR Conversion

Walaupun pengekstrakan teks OCR berkuasa, ia mungkin tidak sentiasa mengekalkan format asal, fon, dan gaya . Untuk memastikan pemformatan yang tepat, pertimbangkan tip berikut:

  • Menggunakan Aspose.Words Paragraf Gaya untuk menggunakan pemformatan teks yang konsisten.
  • Set sifat font seperti saiz, berani, italics, dan alignment.
  • Sesuai margin halaman dan tataletak untuk peningkatan output dokumen Word.

4. mengendalikan pelbagai halaman dalam PDF yang disemak

Untuk PDF yang disemak pelbagai halaman**, penting untuk memproses dan menggabungkan teks dari semua halaman ke dalam satu dokumen Word.

  • Pergilah melalui setiap halaman dalam PDF yang disemak.
  • Mengiktiraf teks per halaman dan menyimpannya dalam StringBuilder.
  • Tambah teks yang diiktiraf kepada dokumen Word.

Pendekatan ini memastikan penukaran PDF ke Word ** tanpa banyak halaman.

5. lesen untuk ketepatan OCR penuh

Secara lalai, Aspose.OCR beroperasi dalam mod penilaian, yang boleh mengehadkan ketepatan pengenalan teks .

Permintaan ** [Lisensi Tempatan Percuma] https://purchase.aspose.com/temporary-license** untuk tujuan penilaian.

6. kesimpulan dan sumber tambahan

Summary

Dalam panduan ini, kami meliputi:

  • Menetapkan Aspose.OCR untuk pemprosesan PDF yang disemak
  • Mengekstrak teks daripada PDF yang disemak dalam C#
  • Menukar teks yang diiktiraf ke dalam dokumen Word yang dibentuk
  • Mengendalikan multi-page scan PDF ke Word penukaran

Dengan menggunakan Aspose.OCR dan Aspo.Words , anda boleh dengan mudah ** mengubah PDF berasaskan imej ke fail Word yang boleh diedit. Mulakan pembinaan * PDF ke Word Converter**dalam .NET hari ini untuk hanya$99*!

Tips tambahan untuk penukaran PDF

Jika anda sedang mencari cara untuk meningkatkan aliran kerja anda, pertimbangkan menggunakan **C# OCR PDF ke Text ** keupayaan atau ** C# PDF kepada DOCX ** penyelesaian untuk pemprosesan yang lebih canggih. sama ada anda perlu untuk **convert PDF yang disemak ke Word untuk pengeditan ** , atau hanya mahu **konvert dokumen PDF di Word ** , kaedah-kaedah ini menyediakan sokongan yang tidak ternilai. bagi mereka yang bertanya, bagaimana saya akan menukar PDF dalam Word? alat-alat yang dinyatakan akan membimbing anda melalui proses dengan mudah.

Mengimbas PDF untuk Word Conversion

Akhirnya, untuk penyelesaian yang lebih disesuaikan, pelajari bagaimana untuk **mengubah fail PDF yang disemak ke Word ** atau menggunakan C# Perpustakaan Pengiktirafan teks ** untuk meningkatkan keupayaan pemprosesan dokumen anda. Sumber-sumber ini akan terbukti bermanfaat bagi sesiapa sahaja yang berurusan dengan dokumen yang dipancarkan secara berkala. Anda juga boleh menggunakan alat-alatc# PDF ke DOCX*untuk memudahkan penukaran atau bergantung kepada kaedah C# OCR PDF kepada teks untuk menyederhanakan aliran kerja untuk mengekstrak teks daripada imej.

More in this category