
Introduction
Fail-fail PDF yang disemak sering mengandungi teks sebagai imej, menjadikan ia mustahil untuk memilih, mengedit, atau menyalin kandungan.Jika anda perlu untuk mengubah PDF-deskripsi ke dalam dokumen Word yang boleh diedit , teknologi Pengiktirafan watak optik (OCR) menawarkan cara yang cekap untuk mengekstrak teks sambil menyimpan pemformatan asal.Dalam artikel ini, anda akan mempelajari bagaimana untuk mengkonversi secara programmatik PDF scan ke Word (DOCX atau DOC) menggunakan C# dengan Aspose.OCr untuk .NET dan Words untuk perpustakaan .Net.
Mengapa menukar PDF yang disemak kepada Word?
Terdapat beberapa sebab yang memaksa untuk menukar PDF yang disemak kepada dokumen Word:
- Mengedit Dokumen yang disemak dengan mudah : Mengubah teks tanpa kegagalan retyping manual.
- Teks ekstrak untuk pemprosesan lanjut : Gunakan teks yang dikeluarkan untuk analisis atau integrasi ke dalam aplikasi lain.
- Mengekalkan tataletak dan pemformatan : Simpan struktur dokumen asal sambil menjadikannya boleh diedit.
- Proses dokumen berasaskan OCR automatik : Mengintegrasikan fungsi ini dengan mudah ke dalam aplikasi C# anda.
Jadual Kandungan
- Menetapkan API OCR untuk PDF Scanned ke Word Conversion
- Menukar PDF yang disemak kepada dokumen Word yang boleh diedit
- Mengekalkan Format dalam OCR Conversion
- Mengendalikan pelbagai halaman dalam PDF yang disemak
- Lisensi untuk Ketepatan OCR Penuh
- Kesimpulan dan sumber tambahan
Setup API OCR untuk PDF yang disemak ke Word Conversion
Untuk mengekstrak teks daripada PDF yang disemak dan menukarnya kepada dokumen Word, kami akan menggunakan:
- Aspose.OCR untuk .NET – Alat yang berkuasa yang mengenali teks daripada imej yang disemak.
- Aspose.Words for .NET – Perpustakaan ini menukar teks yang dikeluarkan kepada format Word.
Installation
Anda boleh dengan mudah memasang API ini melalui NuGet dengan perintah berikut:
PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words
Sebaliknya, anda boleh memuat turun DLL daripada Halaman untuk Downloads.
Menukar PDF yang disemak kepada Dokumen Word yang boleh diedit
Ikuti langkah-langkah berikut untuk mengubah fail PDF yang disemak ke Word (DOCX atau DOC) dalam C#:
- Initialize OCR dengan
AsposeOcr. - Mengekstrak teks menggunakan
DocumentRecognitionSettings. - Store teks yang diiktiraf dalam a
StringBuilder. - Mencipta dokumen Word menggunakan
Aspose.Words. - Menggunakan format dan simpan sebagai DOCX atau DOC.
Kod sampel
Berikut ialah contoh C# yang menunjukkan scan PDF ke Word konversi:
Mengekalkan pemformatan dalam OCR Conversion
Walaupun pengekstrakan teks OCR berkuasa, ia mungkin tidak sentiasa mengekalkan format asal, fon, dan gaya . Untuk memastikan pemformatan yang tepat, pertimbangkan tip berikut:
- Menggunakan Aspose.Words Paragraf Gaya untuk menggunakan pemformatan teks yang konsisten.
- Set sifat font seperti saiz, berani, italics, dan alignment.
- Sesuai margin halaman dan tataletak untuk peningkatan output dokumen Word.
4. mengendalikan pelbagai halaman dalam PDF yang disemak
Untuk PDF yang disemak pelbagai halaman, penting untuk memproses dan menggabungkan teks dari semua halaman ke dalam satu dokumen Word:
- Pergilah melalui setiap halaman dalam PDF yang disemak.
- Mengiktiraf teks per halaman dan menyimpannya dalam
StringBuilder. - Tambah teks yang diiktiraf kepada dokumen Word.
Pendekatan ini memastikan penukaran PDF ke Word ** tanpa banyak halaman**.
5. lesen untuk ketepatan OCR penuh
Secara lalai, Aspose.OCR beroperasi dalam mod penilaian, yang boleh mengehadkan ketepatan pengenalan teks:
🔹 Permintaan ** [Lisensi Tempatan Percuma] https://purchase.aspose.com/temporary-license** untuk tujuan penilaian.
6. kesimpulan dan sumber tambahan
Summary
Dalam panduan ini, kami meliputi:
- Menetapkan Aspose.OCR untuk pemprosesan PDF yang disemak
- Mengekstrak teks daripada PDF yang disemak dalam C#
- Menukar teks yang diiktiraf ke dalam dokumen Word yang dibentuk
- Mengendalikan multi-page scan PDF ke Word penukaran
Dengan menggunakan Aspose.OCR dan Aspo.Words , anda boleh dengan mudah mengubah PDF berasaskan imej ke fail Word yang boleh diedit. Mulakan pembinaan PDF ke Word Converterdalam .NET hari ini untuk hanya$99! 🚀
Tips tambahan untuk penukaran PDF
Jika anda sedang mencari cara untuk meningkatkan aliran kerja anda, pertimbangkan menggunakan C# OCR PDF ke Text keupayaan atau C# PDF kepada DOCX penyelesaian untuk pemprosesan yang lebih canggih. sama ada anda perlu untuk convert PDF yang disemak ke Word untuk pengeditan , atau hanya mahu konvert dokumen PDF di Word , kaedah-kaedah ini menyediakan sokongan yang tidak ternilai. bagi mereka yang bertanya, bagaimana saya akan menukar PDF dalam Word? alat-alat yang dinyatakan akan membimbing anda melalui proses dengan mudah.
Mengimbas PDF untuk Word Conversion
Akhirnya, untuk penyelesaian yang lebih disesuaikan, pelajari bagaimana untuk mengubah fail PDF yang disemak ke Word atau menggunakan C# Perpustakaan Pengiktirafan teks untuk meningkatkan keupayaan pemprosesan dokumen anda. Sumber-sumber ini akan terbukti bermanfaat bagi sesiapa sahaja yang berurusan dengan dokumen yang dipancarkan secara berkala. Anda juga boleh menggunakan alat-alatc# PDF ke DOCXuntuk memudahkan penukaran atau bergantung kepada kaedah C# OCR PDF kepada teks untuk menyederhanakan aliran kerja untuk mengekstrak teks daripada imej.
More in this category
- OCR yang boleh dibayar: Aspose.OCR Plugins untuk .NET
- Mencari teks daripada imej dalam C#
- OCR PDF dan Mengekstrak teks daripada PDF dalam C# Menggunakan Aspose.OCR untuk API .NET
- Menukar imej skrin kepada teks dengan Aspose.OCR $99 Plugin dalam C#
- Menukar imej ke PDF yang boleh dicari dengan OCR menggunakan C#