
Introduction
Fail-fail PDF yang disemak sering mengandungi teks sebagai imej, menjadikan ia mustahil untuk memilih, mengedit, atau menyalin kandungan.Jika anda perlu untuk mengubah PDF-deskripsi ke dalam dokumen Word yang boleh diedit , teknologi Pengiktirafan watak optik (OCR) menawarkan cara yang cekap untuk mengekstrak teks sambil menyimpan pemformatan asal.Dalam artikel ini, anda akan mempelajari bagaimana untuk *mengkonversi secara programmatik PDF scan ke Word (DOCX atau DOC) menggunakan C# **dengan ** Aspose.OCr untuk .NET dan ** Words untuk perpustakaan .Net.
Mengapa menukar PDF yang disemak kepada Word?
Terdapat beberapa sebab yang memaksa untuk menukar PDF yang disemak kepada dokumen Word:
- Mengedit Dokumen yang disemak dengan mudah : Mengubah teks tanpa kegagalan retyping manual.
- Teks ekstrak untuk pemprosesan lanjut : Gunakan teks yang dikeluarkan untuk analisis atau integrasi ke dalam aplikasi lain.
- Mengekalkan tataletak dan pemformatan : Simpan struktur dokumen asal sambil menjadikannya boleh diedit.
- Proses dokumen berasaskan OCR automatik : Mengintegrasikan fungsi ini dengan mudah ke dalam aplikasi C# anda.
Jadual Kandungan
- Menetapkan API OCR untuk PDF Scanned ke Word Conversion
- Menukar PDF yang disemak kepada dokumen Word yang boleh diedit
- Mengekalkan Format dalam OCR Conversion
- Mengendalikan pelbagai halaman dalam PDF yang disemak
- Lisensi untuk Ketepatan OCR Penuh
- Kesimpulan dan sumber tambahan
Setup API OCR untuk PDF yang disemak ke Word Conversion
Untuk mengekstrak teks daripada PDF yang disemak dan menukarnya kepada dokumen Word, kami akan menggunakan:
- Aspose.OCR untuk .NET – Alat yang berkuasa yang mengenali teks daripada imej yang disemak.
- Aspose.Words for .NET – Perpustakaan ini menukar teks yang dikeluarkan kepada format Word.
Installation
Anda boleh dengan mudah memasang API ini melalui NuGet dengan perintah berikut:
PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words
Sebaliknya, anda boleh memuat turun DLL daripada Halaman untuk Downloads.
Menukar PDF yang disemak kepada Dokumen Word yang boleh diedit
Ikuti langkah-langkah berikut untuk mengubah fail PDF yang disemak ke Word (DOCX atau DOC) dalam C# :
- Initialize OCR dengan
AsposeOcr
. - Mengekstrak teks* menggunakan
DocumentRecognitionSettings
.
- Mengekstrak teks* menggunakan
- Store teks yang diiktiraf dalam a
StringBuilder
. - Mencipta dokumen Word* menggunakan
Aspose.Words
.
- Mencipta dokumen Word* menggunakan
- Menggunakan format dan simpan sebagai DOCX atau DOC.
Kod sampel
Berikut ialah contoh C# yang menunjukkan scan PDF ke Word konversi :
Mengekalkan pemformatan dalam OCR Conversion
Walaupun pengekstrakan teks OCR berkuasa, ia mungkin tidak sentiasa mengekalkan format asal, fon, dan gaya . Untuk memastikan pemformatan yang tepat, pertimbangkan tip berikut:
- Menggunakan Aspose.Words Paragraf Gaya untuk menggunakan pemformatan teks yang konsisten.
- Set sifat font seperti saiz, berani, italics, dan alignment.
- Sesuai margin halaman dan tataletak untuk peningkatan output dokumen Word.
4. mengendalikan pelbagai halaman dalam PDF yang disemak
Untuk PDF yang disemak pelbagai halaman**, penting untuk memproses dan menggabungkan teks dari semua halaman ke dalam satu dokumen Word.
- Pergilah melalui setiap halaman dalam PDF yang disemak.
- Mengiktiraf teks per halaman dan menyimpannya dalam
StringBuilder
. - Tambah teks yang diiktiraf kepada dokumen Word.
Pendekatan ini memastikan penukaran PDF ke Word ** tanpa banyak halaman.
5. lesen untuk ketepatan OCR penuh
Secara lalai, Aspose.OCR beroperasi dalam mod penilaian, yang boleh mengehadkan ketepatan pengenalan teks .
Permintaan ** [Lisensi Tempatan Percuma] https://purchase.aspose.com/temporary-license** untuk tujuan penilaian.
6. kesimpulan dan sumber tambahan
Summary
Dalam panduan ini, kami meliputi:
- Menetapkan Aspose.OCR untuk pemprosesan PDF yang disemak
- Mengekstrak teks daripada PDF yang disemak dalam C#
- Menukar teks yang diiktiraf ke dalam dokumen Word yang dibentuk
- Mengendalikan multi-page scan PDF ke Word penukaran
Dengan menggunakan Aspose.OCR dan Aspo.Words , anda boleh dengan mudah ** mengubah PDF berasaskan imej ke fail Word yang boleh diedit. Mulakan pembinaan * PDF ke Word Converter**dalam .NET hari ini untuk hanya$99*!
Tips tambahan untuk penukaran PDF
Jika anda sedang mencari cara untuk meningkatkan aliran kerja anda, pertimbangkan menggunakan **C# OCR PDF ke Text ** keupayaan atau ** C# PDF kepada DOCX ** penyelesaian untuk pemprosesan yang lebih canggih. sama ada anda perlu untuk **convert PDF yang disemak ke Word untuk pengeditan ** , atau hanya mahu **konvert dokumen PDF di Word ** , kaedah-kaedah ini menyediakan sokongan yang tidak ternilai. bagi mereka yang bertanya, bagaimana saya akan menukar PDF dalam Word? alat-alat yang dinyatakan akan membimbing anda melalui proses dengan mudah.
Mengimbas PDF untuk Word Conversion
Akhirnya, untuk penyelesaian yang lebih disesuaikan, pelajari bagaimana untuk **mengubah fail PDF yang disemak ke Word ** atau menggunakan C# Perpustakaan Pengiktirafan teks ** untuk meningkatkan keupayaan pemprosesan dokumen anda. Sumber-sumber ini akan terbukti bermanfaat bagi sesiapa sahaja yang berurusan dengan dokumen yang dipancarkan secara berkala. Anda juga boleh menggunakan alat-alatc# PDF ke DOCX*untuk memudahkan penukaran atau bergantung kepada kaedah C# OCR PDF kepada teks untuk menyederhanakan aliran kerja untuk mengekstrak teks daripada imej.
More in this category
- OCR yang boleh dibayar: Aspose.OCR Plugins untuk .NET
- Mencari teks daripada imej dalam C#
- OCR PDF dan Mengekstrak teks daripada PDF dalam C# Menggunakan Aspose.OCR untuk API .NET
- Menukar imej skrin kepada teks dengan Aspose.OCR $99 Plugin dalam C#
- Menukar imej ke PDF yang boleh dicari dengan OCR menggunakan C#