Perkhidmatan PDF fail-fail popular kerana mereka menyokong teks, imej, animasi, video, dan pelbagai nota. Walau bagaimanapun, bagi banyak dokumen, teks adalah bahagian yang paling penting. artikel ini menerangkan bagaimana untuk menukar fail PDF ke fail TXT dan, sebaliknya, fail tXT ke PDF menggunakan C# .NET. Konversi ini sangat berguna apabila anda perlu mengekstrak atau memberi tumpuan hanya kepada kandungan teks dokumen PDF, seperti apabila menjalankan analisis teks atau menyediakan kandungan untuk pembaharuan.
Topik-topik yang dibincangkan dalam panduan ini termasuk:
- C# TXT untuk PDF atau PDF untuk TXT Converter API
- C# Konversi PDF ke TXT tanpa Format
- Menukar PDF ke TXT File dengan Formatting Routines menggunakan C# atau VB.NET
- Menukar fail TXT ke PDF secara berprogram menggunakan C# atau VB.NET
Tip: Anda juga mungkin berminat dengan percuma Pengenalan kepada GIF Converter yang membolehkan anda untuk menghasilkan GIF animasi daripada teks.
C# TXT kepada PDF atau PDF kepada TXT Converter
Menukar antara format PDF dan TXT adalah penting apabila minat utama anda terletak dalam data teks dalam dokumen. sama ada anda perlu memotong semua format untuk analisis teks yang mudah atau mengekalkan beberapa tataletak berstruktur, proses ini boleh diselesaikan dengan beberapa langkah mudah menggunakan PDF untuk .NET API ini pelbagai dan menyokong kedua-dua C# dan VB.NET, menjadikannya mudah untuk mengintegrasikan ke dalam aplikasi .NET anda.
Untuk memasang API dalam aplikasi anda, anda boleh memuat turun fail DLL daripada Downloads atau gunakan yang NuGet Contohnya, anda boleh memasangnya melalui Package Manager Console:
PM> Install-Package Aspose.PDF
Sebaik sahaja API dipasang, anda boleh memulakan proses penukaran dengan beberapa pendekatan yang disesuaikan dengan keperluan yang berbeza.
C# Konversi PDF ke TXT tanpa Format
Kadang-kadang, anda hanya memerlukan teks mentah daripada dokumen PDF tanpa sebarang pemformatan tambahan. kaedah ini mengekstrak teks seperti yang ditunjukkan dalam dokumen, tanpa menyimpan fon, ruang, atau gaya. Ia sangat berguna untuk analisis teks, indeks carian atau apabila tataletak tidak relevan.
Langkah-langkah untuk ekstraksi teks mentah
** muat turun input dokumen PDF:** Gunakan API untuk memuatkan fail PDF ke dalam objek Dokumen.
Mengambil inisiatif StringBuilder: Mencipta contoh daripada StringBuilder Kelas untuk mengumpul data teks dengan cekap.
Iterate melalui setiap halaman PDF: Berjalan melalui semua halaman dalam dokumen. untuk setiap halaman:
Use TextDevice untuk mengekstrak teks.
Mengupah yang Rujukan Mode untuk memastikan bahawa pemformatan tidak digunakan.
** Simpan teks output :** Tulis teks yang terkumpul ke dalam fail TXT.
Snippet kod di bawah menggambarkan bagaimana untuk menukar PDF ke fail TXT menggunakan kaedah ekstraksi Raw:
Maklumat tambahan
- Kesederhanaan dan kecekapan :* Pengekstrakan teks mentah biasanya lebih cepat kerana ia tidak cuba untuk merosakkan atau memohon apa-apa peraturan pemformatan.
- Kes Penggunaan : Ideal untuk pengekstrakan log, indeks carian, atau senario di mana hanya kandungan teks diperlukan.
Menukar PDF ke TXT File dengan Formatting Routines menggunakan C# atau VB.NET
Dalam senario lain, mengekalkan pemformatan teks (seperti perenggan, indentasi, dan lajur) adalah penting. kaedah ini digunakan untuk memformatkan rutin untuk mencerminkan tataletak dokumen dalam fail TXT yang dihasilkan.
Langkah-langkah untuk Extraction teks dengan Formatting
** muat turun fail PDF sumber:** Seperti sebelum ini, muat turun dokumen PDF ke dalam aplikasi anda.
- Memulakan variabel string :* Sediakan string untuk mengumpul output teks yang diformat.
Mengekstrak teks menggunakan mod pemformatan: Untuk setiap halaman, gunakan PerbincanganMode.Pure Mod ini cuba untuk memutar semula pemformatan asal seberapa dekat yang mungkin.
** Simpan teks yang diformatkan :** Keluarkan teks yang dikumpulkan ke fail TXT yang mengekalkan pemformatan terstruktur seperti pecahan baris, indents, dan tab spacing.
Contoh kod berikut menunjukkan bagaimana untuk menukar PDF kepada fail TXT dengan pemformatan teks menggunakan C#:
Perbandingan Visual RAW dan Pure Extraction
Imej di bawah menyediakan perbandingan visual kedua-dua mod pengekstrakan. di sebelah kiri, teks PDF muncul dengan pemformatan asal (Mode Bersih), manakala kanan memaparkan teks mentah tanpa pemformat apa-apa. persamaan ini boleh membantu anda memutuskan kaedah mana yang paling sesuai dengan keperluan anda.

Menukar fail TXT ke PDF Secara berprogram menggunakan C# atau VB.NET
Menukar fail TXT kembali kepada PDF berguna apabila anda perlu menghasilkan dokumen yang dilapisi daripada kandungan teks rata. proses ini melibatkan membaca teks dan kemudian memohon pemformatan PDF untuk mencipta dokumentasi yang menarik secara visual dan bersedia untuk pengedaran.
Langkah-langkah untuk TXT ke PDF Conversion
** Mencipta instans TextReader:** Gunakan yang TextReader kelas untuk membaca kandungan daripada fail TXT.
Mulakan dokumen PDF baru dan tambahkan halaman putih: Mencipta contoh daripada Document Kelas dan menambah halaman baru.
Menginstal objek TextBuilder secara instan: Gunakan yang TextBuilder untuk membina perenggan teks dengan pemformatan yang diingini, seperti huruf, saiz, dan warna.
Baca dan tambahkan setiap baris teks: Berjalan melalui baris dalam fail TXT, melampirkan setiap baris ke objek TextBuilder.
** Simpan output PDF :** Gunakan yang Penyimpanan ( String ) kaedah untuk menulis fail PDF akhir ke cakera.
Snippet kod di bawah menunjukkan bagaimana untuk menukar fail TXT kepada dokumen PDF menggunakan C#:
Pertimbangan Apabila Menukar TXT kepada PDF
- Layout dan gaya : Anda mungkin perlu menyesuaikan margin, ruang baris, dan sifat teks lain untuk memastikan bahawa PDF diformat dengan baik dan boleh dibaca.
- Kesilapan penyelesaian : Melaksanakan pemeriksaan kesilapan semasa pembacaan fail dan penulisan operasi untuk menangani senario seperti masalah akses fail atau menyulitkan ralat.
Conclusion
Dalam artikel ini, kami telah menunjukkan teknik-teknik untuk menukar fail PDF ke fail TXT dan PDF menggunakan C# atau VB.NET dalam .NET Framework. sama ada anda memilih untuk ekstraksi teks mentah untuk kelajuan dan kesederhanaan atau memerlukan teks berformat untuk mengekalkan tataletak dokumen, PDF untuk .NET API menawarkan penyelesaian yang boleh dipercayai dan fleksibel. kaedah penukaran ini tidak berharga untuk pemprosesan data, penyimpanan dokumen, dan pengembalian kandungan.
Jika anda mempunyai sebarang soalan atau memerlukan bantuan lanjut, sila lawati kami Forum Sokongan Percuma atau mengkaji semula Dokumen Produk.
Lihat juga
More in this category
- Aspose.PDF ChatGPT Plugin vs OpenAI API untuk Pemprosesan PDF dalam .NET
- Automatik Batch PDF Compression untuk Penyimpanan dalam .NET
- Automatik Bulk Form Data Pengekstrakan daripada PDF dalam .NET
- Automatik Generasi Jadual PDF Dari Sumber Data
- Automatikkan PDF ke DOC Konversi untuk Pemprosesan Batch dalam .NET