Extract Text from MS Word Documents in C#

Dokumen Microsoft Word adalah rangkaian untuk mewujudkan dan berkongsi kandungan teks.Jika anda sedang membangunkan aplikasi C# yang berinteraksi dengan dokumen-dokumen ini, anda mungkin mendapati diri anda perlu untuk mengekstrak teks daripadanya.Ini boleh digunakan untuk tujuan seperti analisis teks atau mengeluarkan bahagian-bahagian tertentu dokumen untuk dikumpulkan ke dalam yang baru.

Jadual Kandungan

C# Perpustakaan untuk Pengekstrakan teks

Tag: kata-kata untuk .NET adalah perpustakaan yang berkuasa dan mesra pengguna yang direka untuk bekerja dengan dokumen Word. Ia menyediakan pelbagai ciri termasuk pengekstrakan teks, penciptaan dokumen, manipulasi, dan penukaran. Dengan Aspose.Words untuk .NET, pemaju boleh menguruskan pelbagai aspek Dokumen Word dengan cekap, menjadikannya alat yang tidak ternilai untuk keperluan pembangunan anda.

untuk memulakan, Download Perpustakaan atau memasang secara langsung daripada NuGet menggunakan perintah berikut dalam konsol pengurus pakej:

PM> Install-Package Aspose.Words

Memahami ekstraksi teks dalam dokumen Word

Dokumen MS Word terdiri daripada pelbagai elemen seperti perenggan, jadual, dan imej. Oleh itu, keperluan untuk pengekstrakan teks boleh berbeza-beza bergantung kepada kes penggunaan tertentu. Anda mungkin perlu untuk mengeluarkan teks antara paragraf, tanda buku, komen dan banyak lagi.

Setiap elemen dalam dokumen Word diwakili sebagai nod. Oleh itu, untuk memproses dokumen secara berkesan, anda perlu bekerja dengan nod ini. Mari kita meneroka bagaimana untuk mengekstrak teks daripada dokumen word dalam senario yang berbeza.

Langkah-langkah panduan untuk mengekstrak teks daripada dokumen Word

Dalam seksyen ini, kami akan melaksanakan ekstrak teks C# untuk dokumen Word. aliran kerja untuk ekstraksi teks akan melibatkan langkah-langkah berikut:

  • Menentukan nod yang perlu dimasukkan ke dalam proses pengekstrakan.
  • Mengekstrak kandungan antara nod yang ditentukan (termasuk atau mengecualikan nod permulaan dan akhir).
  • Gunakan nod yang diekstrak klon untuk mencipta dokumen Word baru yang mengandungi kandungan yang dikeluarkan.

Mari kita mencipta kaedah yang dipanggil ExtractContent yang akan menerima nod dan parameter lain untuk menjalankan ekstraksi teks.

  • **StartNode ** dan **EndNote ** : Ini menentukan titik permulaan dan akhir untuk pengekstrakan kandungan.Ia boleh menjadi blok-tinggi (contohnya, Perenggan , *Jadual **) atau nod-node peringkat inline (seperti ** Run **; ** FieldStarts ), ** BookmarkStars).- Untuk medan, masukkan objek yang sepadan FieldStart .

  • Untuk penanda buku, gunakan nod ** BookmarkStart ** dan BookmarkEnd .

  • Untuk maklum balas, gunakan nod **CommentRangeStart ** dan Komentar RangeEnd .

  • IsInclusive : Parameter ini menentukan sama ada penanda disertakan dalam pengekstrakan.Jika ditetapkan kepada palsu dan nod yang sama atau berturut-turut disediakan, senarai kosong akan dikembalikan.

Berikut adalah pelaksanaan lengkap kaedah ExtractContent untuk mengekstrak kandungan antara nod yang ditetapkan:

Selain itu, beberapa kaedah bantuan diperlukan oleh ExtractContent untuk memudahkan operasi pengekstrakan teks:

Sekarang kita mempunyai kaedah-kaedah kita bersedia, kita boleh melanjutkan untuk mengekstrak teks daripada dokumen Word.

Mengekstrak teks antara perenggan dalam dokumen perkataan

Untuk mengekstrak kandungan antara dua perenggan dalam dokumen Word DOCX, ikuti langkah-langkah berikut:

  • Muat turun dokumen Word menggunakan kelas Dokumen .
  • Dapatkan rujukan kepada perenggan permulaan dan akhir menggunakan kaedah Document.FirstSection.Body.GetChild(NodeType.PARAGRAPH, int, boolean) .
  • Panggilan kaedah ExtractContent(startPara, end Para, True) untuk mengekstrak nod ke dalam objek.
  • Gunakan kaedah bantuan GenerateDocument(Dokumen, ekstrakNodes) untuk mencipta dokumen dengan kandungan yang dikeluarkan.
  • Simpan dokumen baru menggunakan kaedah Document.Save(string) .

Berikut ialah sampel kod yang menunjukkan bagaimana untuk mengekstrak teks antara perenggan 7 dan 11 dalam dokumen Word:

Mengekstrak teks antara jenis nod yang berbeza

Anda juga boleh mengekstrak kandungan antara jenis nod yang berbeza.Sebagai contoh, mari kita mengeluarkan kandungan di antara perenggan dan jadual dan menyimpannya dalam dokumen Word baru.Langkah-langkah berikut:

  • Muat turun dokumen Word menggunakan kelas Dokumen .
  • Dapatkan rujukan kepada nod permulaan dan akhir menggunakan kaedah Document.FirstSection.Body.GetChild(NodeType, int, boolean) .
  • Panggilan ExtractContent(startPara, end Para, True) untuk mengekstrak nod ke dalam objek.
  • Gunakan kaedah bantuan GenerateDocument(Dokumen, ekstrakNodes) untuk mencipta dokumen dengan kandungan yang dikeluarkan.
  • Simpan dokumen baru menggunakan Document.Save(string) .

Berikut ialah sampel kod untuk mengekstrak teks antara perenggan dan jadual dalam C#:

Mengekstrak teks berdasarkan gaya

Untuk mengekstrak kandungan antara perenggan berdasarkan gaya, ikuti langkah-langkah ini.Untuk demonstrasi ini, kami akan mengeluarkan kandungan di antara “Title 1” pertama dan “Ketua 3” yang pertama dalam dokumen Word:

  • Muat turun dokumen Word menggunakan kelas Dokumen .
  • Mengekstrak perenggan ke dalam objek menggunakan kaedah bantuan ** ParagraphsByStyleName(Dokumen, “Bahagian 1”)** .
  • Mengekstrak perenggan ke dalam objek lain menggunakan ParagraphsByStyleName(Dokumen, “Bahasa”) .
  • Panggilan ExtractContent(startPara, end Para, True) dengan unsur-unsur pertama dari kedua-dua aliran perenggan.
  • Gunakan kaedah bantuan GenerateDocument(Dokumen, ekstrakNodes) untuk mencipta dokumen dengan kandungan yang dikeluarkan.
  • Simpan dokumen baru menggunakan Document.Save(string) .

Berikut ialah sampel kod untuk mengekstrak kandungan antara perenggan berdasarkan gaya:

Baca lebih lanjut mengenai ekstraksi teks

Menjelajahi senario tambahan untuk mengekstrak teks daripada dokumen Word melalui Artikel dokumentasi ini.

Dapatkan Perpustakaan Pengekstrak teks Percuma

Anda boleh mendapatkan A lesen sementara percuma mengekstrak teks tanpa sekatan penilaian.

Conclusion

Aspose.Words untuk .NET adalah perpustakaan yang pelbagai yang menyegarkan proses pengekstrakan teks daripada dokumen Word dalam C#. Dengan ciri-ciri yang luas dan API yang mesra pengguna, anda boleh bekerja dengan cekap dengan dokumentasi Word dan mengautomatikkan pelbagai senario pengeluaran teks. Sama ada anda sedang membangunkan aplikasi yang memerlukan pemprosesan Dokumen Word atau hanya mengekstra teks, Asposa.Vords bagi .Net adalah alat penting untuk pemaju.

Untuk meneroka lebih banyak ciri-ciri Aspose.Words untuk .NET, lihat DokumentasiJika anda mempunyai sebarang soalan, berasa bebas untuk mencapai melalui kami Forum.

Lihat juga

Tip: Anda mungkin mahu memeriksa Aspose PowerPoint untuk kata-kata Converter, yang menunjukkan proses popular untuk menukar persembahan kepada dokumen Word.

More in this category