Extract Text from MS Word Documents in C#

Dokumen Microsoft Word adalah tongkat untuk membuat dan berbagi konten teks.Jika Anda mengembangkan aplikasi C# yang berinteraksi dengan dokumen-dokumen ini, Anda mungkin menemukan diri Anda perlu untuk mengekstrak teks dari mereka.Ini bisa untuk tujuan seperti analisis teks atau mengeksplorasi bagian-bagian tertentu dari dokumen untuk dikompilasi menjadi yang baru.Dalam posting blog ini kami akan menyelam ke dalam kaedah-kaedah untuk mengeluarkan teks daripada dokumen Word dalam C #.

Jadual Konten

C# Perpustakaan untuk Ekstraksi teks

Aspose.Words untuk .NET adalah sebuah perpustakaan yang kuat dan ramah pengguna yang dirancang untuk bekerja dengan dokumen Word. Ini menyediakan satu set lengkap fitur, termasuk ekstraksi teks, penciptaan dokumen, manipulasi, dan konversi. Dengan Aspose.Words untuk .NET, pengembang dapat secara efektif mengelola berbagai aspek dokumentasi Word, menjadikannya alat yang tak ternilai untuk kebutuhan pengembangan Anda.

Untuk memulai, Download Perpustakaan atau menginstal langsung dari NUGET Menggunakan perintah berikut di konsol manajer paket:

PM> Install-Package Aspose.Words

Memahami ekstraksi teks dalam dokumen Word

Sebuah dokumen MS Word terdiri dari berbagai elemen seperti paragraf, tabel, dan gambar. Oleh karena itu, persyaratan untuk ekstraksi teks dapat berbeda berdasarkan kasus penggunaan tertentu. Anda mungkin perlu untuk ekstraksi teks antara paragraf, buku, komentar, dan banyak lagi.

Setiap elemen dalam dokumen Word diwakili sebagai nod. Oleh karena itu, untuk memproses dokumen secara efektif, Anda akan perlu bekerja dengan nod ini. Mari kita menjelajahi bagaimana untuk mengekstrak teks dari dokumen Word dalam skenario yang berbeda.

Langkah demi langkah panduan untuk mengekstrak teks dari dokumen Word

Dalam bagian ini, kami akan melaksanakan ekstrak teks C# untuk dokumen Word. aliran kerja untuk ekstrak teks akan melibatkan langkah-langkah berikut:

  • Definisi nodus untuk dimasukkan ke dalam proses ekstraksi.
  • Mengekstrak konten antara nod tertentu (termasuk atau mengecualikan nod awal dan akhir).
  • Gunakan nod yang dikekstrak klon untuk membuat dokumen Word baru yang mengandung konten yang dikekstrak.

Mari kita membuat metode yang disebut ExtractContent yang akan menerima nodus dan parameter lain untuk melakukan ekstraksi teks. metode ini akan memecah dokumen dan klon nodus berdasarkan parameter berikut:

  • StartNode dan EndNode: Ini mendefinisikan titik permulaan dan akhir untuk ekstraksi konten. mereka dapat menjadi blok-level (misalnya, Paragraf, Jadual) atau nod inline-level (misalnya, Run, FieldStart, BookmarkStart).- Untuk medan, ikuti objek yang sesuai FieldStart.

  • Untuk buku catatan, gunakan node BookmarkStart dan BookmarkEnd.

  • Untuk komentar, gunakan node CommentRangeStart dan CommentRangeEnd.

  • IsInclusive: Parameter ini menentukan apakah markers dimasukkan ke dalam ekstraksi.Jika ditetapkan untuk palsu dan nod yang sama atau berturut-turut disediakan, daftar kosong akan dikembalikan.

Berikut adalah implementasi lengkap metode ExtractContent untuk mengekstrak konten antara nod yang ditentukan:

Selain itu, beberapa metode bantuan diperlukan oleh metode ExtractContent untuk memfasilitasi operasi ekstraksi teks:

Sekarang setelah kami memiliki metode kami siap, kami dapat melanjutkan untuk mengekstrak teks dari dokumen Word.

Mengekstrak teks antara perenggan dokumen kata {#ekstrak teks antara perenggan}

Untuk mengekstrak konten antara dua paragraf dalam dokumen Word DOCX, ikuti langkah-langkah berikut:

  • Download dokumen Word menggunakan kelas Dokumen.
  • Dapatkan rujukan pada paragraf awal dan akhir menggunakan metode Document.FirstSection.Body.GetChild(NodeType.PARAGRAPH, int, boolean).
  • Memanggil metode ExtractContent(startPara, endPara, True) untuk mengekstrak nod ke suatu objek.
  • Gunakan metode bantuan GenerateDocument(Document, extractedNodes) untuk membuat dokumen dengan konten yang dikeluarkan.
  • Simpan dokumen baru menggunakan metode Document.Save(string).

Berikut adalah sampel kode yang menunjukkan cara mengekstrak teks antara paragraf 7 dan 11 dalam dokumen Word:

Mengekstrak teks antara jenis nod yang berbeda

Anda juga dapat mengekstrak konten antara jenis nod yang berbeda. misalnya, mari kita mengekstrak konten antara paragraf dan tabel dan menyimpannya ke dalam dokumen Word baru.

  • Download dokumen Word menggunakan kelas Dokumen.
  • Dapatkan rujukan pada nod awal dan akhir menggunakan metode Document.FirstSection.Body.GetChild(NodeType, int, boolean).
  • Hubungi ExtractContent(startPara, endPara, True) untuk mengekstrak nod ke suatu objek.
  • Gunakan metode bantuan GenerateDocument(Document, extractedNodes) untuk membuat dokumen dengan konten yang dikeluarkan.
  • Simpan dokumen baru menggunakan Document.Save(string).

Berikut adalah sampel kode untuk mengekstrak teks antara paragraf dan tabel dalam C#:

Mengekstrak teks berdasarkan gaya

Untuk mengekstrak konten antara paragraf berdasarkan gaya, ikuti langkah-langkah ini. untuk demonstrasi ini, kami akan mengekstrak konten antara “Title 1” pertama dan “Title 3” pertama dalam dokumen Word:

  • Download dokumen Word menggunakan kelas Dokumen.
  • Mengekstrak paragraf ke dalam objek menggunakan metode bantuan ParagraphsByStyleName(Dokumen, “Bagian 1”).
  • Mengekstrak paragraf ke objek lain menggunakan ParagraphsByStyleName(Dokumen, “Kepala .
  • Panggilan ExtractContent(startPara, endPara, True) dengan unsur-unsur pertama dari kedua paragraf.
  • Gunakan metode bantuan GenerateDocument(Document, extractedNodes) untuk membuat dokumen dengan konten yang dikeluarkan.
  • Simpan dokumen baru menggunakan Document.Save(string).

Berikut adalah sampel kode untuk mengekstrak konten antara paragraf berdasarkan gaya:

Baca lebih lanjut tentang ekstraksi teks

Temukan skenario tambahan untuk mengekstrak teks dari dokumen Word melalui Artikel dokumentasi ini.

Dapatkan Free Word Text Extractor Library

Anda dapat mendapatkan a lisensi sementara gratis untuk mengekstrak teks tanpa batasan penilaian.

Kesimpulan

Aspose.Words untuk .NET adalah perpustakaan yang beragam yang menyederhanakan proses pengekstrakan teks dari dokumen Word dalam C#. Dengan fitur yang luas dan API yang ramah pengguna, Anda dapat bekerja dengan efisien dengan dokumen Word dan mengautomatikkan berbagai skenario pengekstrakan teks. Apakah Anda mengembangkan aplikasi yang memerlukan pemrosesan dokumen Word atau hanya mengekstrak teks, Aspose.Words untuk .NET adalah alat penting untuk pengembang.

Untuk mengeksplorasi lebih banyak fitur Aspose.Words untuk .NET, periksa DokumentasiJika Anda memiliki pertanyaan, berasa bebas untuk mencapai melalui kami. Forum.

Lihat juga

Tip: Anda mungkin ingin memeriksa Aspose PowerPoint untuk kata-kata Converter, yang menunjukkan proses populer untuk mengkonversi presentasi ke dokumen Word.

More in this category