
Dokumen Microsoft Word adalah alat penting untuk membuat dan membagikan konten tekstual. Jika Anda mengembangkan aplikasi C# yang berinteraksi dengan dokumen ini, Anda mungkin perlu mengekstrak teks dari dokumen tersebut. Ini bisa untuk tujuan seperti analisis teks atau mengekstrak bagian tertentu dari dokumen untuk disusun menjadi dokumen baru. Dalam posting blog ini, kita akan membahas metode untuk mengekstrak teks dari dokumen Word dalam C#.
Daftar Isi
- Perpustakaan C# untuk Ekstraksi Teks
- Memahami Ekstraksi Teks dalam Dokumen Word
- Panduan Langkah demi Langkah untuk Mengekstrak Teks dari Dokumen Word
Perpustakaan C# untuk Ekstraksi Teks
Aspose.Words for .NET adalah perpustakaan yang kuat dan ramah pengguna yang dirancang untuk bekerja dengan dokumen Word. Ini menyediakan seperangkat fitur yang komprehensif, termasuk ekstraksi teks, pembuatan dokumen, manipulasi, dan konversi. Dengan Aspose.Words for .NET, pengembang dapat mengelola berbagai aspek dokumen Word dengan efisien, menjadikannya alat yang sangat berharga untuk kebutuhan pengembangan Anda.
Untuk memulai, unduh perpustakaan atau instal langsung dari NuGet menggunakan perintah berikut di konsol manajer paket:
PM> Install-Package Aspose.Words
Memahami Ekstraksi Teks dalam Dokumen Word
Dokumen MS Word terdiri dari berbagai elemen seperti paragraf, tabel, dan gambar. Oleh karena itu, persyaratan untuk ekstraksi teks dapat berbeda tergantung pada kasus penggunaan tertentu. Anda mungkin perlu mengekstrak teks antara paragraf, bookmark, komentar, dan lainnya.
Setiap elemen dalam dokumen Word direpresentasikan sebagai node. Oleh karena itu, untuk memproses dokumen dengan efektif, Anda perlu bekerja dengan node-node ini. Mari kita jelajahi cara mengekstrak teks dari dokumen Word dalam berbagai skenario.
Panduan Langkah demi Langkah untuk Mengekstrak Teks dari Dokumen Word
Dalam bagian ini, kita akan mengimplementasikan ekstraktor teks C# untuk dokumen Word. Alur kerja untuk ekstraksi teks akan melibatkan langkah-langkah berikut:
- Tentukan node yang akan disertakan dalam proses ekstraksi.
- Ekstrak konten antara node yang ditentukan (termasuk atau mengecualikan node awal dan akhir).
- Gunakan node yang diekstrak dan dikloning untuk membuat dokumen Word baru yang berisi konten yang diekstrak.
Mari kita buat metode bernama ExtractContent yang akan menerima node dan parameter lainnya untuk melakukan ekstraksi teks. Metode ini akan mem-parsing dokumen dan mengkloning node berdasarkan parameter berikut:
- StartNode dan EndNode: Ini mendefinisikan titik awal dan akhir untuk ekstraksi konten. Mereka dapat berupa node tingkat blok (misalnya, Paragraph, Table) atau node tingkat inline (misalnya, Run, FieldStart, BookmarkStart).
- Untuk field, kirim objek FieldStart yang sesuai.
- Untuk bookmark, gunakan node BookmarkStart dan BookmarkEnd.
- Untuk komentar, gunakan node CommentRangeStart dan CommentRangeEnd.
- IsInclusive: Parameter ini menentukan apakah penanda disertakan dalam ekstraksi. Jika disetel ke false dan node yang sama atau berurutan diberikan, daftar kosong akan dikembalikan.
Berikut adalah implementasi lengkap dari metode ExtractContent untuk mengekstrak konten antara node yang ditentukan:
Selain itu, beberapa metode pembantu diperlukan oleh metode ExtractContent untuk memfasilitasi operasi ekstraksi teks:
Sekarang kita sudah memiliki metode kita siap, kita bisa melanjutkan untuk mengekstrak teks dari dokumen Word.
Mengekstrak Teks Antara Paragraf Dokumen Word
Untuk mengekstrak konten antara dua paragraf dalam dokumen Word DOCX, ikuti langkah-langkah ini:
- Muat dokumen Word menggunakan kelas Document.
- Dapatkan referensi ke paragraf awal dan akhir menggunakan metode Document.FirstSection.Body.GetChild(NodeType.PARAGRAPH, int, boolean).
- Panggil metode ExtractContent(startPara, endPara, True) untuk mengekstrak node menjadi objek.
- Gunakan metode pembantu GenerateDocument(Document, extractedNodes) untuk membuat dokumen dengan konten yang diekstrak.
- Simpan dokumen baru menggunakan metode Document.Save(string).
Berikut adalah contoh kode yang menunjukkan cara mengekstrak teks antara paragraf ke-7 dan ke-11 dalam dokumen Word:
Mengekstrak Teks Antara Berbagai Jenis Node
Anda juga dapat mengekstrak konten antara berbagai jenis node. Misalnya, mari kita ekstrak konten antara paragraf dan tabel dan simpan ke dalam dokumen Word baru. Langkah-langkahnya adalah sebagai berikut:
- Muat dokumen Word menggunakan kelas Document.
- Dapatkan referensi ke node awal dan akhir menggunakan metode Document.FirstSection.Body.GetChild(NodeType, int, boolean).
- Panggil ExtractContent(startPara, endPara, True) untuk mengekstrak node menjadi objek.
- Gunakan metode pembantu GenerateDocument(Document, extractedNodes) untuk membuat dokumen dengan konten yang diekstrak.
- Simpan dokumen baru menggunakan Document.Save(string).
Berikut adalah contoh kode untuk mengekstrak teks antara paragraf dan tabel dalam C#:
Mengekstrak Teks Berdasarkan Gaya
Untuk mengekstrak konten antara paragraf berdasarkan gaya, ikuti langkah-langkah ini. Untuk demonstrasi ini, kita akan mengekstrak konten antara “Heading 1” pertama dan “Heading 3” pertama dalam dokumen Word:
- Muat dokumen Word menggunakan kelas Document.
- Ekstrak paragraf menjadi objek menggunakan metode pembantu ParagraphsByStyleName(Document, “Heading 1”).
- Ekstrak paragraf menjadi objek lain menggunakan ParagraphsByStyleName(Document, “Heading 3”).
- Panggil ExtractContent(startPara, endPara, True) dengan elemen pertama dari kedua array paragraf.
- Gunakan metode pembantu GenerateDocument(Document, extractedNodes) untuk membuat dokumen dengan konten yang diekstrak.
- Simpan dokumen baru menggunakan Document.Save(string).
Berikut adalah contoh kode untuk mengekstrak konten antara paragraf berdasarkan gaya:
Baca Lebih Lanjut Tentang Ekstraksi Teks
Jelajahi skenario tambahan untuk mengekstrak teks dari dokumen Word melalui artikel dokumentasi ini.
Dapatkan Perpustakaan Ekstraktor Teks Word Gratis
Anda dapat memperoleh lisensi sementara gratis untuk mengekstrak teks tanpa batasan evaluasi.
Kesimpulan
Aspose.Words for .NET adalah perpustakaan yang serbaguna yang menyederhanakan proses ekstraksi teks dari dokumen Word dalam C#. Dengan fitur yang luas dan API yang ramah pengguna, Anda dapat bekerja dengan dokumen Word secara efisien dan mengotomatiskan berbagai skenario ekstraksi teks. Apakah Anda mengembangkan aplikasi yang memerlukan pemrosesan dokumen Word atau hanya mengekstrak teks, Aspose.Words for .NET adalah alat yang penting bagi pengembang.
Untuk menjelajahi lebih banyak fitur dari Aspose.Words for .NET, lihat dokumentasi. Jika Anda memiliki pertanyaan, jangan ragu untuk menghubungi kami melalui forum kami.
Lihat Juga
Tip: Anda mungkin ingin memeriksa Aspose PowerPoint ke Word Converter, yang menunjukkan proses populer mengonversi presentasi menjadi dokumen Word.