
Microsoft Word belgeleri, metin içeriği oluşturmak ve paylaşmak için temel bir araçtır. Bu belgelerle etkileşime giren C# uygulamaları geliştiriyorsanız, metin çıkarmanız gerekebilir. Bu, metin analizi veya bir belgeyi derlemek için belirli bölümleri çıkarmak gibi amaçlar için olabilir. Bu blog yazısında, C# ile Word belgelerinden metin çıkarmanın yöntemlerine dalacağız.
İçindekiler
- Metin Çıkarmak için C# Kütüphanesi
- Word Belgelerinde Metin Çıkarmayı Anlamak
- Bir Word Belgesinden Metin Çıkarmak için Adım Adım Kılavuz
Metin Çıkarmak için C# Kütüphanesi
Aspose.Words for .NET , Word belgeleriyle çalışmak için tasarlanmış güçlü ve kullanıcı dostu bir kütüphanedir. Metin çıkarma, belge oluşturma, manipülasyon ve dönüştürme gibi kapsamlı bir özellik seti sunar. Aspose.Words for .NET ile geliştiriciler, Word belgelerinin çeşitli yönlerini verimli bir şekilde yönetebilir, bu da onu geliştirme ihtiyaçlarınız için paha biçilmez bir araç haline getirir.
Başlamak için, kütüphaneyi indirin veya aşağıdaki komutu paket yöneticisi konsolunda kullanarak doğrudan NuGet üzerinden yükleyin:
PM> Install-Package Aspose.Words
Word Belgelerinde Metin Çıkarmayı Anlamak
Bir MS Word belgesi, paragraflar, tablolar ve resimler gibi çeşitli unsurlardan oluşur. Dolayısıyla, metin çıkarma gereksinimleri belirli kullanım durumuna göre değişebilir. Paragraflar, yer imleri, yorumlar ve daha fazlası arasında metin çıkarmanız gerekebilir.
Bir Word belgesindeki her unsur bir düğüm olarak temsil edilir. Bu nedenle, bir belgeyi etkili bir şekilde işlemek için bu düğümlerle çalışmanız gerekecektir. Word belgelerinden metin çıkarmanın farklı senaryolarını keşfedelim.
Bir Word Belgesinden Metin Çıkarmak için Adım Adım Kılavuz
Bu bölümde, Word belgeleri için bir C# metin çıkarıcı uygulayacağız. Metin çıkarma iş akışı aşağıdaki adımları içerecektir:
- Çıkarma işlemine dahil edilecek düğümleri tanımlayın.
- Belirtilen düğümler arasındaki içeriği çıkarın (başlangıç ve bitiş düğümlerini dahil ederek veya hariç tutarak).
- Çıkarılan içeriği içeren yeni bir Word belgesi oluşturmak için klonlanmış çıkarılan düğümleri kullanın.
ExtractContent adında, düğümleri ve diğer parametreleri kabul edecek bir yöntem oluşturalım. Bu yöntem, belgeyi ayrıştıracak ve aşağıdaki parametrelere göre düğümleri klonlayacaktır:
- StartNode ve EndNode: Bunlar, içerik çıkarımı için başlangıç ve bitiş noktalarını tanımlar. Blok düzeyinde (örn. Paragraph, Table) veya satır içi düzeyinde düğümler (örn. Run, FieldStart, BookmarkStart) olabilir.
- Alanlar için, ilgili FieldStart nesnesini geçin.
- Yer imleri için BookmarkStart ve BookmarkEnd düğümlerini kullanın.
- Yorumlar için CommentRangeStart ve CommentRangeEnd düğümlerini kullanın.
- IsInclusive: Bu parametre, işaretçilerin çıkarımda dahil olup olmadığını belirler. False olarak ayarlandığında ve aynı veya ardışık düğümler sağlandığında, boş bir liste döndürülür.
Belirtilen düğümler arasındaki içeriği çıkarmak için ExtractContent yönteminin tam uygulaması:
Ayrıca, metin çıkarma işlemini kolaylaştırmak için ExtractContent yönteminin bazı yardımcı yöntemlere ihtiyacı vardır:
Artık yöntemlerimizi hazır hale getirdiğimize göre, bir Word belgesinden metin çıkarmaya geçebiliriz.
Bir Word Belgesindeki Paragraflar Arasında Metin Çıkarma
Bir Word DOCX belgesindeki iki paragraf arasında içerik çıkarmak için bu adımları izleyin:
- Document sınıfını kullanarak Word belgesini yükleyin.
- Document.FirstSection.Body.GetChild(NodeType.PARAGRAPH, int, boolean) yöntemini kullanarak başlangıç ve bitiş paragraflarına referans alın.
- Düğümleri bir nesneye çıkarmak için ExtractContent(startPara, endPara, True) yöntemini çağırın.
- Çıkarılan içerikle bir belge oluşturmak için GenerateDocument(Document, extractedNodes) yardımcı yöntemini kullanın.
- Yeni belgeyi Document.Save(string) yöntemiyle kaydedin.
İşte bir Word belgesindeki 7. ve 11. paragraflar arasında metin çıkarmayı gösteren bir kod örneği:
Farklı Düğüm Türleri Arasında Metin Çıkarma
Farklı düğüm türleri arasında içerik de çıkarabilirsiniz. Örneğin, bir paragraf ile bir tablo arasındaki içeriği çıkaralım ve yeni bir Word belgesine kaydedelim. Adımlar şunlardır:
- Document sınıfını kullanarak Word belgesini yükleyin.
- Document.FirstSection.Body.GetChild(NodeType, int, boolean) yöntemini kullanarak başlangıç ve bitiş düğümlerine referans alın.
- Düğümleri bir nesneye çıkarmak için ExtractContent(startPara, endPara, True) çağrısını yapın.
- Çıkarılan içerikle bir belge oluşturmak için GenerateDocument(Document, extractedNodes) yardımcı yöntemini kullanın.
- Yeni belgeyi Document.Save(string) yöntemiyle kaydedin.
İşte C# dilinde bir paragraf ile bir tablo arasında metin çıkarmak için kod örneği:
Stillere Göre Metin Çıkarma
Stillere göre paragraflar arasında içerik çıkarmak için bu adımları izleyin. Bu gösterim için, Word belgesindeki ilk “Heading 1” ile ilk “Heading 3” arasındaki içeriği çıkaracağız:
- Document sınıfını kullanarak Word belgesini yükleyin.
- ParagraphsByStyleName(Document, “Heading 1”) yardımcı yöntemini kullanarak paragrafları bir nesneye çıkarın.
- ParagraphsByStyleName(Document, “Heading 3”) kullanarak paragrafları başka bir nesneye çıkarın.
- Her iki paragraf dizisinin ilk elemanları ile ExtractContent(startPara, endPara, True) çağrısını yapın.
- Çıkarılan içerikle bir belge oluşturmak için GenerateDocument(Document, extractedNodes) yardımcı yöntemini kullanın.
- Yeni belgeyi Document.Save(string) yöntemiyle kaydedin.
İşte stillere göre paragraflar arasında içerik çıkarmak için bir kod örneği:
Metin Çıkarma Hakkında Daha Fazla Bilgi
Word belgelerinden metin çıkarmak için ek senaryoları keşfetmek için bu belgeler makalesini inceleyin.
Ücretsiz Bir Word Metin Çıkarma Kütüphanesi Edinin
Metin çıkarma işlemini değerlendirme kısıtlamaları olmadan yapmak için ücretsiz geçici bir lisans alabilirsiniz.
Sonuç
Aspose.Words for .NET, C# ile Word belgelerinden metin çıkarma sürecini kolaylaştıran çok yönlü bir kütüphanedir. Geniş özellikleri ve kullanıcı dostu API’si ile Word belgeleriyle verimli bir şekilde çalışabilir ve çeşitli metin çıkarma senaryolarını otomatikleştirebilirsiniz. Word belgesi işleme gerektiren uygulamalar geliştiriyorsanız veya sadece metin çıkarıyorsanız, Aspose.Words for .NET geliştiriciler için temel bir araçtır.
Aspose.Words for .NET’in daha fazla özelliğini keşfetmek için belgelere göz atın. Herhangi bir sorunuz varsa, lütfen forumumuz üzerinden bizimle iletişime geçin.
Ayrıca Bakınız
İpucu: Aspose PowerPoint’ten Word’e Dönüştürücü’sini kontrol etmek isteyebilirsiniz; bu, sunumları Word belgelerine dönüştürmenin popüler sürecini göstermektedir.