Extract Text from MS Word Documents in C#

Microsoft Word belgeleri metin içeriği oluşturmak ve paylaşmak için bir çerçeve. eğer bunlarla etkileşime giren C# uygulamaları geliştirmek istiyorsanız, kendinizi bunlardan metni çıkarmak zorunda bulabilirsiniz. Bu gibi amaçlar için olabilir Metin analizi ya da bir belgenin belirli bölümlerini bir yeni haline getirmek için.

içerik tablosu

C# Kütüphane için Metin Çekimi

Aspose.Words için .NET Word belgeleriyle çalışmak için tasarlanmış güçlü ve kullanıcı dostu bir kütüphane. metin çıkarımı, belge oluşturma, manipülasyon ve dönüşüm dahil olmak üzere kapsamlı bir özellik yelpazesi sağlar. .NET için Aspose.Words ile geliştiriciler Word dokümanlarının çeşitli yönlerini verimli bir şekilde yönetebilir, geliştirme ihtiyaçlarınız için değerli bir araç haline getirir.

Başlamak için , Kütüphaneyi indirin veya doğrudan yerleştirmek için NuGet Paket yöneticisi konsolunda aşağıdaki komutu kullanın:

PM> Install-Package Aspose.Words

Word belgelerinde metin çıkarımı anlamak

Bir MS Word belgesi, paragraflar, tablolar ve resimler gibi çeşitli unsurları içerir. Bu nedenle, metin çıkarma gereksinimleri özel kullanım durumuna göre değişebilir. Paragraflar, kitap işaretleri, yorumlar ve daha fazlası arasında metin çıkarmanız gerekebilir.

Bir Word belgesindeki her öğe bir düğüm olarak temsil edilir.Bu nedenle, bir belgeyi etkili bir şekilde işleme almak için bu düğümlerle çalışmanız gerekecektir.

Bir Word belgesinden metin çıkarmak için adım adım rehber

Bu bölümde, Word belgeleri için bir C# metin özü uygulayacağız. metin özü için çalışma akışı aşağıdaki adımları içerecektir:

  • Ekstraksiyon sürecine dahil edilecek düğümleri belirleyin.
  • Belirlenen düğümler arasındaki içeriği çıkarın (Başlangıç ve Son düğümleri dahil veya hariç tutun).
  • Çekilen içeriği içeren yeni bir Word belgesini oluşturmak için klonlanmış çıkarılan düğmeleri kullanın.

Yazının çıkarılmasını gerçekleştirmek için düğümleri ve diğer parametreleri kabul edecek ExtractContent adı verilen bir yöntem oluşturalım.Bu yöntem belgeyi parçalayacak ve aşağıdaki parametreye göre dükleri klonlayacaktır:

  • StartNode ve EndNode: Bunlar içerik çıkarma için başlangıç ve son noktaları tanımlar. Bunlar blok seviyesi (örneğin, Paragraf, Tablo) veya inline seviyesi düğmeleri (örneğin, Run, FieldStart, BookmarkStart) olabilir.- Alanlar için, eşdeğer FieldStart nesnesine geçin.

  • Kitap işaretleri için BookmarkStart ve BookmarkEnd düğmeleri kullanın.

  • Yorumlar için CommentRangeStart ve CommentRangeEnd düğmeleri kullanın.

  • IsInclusive: Bu parametre, işaretçilerin çıkarmaya dahil olup olmadığını belirler. sahte olarak ayarlanırsa ve aynı veya aralıksız düğümler sağlanırsa, boş bir liste iade edilir.

İşte belirtilen düğümler arasında içeriği çıkarmak için ExtractContent yönteminin tam uygulanması:

Ek olarak, metin çıkarma işlemi kolaylaştırmak için ExtractContent yöntemi tarafından bazı yardımcı yöntemler gerektirir:

Şimdi yöntemlerimiz hazır olduğunda, bir Word belgesinden metin çıkarmaya devam edebiliriz.

Bir kelime belgesinin paragrafları arasında metin çıkarma

Bir Word DOCX belgesinde iki paragraf arasındaki içeriği çıkarmak için, aşağıdaki adımları izleyin:

  • Word belgesini Dokument sınıfını kullanarak yükleyin.
  • Başlangıç ve son paragraflara Document.FirstSection.Body.GetChild(NodeType.PARAGRAPH, int, boolean) yöntemini kullanarak referans alın.
  • Bir nesneye düğümleri çıkarmak için ExtractContent(startPara, endPara, True) yöntemi çağırın.
  • Bir belge oluşturmak için GenerateDocument(Dokument, extractedNodes) yardımcı yöntemi kullanın.
  • Yeni belgeyi Document.Save(string) yöntemi kullanarak kaydedin.

İşte bir Word belgesinde 7. ve 11. paragraflar arasındaki metin nasıl çıkarılacağını gösteren bir kod örneği:

Çeşitli düğüm türleri arasında metin çıkarma

Ayrıca farklı düğüm türleri arasındaki içeriği de çıkarabilirsiniz. Örneğin, bir paragraf ve bir tablo arasındaki içeriği çıkarıp yeni bir Word belgesine kaydedin.

  • Word belgesini Dokument sınıfını kullanarak yükleyin.
  • Başlangıç ve son düğümlerine Document.FirstSection.Body.GetChild(NodeType, int, boolean) yöntemini kullanarak referans alın.
  • Bir nesneye düğümleri çıkarmak için ExtractContent (startPara, endPara ve True) çağırın.
  • Bir belge oluşturmak için GenerateDocument(Dokument, extractedNodes) yardımcı yöntemi kullanın.
  • Yeni belgeyi Document.Save(string) kullanarak kaydedin.

İşte C#‘da bir paragraf ve bir tablo arasında metin çıkarmak için kod örneği:

Stiller tabanlı metin çıkarma

Bu gösteri için, Word belgesinde ilk “Başlık 1” ve ilk “Başlık 3” arasında içeriği çıkarırız:

  • Word belgesini Dokument sınıfını kullanarak yükleyin.
  • Paragrafları bir nesneye ParagraflarByStyleName(Doküman, “Başlık 1”) yardımcı yöntemi kullanarak çıkarın.
  • Paragrafları ParagraphsByStyleName(Dokument, “Başlık -> kullanarak başka bir nesneye çıkarın.
  • Call ExtractContent(startPara, end Para, True) her iki paragrafın ilk öğeleri ile.
  • Bir belge oluşturmak için GenerateDocument(Dokument, extractedNodes) yardımcı yöntemi kullanın.
  • Yeni belgeyi Document.Save(string) kullanarak kaydedin.

İşte stillere dayalı paragraflar arasındaki içeriği çıkarmak için bir kod örneği:

Yazı Ekstraksiyonu hakkında daha fazla bilgi edinin

Word belgelerinden metin çıkarmak için ek senaryoları keşfedin Bu belgesel makalesi.

Ücretsiz Word Metin Ekstraktör Kütüphanesi alın

elde edebilirsiniz a Ücretsiz geçici lisans Değerlendirme sınırlamaları olmaksızın metin çıkarmak.

Sonuç

Aspose.Words for .NET, C#‘daki Word belgelerinden metin çıkarma sürecini akıcı hale getiren çok yönlü bir kütüphane. geniş özellikleri ve kullanıcı dostu API ile, Word belgeleri ile verimli bir şekilde çalışabilir ve çeşitli metin çıkarma senaryolarını otomatik hale getirebilirsiniz. Word belge işleme veya sadece metin çıkarma gerektiren uygulamalar geliştirmek istiyorsanız, Aspose.Words for .NET geliştiriciler için önemli bir araçtır.

.NET için Aspose.Words’un daha fazla özelliklerini keşfetmek için, DokümanlıkHerhangi bir sorunuz varsa, bizim aracılığıyla ulaşmak için özgür hissediyorum Forum.

Ayrıca bakın

Tip: Aspose’u kontrol etmek isteyebilirsiniz PowerPoint ile Word Konverter, sunumları Word belgelerine dönüştürmenin popüler süreci gösterir.

More in this category