Extract Text from MS Word Documents in C#

Мицрософт Ворд документи су стабљика за креирање и дељење текстуалног садржаја. Ако развијате Ц # апликације које интерактују са овим документима, можда ћете морати да извучете текст из њих. Ово може бити за сврхе као што су текстуална анализа или извлачење одређених одељака документа да се састави у нови.

Табела садржаја

C# Библиотека за текстуалну екстракцију {#Библиотека-на-екстракција-текст-из речи-документи}

Aspose.Words за .NET је моћна и корисничка библиотека дизајнирана за рад са Word документима. пружа свеобухватну скуп функција, укључујући текстуалну екстракцију, креирање документа, манипулацију и конверзију. са Aspose.Words за .NET, програмери могу ефикасно управљати различитим аспектима Word докумената, чинећи га непроцењивим алатом за ваше развојне потребе.

да почнемо, Преузмите библиотеку или га инсталирају директно из НУГЕТ користите следеће команде у конзоли за управљање пакетом:

PM> Install-Package Aspose.Words

Познавање текстуалне екстракције у текстуалним документима

МС Ворд документ садржи различите елементе као што су параграфа, табеле и слике. Стога, захтеви за текстуалну екстракцију могу се разликовати у зависности од специфичног случаја коришћења. Можда ћете морати да екстрактујете текст између параграфа, знакова, коментара и још много тога.

Сваки елемент у Word документу је представљен као чвор. Стога, да бисте ефикасно обрадили документ, мораћете да радите са овим чворовима.

Корак по корак водич за екстракцију текста из Word документа {#Екстракција текста из Word-а-Документа}

У овом одељку ћемо имплементирати Ц # текстуални екстрактор за Ворд документе. радни ток за екстракцију текста ће укључити следеће кораке:

  • Дефинишите чворове које треба укључити у процес екстракције.
  • Екстрактирајте садржај између одређених чворова (укључујући или искључујући почетни и завршни чворови).
  • Користите клониране извучене чворове да бисте креирали нови Word документ који садржи извучену садржај.

Да креирамо методу која се зове ExtractContent која ће прихватити чворове и друге параметре за извршење текстуалне екстракције.

  • StartNode и EndNoda: Ови дефинишу почетне и завршне тачке за екстракцију садржаја. Они могу бити ниво блока (на пример, Параграф, Табела) или у линији нивоу чворова (нпр., Рун; ФилдСтарт), БукмаркСтарт).- За поље, преузмите одговарајући FieldStart објекат.

  • За књижевне ознаке, користите BookmarkStart и BookmarkEnd чворове.

  • За коментаре, користите нодове CommentRangeStart и ContactRageEnd.

  • IsInclusive: Овај параметар одређује да ли су маркери укључени у екстракцију.Ако се постављају на лажне и дају исте или узастопне чворове, враћа се празан списак.

Овде је потпуна имплементација ЕкстрактКонтент метода за екстракцију садржаја између одређених чворова:

Поред тога, неке методе помоћи су потребне методом ExtractContent како би се олакшала операција извлачења текста:

Сада када имамо наше методе спремне, можемо наставити да извлачимо текст из Ворд документа.

Екстрактирање текста између параграфа у тексту {#Екстрактирање текста између параграфа}

Да бисте извукли садржај између два параграфа у документу Word DOCX, пратите ове кораке:

  • Преузмите Word документ користећи класу Документ.
  • Добијте референце на почетне и завршне параграфе користећи методу Document.FirstSection.Body.GetChild(NodeType.PARAGRAPH, int, boolean).
  • Позовите методу ExtractContent(startPara, end Para, True) да бисте извукли чворове у објекат.
  • Користите методу помоћи GenerateDocument(Dokument, extractedNodes) да бисте креирали документ са извученим садржајем.
  • Сачувајте нови документ користећи методу Document.Save(string).

Ево узорка кода који показује како извући текст између 7. и 11. параграфа у Word документу:

Екстракција текста између различитих типова чворова

Такође можете извући садржај између различитих типова чворова. на пример, извући садржај између параграфа и табеле и сачувати га у нови Word документ.

  • Преузмите Word документ користећи класу Документ.
  • Добијте референце на почетни и завршни чворови користећи методу Document.FirstSection.Body.GetChild(NodeType, int, boolean).
  • Позивајте ExtractContent(startPara, end Para, True) да бисте извукли чворове у објекат.
  • Користите методу помоћи GenerateDocument(Dokument, extractedNodes) да бисте креирали документ са извученим садржајем.
  • Сачувајте нови документ користећи Document.Save(string).

Ево узорка кода за извлачење текста између параграфа и табеле у Ц #:

Екстрактирање текста заснованог на стиловима

Да бисте извукли садржај између параграфа заснованих на стиловима, пратите ове кораке. за ову демонстрацију, извући ћемо садржај између првог “Наслов 1” и првог “Наслов 3” у Word документу:

  • Преузмите Word документ користећи класу Документ.
  • Екстрактирајте параграфе у објекат користећи методу помоћи ParagraphsByStyleName(Документ, “Наслов 1”).
  • Екстрактирајте параграфе у други објекат користећи ParagraphsByStyleName(Документ, “Наслов”).
  • Позивајте ExtractContent(startPara, end Para, True) са првим елементима из оба параграфа.
  • Користите методу помоћи GenerateDocument(Dokument, extractedNodes) да бисте креирали документ са извученим садржајем.
  • Сачувајте нови документ користећи Document.Save(string).

Ево узорка кода за извлачење садржаја између параграфа на основу стилова:

Прочитајте више о текстуалном екстракцији

Истражите додатне сценарије за извлачење текста из Word докумената кроз Овај документациони чланак.

Добијте бесплатну Библиотеку за текстуалне екстракторе

Možeš da dobiješ A Бесплатна привремена лиценца да извуче текст без ограничења процене.

Закључак

Aspose.Words for .NET је разноврсна библиотека која усклађује процес извлачења текста из Word докумената у C#. Са својим широким карактеристикама и корисничким АПИ-ом, можете ефикасно радити са Word документима и аутоматизовати различите сценарије извлачења текста. Без обзира да ли развијате апликације које захтевају обраду Word докумената или једноставно извлачење текста, Aspose.Words for .NET је неопходан алат за програмери.

Да бисте истражили више карактеристика Aspose.Words за .NET, проверите ДокументацијаАко имате било каквих питања, осећајте се слободно да дођете преко нашег Форум.

Гледајте такође

Тип: Можда желите да проверите Aspose PowerPoint za reč Конвертер, који показује популарни процес конверзије презентација у Word документима.

More in this category