Extract Text from MS Word Documents in C#

Microsoft Word dokumenti su stupa za stvaranje i dijeljenje tekstualnog sadržaja. Ako razvijate C# aplikacije koje interagiraju s tim dokumentima, možda ćete morati izvući tekst iz njih. To bi moglo biti za svrhe kao što su analiza teksta ili izvući određene odjeljke dokumenta za sastavljanje u novi.

Tablica sadržaja

C# knjižnica za ekstrakciju teksta

Sljedeći članakAspose.Words za .NET je moćna i korisnička knjižnica dizajnirana za rad s Word dokumentima. pruža sveobuhvatni niz funkcija, uključujući ekstrakciju teksta, stvaranje dokumenata, manipulaciju i konverziju. sa Aspose.Words za .NET, razvijatelji mogu učinkovito upravljati različitim aspektima Word dokumenta, čineći ga neprocjenjivim alatom za vaše razvojne potrebe.

kako bi počeli, Preuzmite knjižnicu ili ga instalirati izravno iz NuGet Koristite sljedeće zapovijedi u konzoli upravitelja paketa:

PM> Install-Package Aspose.Words

Razumijevanje ekstrakcije teksta u Word dokumentima

MS Word dokument sastoji se od različitih elemenata kao što su stavci, tablice i slike. Stoga, zahtjevi za ekstrakciju teksta mogu se razlikovati ovisno o određenom slučaju korištenja. Možda ćete morati ekstrakciju teksta između stavaka, znakova knjiga, komentara, i još mnogo toga.

Svaki element u Word dokumentu predstavlja se kao čvor. Stoga, da biste učinkovito obrađivali dokument, morat ćete raditi s tim čvorima.

Korak po korak vodič za ekstrakciju teksta iz Word dokumenta

U ovom odjeljku ćemo implementirati C# tekst ekstraktor za Word dokumente. radni tok za tekst ekstrakcije će uključivati sljedeće korake:

  • Definicija čvorova za uključivanje u proces ekstrakcije.
  • Izvadite sadržaj između određenih čvorova (uključujući ili isključujući početak i završetak čvorova).
  • Koristite klonirane izvedenih čvorova kako biste stvorili novi Word dokument koji sadrži izvedenu sadržaj.

Stvorimo metodu pod nazivom ExtractContent koja će prihvatiti čvorove i druge parametre kako bi se izvršila ekstrakcija teksta.

  • StartNode i EndNoda: Ovi definiraju početne i završne točke za ekstrakciju sadržaja. oni mogu biti blok-na razini (npr. Paragraf, Tabela) ili u linijskim stupanjima čvorova (p.g., Run; FieldStarts), BookmarkStars).- Za polja, prođite odgovarajući FieldStart objekt.

  • Za knjigovodstvene oznake koristite BookmarkStart i BookmarkEnd čvorove.

  • Za komentare, upotrijebite CommentRangeStart i KomentiranjEnd čvorove.

  • IsInclusive: Ovaj parametar određuje su li označivači uključeni u ekstrakciju.Ako se postavljaju na lažne i pružaju se isti ili uzastopni čvorovi, vratit će se prazan popis.

Ovdje je potpuna implementacija ExtractContent metode za ekstrakciju sadržaja između određenih čvorova:

Dodatno, određene metode pomoći zahtijevaju se metodom ExtractContent kako bi se olakšala operacija ekstrakcije teksta:

Sada kada imamo naše metode spremne, možemo nastaviti ekstrakciju teksta iz Word dokumenta.

Izvlačenje teksta između stavaka teksta

Da biste izvukli sadržaj između dva stavka u dokumentu Word DOCX, slijedite sljedeće korake:

  • Preuzmite Word dokument pomoću Dokument razreda.
  • Pronađite upute za početak i završetak stavaka pomoću Document.FirstSection.Body.GetChild(NodeType.PARAGRAPH, int, boolean) metode.
  • Pozovite metodu ExtractContent(startPara, endPara) kako biste izvukli čvorove u objekt.
  • Koristite pomoćnu metodu GenerateDocument(Dokument, extractedNodes) kako biste stvorili dokument s izvedenim sadržajem.
  • Sačuvajte novi dokument pomoću metoda Document.Save(string).

Ovdje je uzorak koda koji pokazuje kako izvaditi tekst između 7. i 11. stavka u Word dokumentu:

Izvlačenje teksta između različitih vrsta čvorova

Također možete izvaditi sadržaj između različitih vrsta čvorova. na primjer, izvadimo sadržaj između stavka i tablice i sačuvamo ga u novi Word dokument.

  • Preuzmite Word dokument pomoću Dokument razreda.
  • Pronađite upute za početak i završetak čvorova pomoću Document.FirstSection.Body.GetChild(NodeType, int, boolean) metode.
  • Pozovite ExtractContent(startPara, endPara) kako biste izvukli čvorove u objekt.
  • Koristite pomoćnu metodu GenerateDocument(Dokument, extractedNodes) kako biste stvorili dokument s izvedenim sadržajem.
  • Sačuvajte novi dokument pomoću Document.Save(string).

Evo uzorka koda za ekstrakciju teksta između stavka i tablice u C#:

Izvlačenje teksta na temelju stilova

Da biste izvukli sadržaj između stavaka na temelju stila, slijedite ove korake. za ovu demonstraciju, izvuknemo ćemo sadržaj između prvog “Titla 1” i prvog “Titla 3” u Word dokumentu:

  • Preuzmite Word dokument pomoću Dokument razreda.
  • Izvadite stavke u predmet pomoću pomoćne metode ParagraphsByStyleName(Dokument, “Glavni 1”).
  • Izvadite stavke u drugi objekt pomoću ParagraphsByStyleName(Dokument, “Glavni .
  • Pozovite ExtractContent(startPara, endPara i True) s prvim elementima iz oba stavka.
  • Koristite pomoćnu metodu GenerateDocument(Dokument, extractedNodes) kako biste stvorili dokument s izvedenim sadržajem.
  • Sačuvajte novi dokument pomoću Document.Save(string).

Evo uzorka koda za ekstrakciju sadržaja između stavaka na temelju stila:

Pročitajte više o tekstovnoj ekstrakciji

Istražite dodatne scenarije za ekstrakciju teksta iz Word dokumenata kroz Ovaj dokumentarni članak.

Dobijte besplatnu knjižnicu tekstnih ekstraktora

Možete dobiti A Besplatna privremena dozvola Izvoditi tekst bez ograničenja ocjene.

zaključak

Aspose.Words za .NET je sveobuhvatna knjižnica koja usporava proces ekstrakcije teksta iz Word dokumenata u C#. Sa svojim obilnim značajkama i korisnički prihvatljivom API-om, možete učinkovito raditi s Word dokumentima i automatizirati različite scenarije ekstrakcije teksta. Bilo da razvijate aplikacije koje zahtijevaju obradu Word dokumenata ili jednostavno ekstrakciju teksta, Aspose.Words za .NET je važan alat za razvijatelje.

Da biste istražili više značajki Aspose.Words za .NET, provjerite dokumentacijaAko imate bilo kakvih pitanja, osjećajte se slobodno doći kroz naše forum.

Vidjeti također

Tip: Možda želite provjeriti Aspose PowerPoint za riječ Konverter, koji pokazuje popularni proces pretvaranja prezentacija u Word dokumente.

More in this category