
Microsoft Word dokumenti su stupa za stvaranje i dijeljenje tekstualnog sadržaja. Ako razvijate C# aplikacije koje interagiraju s tim dokumentima, možda ćete morati izvući tekst iz njih. To bi moglo biti za svrhe kao što su analiza teksta ili izvući određene odjeljke dokumenta za sastavljanje u novi.
Tablica sadržaja
- C# knjižnica za ekstrakciju teksta
- Razumijevanje ekstrakcije teksta u Word dokumentima
- Korak po korak vodič za uklanjanje teksta iz Word dokumenta- Izvlačenje teksta između stavaka
- Izvlačenje teksta između različitih vrsta čvorova
- Izvlačenje teksta na temelju stila
C# knjižnica za ekstrakciju teksta
Sljedeći članakAspose.Words za .NET je moćna i korisnička knjižnica dizajnirana za rad s Word dokumentima. pruža sveobuhvatni niz funkcija, uključujući ekstrakciju teksta, stvaranje dokumenata, manipulaciju i konverziju. sa Aspose.Words za .NET, razvijatelji mogu učinkovito upravljati različitim aspektima Word dokumenta, čineći ga neprocjenjivim alatom za vaše razvojne potrebe.
kako bi počeli, Preuzmite knjižnicu ili ga instalirati izravno iz NuGet Koristite sljedeće zapovijedi u konzoli upravitelja paketa:
PM> Install-Package Aspose.Words
Razumijevanje ekstrakcije teksta u Word dokumentima
MS Word dokument sastoji se od različitih elemenata kao što su stavci, tablice i slike. Stoga, zahtjevi za ekstrakciju teksta mogu se razlikovati ovisno o određenom slučaju korištenja. Možda ćete morati ekstrakciju teksta između stavaka, znakova knjiga, komentara, i još mnogo toga.
Svaki element u Word dokumentu predstavlja se kao čvor. Stoga, da biste učinkovito obrađivali dokument, morat ćete raditi s tim čvorima.
Korak po korak vodič za ekstrakciju teksta iz Word dokumenta
U ovom odjeljku ćemo implementirati C# tekst ekstraktor za Word dokumente. radni tok za tekst ekstrakcije će uključivati sljedeće korake:
- Definicija čvorova za uključivanje u proces ekstrakcije.
- Izvadite sadržaj između određenih čvorova (uključujući ili isključujući početak i završetak čvorova).
- Koristite klonirane izvedenih čvorova kako biste stvorili novi Word dokument koji sadrži izvedenu sadržaj.
Stvorimo metodu pod nazivom ExtractContent koja će prihvatiti čvorove i druge parametre kako bi se izvršila ekstrakcija teksta.
StartNode i EndNoda: Ovi definiraju početne i završne točke za ekstrakciju sadržaja. oni mogu biti blok-na razini (npr. Paragraf, Tabela) ili u linijskim stupanjima čvorova (p.g., Run; FieldStarts), BookmarkStars).- Za polja, prođite odgovarajući FieldStart objekt.
Za knjigovodstvene oznake koristite BookmarkStart i BookmarkEnd čvorove.
Za komentare, upotrijebite CommentRangeStart i KomentiranjEnd čvorove.
IsInclusive: Ovaj parametar određuje su li označivači uključeni u ekstrakciju.Ako se postavljaju na lažne i pružaju se isti ili uzastopni čvorovi, vratit će se prazan popis.
Ovdje je potpuna implementacija ExtractContent metode za ekstrakciju sadržaja između određenih čvorova:
Dodatno, određene metode pomoći zahtijevaju se metodom ExtractContent kako bi se olakšala operacija ekstrakcije teksta:
Sada kada imamo naše metode spremne, možemo nastaviti ekstrakciju teksta iz Word dokumenta.
Izvlačenje teksta između stavaka teksta
Da biste izvukli sadržaj između dva stavka u dokumentu Word DOCX, slijedite sljedeće korake:
- Preuzmite Word dokument pomoću Dokument razreda.
- Pronađite upute za početak i završetak stavaka pomoću Document.FirstSection.Body.GetChild(NodeType.PARAGRAPH, int, boolean) metode.
- Pozovite metodu ExtractContent(startPara, endPara) kako biste izvukli čvorove u objekt.
- Koristite pomoćnu metodu GenerateDocument(Dokument, extractedNodes) kako biste stvorili dokument s izvedenim sadržajem.
- Sačuvajte novi dokument pomoću metoda Document.Save(string).
Ovdje je uzorak koda koji pokazuje kako izvaditi tekst između 7. i 11. stavka u Word dokumentu:
Izvlačenje teksta između različitih vrsta čvorova
Također možete izvaditi sadržaj između različitih vrsta čvorova. na primjer, izvadimo sadržaj između stavka i tablice i sačuvamo ga u novi Word dokument.
- Preuzmite Word dokument pomoću Dokument razreda.
- Pronađite upute za početak i završetak čvorova pomoću Document.FirstSection.Body.GetChild(NodeType, int, boolean) metode.
- Pozovite ExtractContent(startPara, endPara) kako biste izvukli čvorove u objekt.
- Koristite pomoćnu metodu GenerateDocument(Dokument, extractedNodes) kako biste stvorili dokument s izvedenim sadržajem.
- Sačuvajte novi dokument pomoću Document.Save(string).
Evo uzorka koda za ekstrakciju teksta između stavka i tablice u C#:
Izvlačenje teksta na temelju stilova
Da biste izvukli sadržaj između stavaka na temelju stila, slijedite ove korake. za ovu demonstraciju, izvuknemo ćemo sadržaj između prvog “Titla 1” i prvog “Titla 3” u Word dokumentu:
- Preuzmite Word dokument pomoću Dokument razreda.
- Izvadite stavke u predmet pomoću pomoćne metode ParagraphsByStyleName(Dokument, “Glavni 1”).
- Izvadite stavke u drugi objekt pomoću ParagraphsByStyleName(Dokument, “Glavni .
- Pozovite ExtractContent(startPara, endPara i True) s prvim elementima iz oba stavka.
- Koristite pomoćnu metodu GenerateDocument(Dokument, extractedNodes) kako biste stvorili dokument s izvedenim sadržajem.
- Sačuvajte novi dokument pomoću Document.Save(string).
Evo uzorka koda za ekstrakciju sadržaja između stavaka na temelju stila:
Pročitajte više o tekstovnoj ekstrakciji
Istražite dodatne scenarije za ekstrakciju teksta iz Word dokumenata kroz Ovaj dokumentarni članak.
Dobijte besplatnu knjižnicu tekstnih ekstraktora
Možete dobiti A Besplatna privremena dozvola Izvoditi tekst bez ograničenja ocjene.
zaključak
Aspose.Words za .NET je sveobuhvatna knjižnica koja usporava proces ekstrakcije teksta iz Word dokumenata u C#. Sa svojim obilnim značajkama i korisnički prihvatljivom API-om, možete učinkovito raditi s Word dokumentima i automatizirati različite scenarije ekstrakcije teksta. Bilo da razvijate aplikacije koje zahtijevaju obradu Word dokumenata ili jednostavno ekstrakciju teksta, Aspose.Words za .NET je važan alat za razvijatelje.
Da biste istražili više značajki Aspose.Words za .NET, provjerite dokumentacijaAko imate bilo kakvih pitanja, osjećajte se slobodno doći kroz naše forum.
Vidjeti također
Tip: Možda želite provjeriti Aspose PowerPoint za riječ Konverter, koji pokazuje popularni proces pretvaranja prezentacija u Word dokumente.
More in this category
- Konvertirati Word DOC/DOCX u PDF u C# .NET Aspose.Words' Document Converter Plugin
- Generirajte kodove trake u Word dokumentima (.NET, C#) i čitajte kodove trake iz Word (.NET)
- Uklanjanje slika iz Word dokumenata u C#-u za automatsku obradu slika
- Automatizirani izvješća s C# Mail Merge, Aspose.Words' Mail Merge Plugin
- Pronađite i zamijenite tekst u Word dokumentima pomoću C#Automate Word Editing