
„Microsoft Word“ dokumentai yra tekstinio turinio kūrimo ir pasidalijimo stalas. Jei kuriate C# programas, kurios sąveikauja su šiais dokumentais, jums gali prireikti iš jų ištraukti tekstą. Tai gali būti tokiais tikslais kaip teksto analizė arba konkrečių dokumentų skyrių ekstrakcija, kad būtų surinkta į naują.
Turinio lentelė
- C# Bibliotekos tekstų ekstrakcija
- Suprasti teksto ekstrakciją žodžiu dokumentuose
- Žingsnis po žingsnio vadovas, kaip ištraukti tekstą iš žodžio dokumento- Rašyti tekstą tarp skirsnių
- Teksto ekstrakcija tarp skirtingų tipų mazgų
- Tekstas, pagrįstas stiliais
C# Biblioteka teksto ekstrakcijai
Žodžiai ir žodžiai .NET yra galinga ir naudotojams patogi biblioteka, skirta dirbti su “Word” dokumentais. ji suteikia išsamią funkcijų rinkinį, įskaitant teksto ekstrakciją, dokumentų kūrimą, manipuliavimą ir konvertavimą. “Aspose.Words” .NET, kūrėjai gali efektyviai valdyti įvairius Word dokumentus, todėl tai neįkainojamas įrankis jūsų vystymosi poreikiams.
Norėdami pradėti, Parsisiųsti biblioteką arba tiesiogiai įdiegti iš NuGet naudojant šias komandas paketų valdytojo konsolėje:
PM> Install-Package Aspose.Words
Suprasti teksto ekstrakciją žodžiu dokumentuose
MS Word dokumentas apima įvairius elementus, tokius kaip skirsniai, lentelės ir vaizdai. Todėl teksto ekstrakcijos reikalavimai gali skirtis atsižvelgiant į konkrečią naudojimo atvejį. Jums gali prireikti išgauti tekstą tarp skyrių, knygų ženklai, komentarai ir dar daugiau.
Todėl, norint veiksmingai apdoroti dokumentą, turėsite dirbti su šiais mazgais.
Žingsnis po žingsnio Gamintojas tekstą iš žodžio dokumento
Šiame skyriuje mes įgyvendinsime “Word” dokumentų C# teksto ekstraktorių. tekstų ekstrakto darbo srautas apims šiuos veiksmus:
- Apibrėžkite mazgus, kuriuos reikia įtraukti į ekstrakcijos procesą.
- Ištrinkite turinį tarp nurodytų mazgų (įskaitant arba išskiriant pradinius ir baigiamus mazgus).
- Naudokite klonuotus ištrauktus mazgus, kad sukurtumėte naują “Word” dokumentą, kuriame yra išvestas turinys.
Mes sukursime metodą, pavadintą ExtractContent , kuris priims mazgus ir kitus parametrus, kad atliktų teksto ekstrakciją.
**StartNode ** ir **EndNote ** : Tai apibrėžia turinio ekstrakcijos pradžios ir pabaigos taškus. Jie gali būti bloko lygis (pavyzdžiui, paragrafas , *Tabelė **) arba inline lygio mazgai (t. y. ** Run **, ** FieldStarts ar ** BookmarkStars).- Jei laukai, eikite į atitinkamą FieldStart objektą.
Norėdami gauti knygų ženklus, naudokite BookmarkStart ** ir ** BookmarkEnd mazgas.
Norėdami pateikti komentarus, naudokite mazgus **CommentRangeStart ** ir Komentuoti .
IsInclusive : Šis parametras nustato, ar žymekliai yra įtraukti į ekstrakciją.Jei nustatoma klaidinga ir pateikiami tie patys arba tęstiniai mazgai, grąžinamas tuščias sąrašas.
Štai visiškas ExtractContent metodo įgyvendinimas, skirtas turiniui ištraukti tarp nurodytų mazgų:
Be to, kai kurie pagalbiniai metodai reikalingi ExtractContent metodu, kad būtų lengviau atlikti teksto ekstrakcijos operaciją:
Dabar, kai mūsų metodai yra paruošti, mes galime tęsti tekstą iš “Word” dokumento.
Teksto ekstrakcija tarp žodžio dokumento skyrių {#Text-in between-paragraphs}
Norėdami išgauti turinį tarp dviejų skyrių “Word DOCX” dokumente, atlikite šiuos veiksmus:
- Atsisiųskite žodžio dokumentą naudojant Dokumento klasę.
- Gaukite nuorodas į pradžios ir pabaigos skirsnius naudojant Document.FirstSection.Body.GetChild(NodeType.PARAGRAPH, int, boolean) metodą.
- Paskambinkite ExtractContent(startPara, end Para, True) metodą, kad mazgai būtų ištraukti į objektą.
- Naudokite GenerateDocument(Dokument, extractedNodes) pagalbinį metodą, kad sukurtumėte dokumentą su ekstrahuotu turiniu.
- Išsaugokite naują dokumentą naudojant Document.Save(string) metodą.
Čia pateikiamas kodo pavyzdys, parodantis, kaip parašyti tekstą tarp 7 ir 11 skirsnių “Word” dokumente:
Tekstų ekstrakcija tarp skirtingų tipų mazgų
Taip pat galite ištraukti turinį tarp skirtingų mazgų tipų. Pavyzdžiui, paimkime turinio tarp skirsnio ir lentelės ir išsaugokime jį į naują “Word” dokumentą.
- Atsisiųskite žodžio dokumentą naudojant Dokumento klasę.
- Gaukite nuorodas į pradžios ir pabaigos mazgas naudojant Document.FirstSection.Body.GetChild(NodeType, int, boolean) metodą.
- Paskambinkite ExtractContent(startPara, end Para, True) , kad pašalintumėte mazgas į objektą.
- Naudokite GenerateDocument(Dokument, extractedNodes) pagalbinį metodą, kad sukurtumėte dokumentą su ekstrahuotu turiniu.
- Išsaugokite naują dokumentą naudojant Document.Save(string) .
Štai kodo pavyzdys, skirtas teksto ekstrakcijai tarp skirsnio ir lentelės C#:
Išimti tekstą remiantis stiliais
Norėdami išgauti turinį tarp skirsnių, remiantis stiliais, laikykitės šių žingsnių.Šiam demonstravimui, mes ekstraktuosime turinio tarp pirmojo “Pagrindinis 1” ir pirmosios “Glavinis 3” žodžio dokumente:
- Atsisiųskite žodžio dokumentą naudojant Dokumento klasę.
- Išimkite skirsnius į objektą naudojant pagalbinį metodą ParagraphsByStyleName(Dokumentas, “Pagrindas 1”) .
- Išimkite skirsnius į kitą objektą naudojant ParagraphsByStyleName(Dokumentas, “Pagrindinis .
- Paskambinkite ExtractContent(startPara, end Para, True) su pirmais elementais iš abiejų skyrių.
- Naudokite GenerateDocument(Dokument, extractedNodes) pagalbinį metodą, kad sukurtumėte dokumentą su ekstrahuotu turiniu.
- Išsaugokite naują dokumentą naudojant Document.Save(string) .
Štai kodo pavyzdys, skirtas išgauti turinį tarp skirsnių, pagrįstų stiliais:
Skaityti daugiau apie teksto ekstrakciją
Apsvarstykite papildomus scenarijus tekstui iš “Word” dokumentų Šis dokumentinis straipsnis.
Gaukite nemokamą žodžio teksto ekstraktorių biblioteką
Galite gauti A Laikinosios nemokamos licencijos tekstą išgauti be vertinimo apribojimų.
Conclusion
Aspose.Words for .NET yra daugiafunkcinė biblioteka, kuri supaprastina teksto ekstrakcijos procesą iš „Word“ dokumentų C#. Su savo didelėmis funkcijomis ir naudotojams patogiu API, galite efektyviai dirbti su žodžio dokumentais ir automatizuoti įvairius tekstų ekstrakto scenarijus. Nesvarbu, ar jūs kuriate programas, kurios reikalauja Word dokumento apdorojimo ar paprasčiausiai tekstą ekstraktą, „ASPOSE.
Norėdami ištirti daugiau funkcijų Aspose.Words .NET, patikrinkite dokumentacijaJei turite kokių nors klausimų, jaustis laisvas pasiekti per mūsų Forumas.
Taip pat žiūrėkite
Tip: Galbūt norite patikrinti Asposą PowerPoint į žodį Konverteris, kuris rodo populiarią pristatymų konvertavimo į “Word” dokumentus procesą.
More in this category
- Konvertuoti Word DOC/DOCX į PDF į C# .NET Aspose.Words' Document Converter Plugin
- Gaminti juostų kodą Word dokumentuose (.NET, C#) Skaityti žymenį iš Word ( .NET)
- Nuotraukų ekstraktas iš „Word“ dokumentų „C#“ Automatinis vaizdo apdorojimas
- Automatiniai pranešimai su „C# Mail Merge“ ir „Aspose.Words“ pašto merge papildas
- Rasti ir pakeisti tekstą "Word" dokumentuose naudojant C# "Automatic Word Editing"