Extract Text from MS Word Documents in C#

Microsoft Word dokumenti ir stūrakmens, lai izveidotu un dalītu teksta saturu. Ja jūs izstrādāt C# lietojumprogrammas, kas mijiedarbojas ar šiem dokumentiem, jums var būt nepieciešams izņemt tekstu no tiem. Tas varētu būt tādām nolūkiem kā teksts analīze vai ekstrakcija konkrētus dokumentu daļas kopēt jaunā.

satura tabula

C# Bibliotēka teksta ekstrakcijai

ASPOSE.Words par .NET ir spēcīga un lietotāja draudzīga bibliotēka, kas izstrādāta, lai strādātu ar Word dokumentiem. tā nodrošina visaptverošu funkciju kopumu, ieskaitot teksta ekstrakciju, dokumentu radīšanu, manipulāciju un konversiju. ar Aspose.Words .NET, izstrādātāji var efektīvi pārvaldīt dažādus Word dokumentu aspektus, padarot to par vērtīgu rīku jūsu attīstības vajadzībām.

Lai sāktu, Lejupielādēt bibliotēku vai uzstādīt to tieši no NuGet izmantojot šādu komandu iepakojuma pārvaldītāja konsolā:

PM> Install-Package Aspose.Words

Izpratne par teksta ekstrakciju Word dokumentos

MS Word dokuments sastāv no dažādiem elementiem, piemēram, apakšpunktiem, tabulām un attēliem. Tādējādi teksta ekstrakcijas prasības var atšķirties, pamatojoties uz konkrēto lietošanas gadījumu.

Tādēļ, lai efektīvi apstrādātu dokumentu, jums būs jāstrādā ar šiem nodiem.

Pakāpeniski ceļvedis teksta ekstrakcijai no Word dokumenta

Šajā sadaļā mēs ieviesīsim C# teksta ekstraktoru Word dokumentiem. darba plūsma teksts extrakcijai ietver šādus soļus:

  • Definē nodus, kas jāiekļauj ekstrakcijas procesā.
  • Ievadiet saturu starp norādītajiem nodiem (ieskaitot vai izslēdzot sākuma un beigu nodus).
  • Izmantojiet klonētos ekstraktu nodus, lai izveidotu jaunu Word dokumentu, kas satur ekstrakta saturu.

Mēs izveidojam metodi ar nosaukumu ExtractContent , kas pieņem nodus un citus parametrus, lai veiktu teksta ekstrakciju.

  • **StartNode ** un **EndNoda ** : Tie definē satura ekstrakcijas sākuma un beigu punktus. tie var būt bloka līmenis (piemēram, Pārkāpums , *Tabela **) vai inline līmeņa nodus (p.g., ** Run **, ** FieldStarts vai ** BookmarkStars).- Lauku gadījumā ievietojiet attiecīgo FieldStart objektu.

  • Par grāmatzīmēm izmantojiet BookmarkStart ** un ** BookmarkEnd nodus.

  • Komentāriem izmantojiet CommentRangeStart ** unKomentārā ranga* nodus.

  • IsInclusive : Šis parametrs nosaka, vai marķējumi ir iekļauti ekstrakcijā. ja tiek iestatīts nepareizi un tiek nodrošināti tie paši vai turpmāk minētie nodi, tad atgriezīsies tukšs saraksts.

Šeit ir pilnīga ExtractContent metožu īstenošana, lai iegūtu saturu starp norādītajiem mazgājiem:

Papildus tam, dažas palīdzības metodes ir nepieciešamas ar ExtractContent metodi, lai atvieglotu teksta ekstrakcijas darbību:

Tagad, kad mēs esam gatavi mūsu metodēm, mēs varam turpināt ekstraktu tekstu no Word dokumenta.

Teksta ekstrakcija starp vārda dokumenta daļām

Lai iegūtu saturu starp diviem apakšpunktiem Word DOCX dokumentā, sekojiet šādiem soļiem:

  • Lūdzu, lejupielādējiet vārda dokumentu, izmantojot Dokuments klases.
  • Ievadiet atsauces uz sākuma un beigu daļām, izmantojot Document.FirstSection.Body.GetChild(NodeType.PARAGRAPH, int, boolean) metodi.
  • Ievadiet ExtractContent(startPara, endPar, True) metodi, lai iegūtu nodus objektam.
  • Izmantojiet GenerateDocument(Dokuments, ekstraktsNodes) palīdzības metodi, lai izveidotu dokumentu ar izņemto saturu.
  • Saglabājiet jaunu dokumentu, izmantojot Document.Save(string) metodi.

Šeit ir koda paraugs, kas parāda, kā izrakstīt tekstu starp 7. un 11. punktu Word dokumentā:

Teksta ekstrakcija starp dažādiem nodeju veidiem

Jūs varat arī izrakstīt saturu starp dažāda veida mazgājiem. Piemēram, lai iegūtu satura starp daļu un tabulu un saglabātu to jaunā Word dokumentā.

  • Lūdzu, lejupielādējiet vārda dokumentu, izmantojot Dokuments klases.
  • Ievadiet atsauces uz sākuma un beigu nodus, izmantojot Document.FirstSection.Body.GetChild(NodeType, int, boolean) metodi.
  • Sazinieties ar ExtractContent(startPara, end Para, True) , lai iegūtu nodus objektam.
  • Izmantojiet GenerateDocument(Dokuments, ekstraktsNodes) palīdzības metodi, lai izveidotu dokumentu ar izņemto saturu.
  • Saglabājiet jaunu dokumentu, izmantojot Document.Save(string) .

Šeit ir koda paraugs, lai iegūtu tekstu starp pantu un tabulu C#:

Ekstrakcijas teksts, pamatojoties uz stiliem

Lai iegūtu saturu starp apakšpunktiem, pamatojoties uz stiliem, sekojiet šādiem soļiem.Šai demonstrācijai, mēs iegūsim saturs starp pirmo “Apvārsnis 1” un pirmā “Atklājums 3” Word dokumentā:

  • Lūdzu, lejupielādējiet vārda dokumentu, izmantojot Dokuments klases.
  • Izrakstīt punktus objektam, izmantojot palīdzības metodi ParagraphsByStyleName(Dokuments, “Kapitāls 1”) .
  • Izrakstīt punktus citā objektā, izmantojot ParagraphsByStyleName(Dokuments, “Kapitāls”) .
  • Atcerieties ExtractContent(startPara, end Para, True) ar pirmajiem elementiem no abām daļām.
  • Izmantojiet GenerateDocument(Dokuments, ekstraktsNodes) palīdzības metodi, lai izveidotu dokumentu ar izņemto saturu.
  • Saglabājiet jaunu dokumentu, izmantojot Document.Save(string) .

Šeit ir koda paraugs, lai iegūtu saturu starp daļām, pamatojoties uz stiliem:

Lasīt vairāk par teksta ekstrakciju

Izpētīt papildu scenārijus, lai iegūtu tekstu no Word dokumentiem, izmantojot Šis dokumentācijas raksts.

Iegūstiet bezmaksas Word teksta ekstraktora bibliotēku

Jūs varat iegūt A Bezmaksas pagaidu licences izrakstīt tekstu bez novērtēšanas ierobežojumiem.

Conclusion

Aspose.Words for .NET ir daudzveidīga bibliotēka, kas paātrina teksta ekstrakcijas procesu no Word dokumentiem C#. Ar tās plašām funkcijām un lietotāja draudzīgu API, jūs varat efektīvi strādāt ar Word dokumentus un automātiski dažādas teksts ekstrakta scenārijus. Vai jūs izstrādāt lietojumprogrammas, kurām nepieciešama Word dokumentu apstrāde vai vienkārši izrakstīt tekstu, Asposa.Vords par .Net ir būtisks rīks attīstītājiem.

Lai izpētītu vairāk Aspose.Words funkciju .NET, pārbaudiet DokumentācijaJa jums ir jebkādi jautājumi, jūtaties brīvi sasniegt caur mūsu Forums.

Skatīt arī

Tip: Jums var būt nepieciešams, lai pārbaudītu Aspose PowerPoint uz vārdu Converter, kas demonstrē populāro procesu, lai pārvērstu prezentācijas Word dokumentos.

More in this category