
Documentele Microsoft Word sunt un stapel pentru crearea și partajarea conținutului text. Dacă vă dezvoltați aplicații C# care interacționează cu aceste documente, vă puteți găsi nevoia de a extrage text din ele. Acest lucru ar putea fi pentru scopuri cum ar fi analiza textului sau extragerea secțiunilor specifice ale unui document pentru a compila într-un nou. În acest post de blog, vom scufunda în metodele de extragere a textului din documentele Word în C#.
Tabelul conținutului
- C# Biblioteca pentru extracția textului
- Înțelegerea extracției textului în documentele Word
- Ghid pas cu pas pentru a extrage text dintr-un document Word- Extragerea textului între paragrafe
- Extractarea textului între diferite tipuri de noduri
- Extract text bazat pe stiluri
C# Biblioteca pentru extracție textă
Aspose.Words pentru .NET este o bibliotecă puternică și ușor de utilizat concepută pentru a lucra cu documentele Word. oferă un set cuprinzător de caracteristici, inclusiv extracția textului, crearea documentelor, manipularea și conversia. cu Aspose.Words pentru .NET, dezvoltatorii pot gestiona în mod eficient diferite aspecte ale dokumentelor Word, făcând-o un instrument inestimabil pentru nevoile dvs. de dezvoltare.
Pentru a începe, Descărcați biblioteca sau instalate direct de la NuGet utilizând următoarea comandă în consola de gestionare a pachetelor:
PM> Install-Package Aspose.Words
Înțelegerea extracției textului în documentele Word
Un document MS Word cuprinde diferite elemente, cum ar fi paragrafe, tabele și imagini. Prin urmare, cerințele pentru extracția textului pot varia în funcție de caz de utilizare specifică.
Fiecare element dintr-un document Word este reprezentat ca un nod. Prin urmare, pentru a procesa eficient un document, va trebui să lucrați cu aceste noduri. Să explorăm cum să extrageți text din documentele Word în scenarii diferite.
Ghid pas cu pas pentru a extrage text dintr-un document Word
În această secțiune, vom implementa un extractor de text C# pentru documentele Word. fluxul de lucru pentru extracția de text va include următoarele etape:
- Definiți nodurile care trebuie incluse în procesul de extracție.
- Extrageți conținutul între nodurile specificate (inclusiv sau excludând nodurile de pornire și de sfârșit).
- Utilizați nodurile extrase clonate pentru a crea un nou document Word care conține conținutul extras.
Să creăm o metodă numită ExtractContent care va accepta noduri și alte parametri pentru a efectua extracția textului.
StartNode și EndNoda: Acestea definesc punctele de pornire și de sfârșit pentru extragerea conținutului. acestea pot fi niveluri de bloc (de exemplu, Paragraf, Tabela) sau noduri la nivel inline (dacă se numără Run; FieldStar.- Pentru câmpuri, treceți obiectul FieldStart corespunzător.
Pentru etichete, utilizați nodurile BookmarkStart și BookmarkEnd.
Pentru comentarii, folosiți nodurile CommentRangeStart și Contabilitate.
IsInclusive: Acest parametru determină dacă marcatoarele sunt incluse în extracție. dacă sunt setate la false și sunt furnizate aceleași sau noduri consecutive, o listă goală va fi returnată.
Iată implementarea completă a metodei ExtractContent pentru extragerea conținutului între nodurile specificate:
În plus, unele metode de ajutor sunt necesare prin metoda ExtractContent pentru a facilita operațiunea de extracție a textului:
Acum că avem metodele noastre gata, putem continua să extragem textul dintr-un document Word.
Extragerea textului între paragrafele unui document Word {#extragerea textului între paragrafele}
Pentru a extrage conținut între două paragrafe într-un document Word DOCX, urmați următoarele pași:
- Încărcați documentul Word folosind clasa Document.
- Obțineți referințe la paragrafele de pornire și de încheiere folosind metoda Document.FirstSection.Body.GetChild(NodeType.PARAGRAPH, int, boolean).
- Apelați metoda ExtractContent(startPara, end Para, True) pentru a extrage nodurile într-un obiect.
- Utilizați metoda de ajutor GenerateDocument(Dokument, extractNodes) pentru a crea un document cu conținutul extras.
- Salvați noul document folosind metoda Document.Save(string).
Iată un eșantion de cod care arată cum să extrageți textul între paragrafele 7 și 11 într-un document Word:
Extractarea textului între diferite tipuri de noduri
De asemenea, puteți extrage conținut între diferite tipuri de noduri. de exemplu, să extrageți conținutul între un paragraf și o tabelă și să îl salvați într-un nou document Word.
- Încărcați documentul Word folosind clasa Document.
- Obțineți referințe la nodurile de pornire și de sfârșit folosind metoda Document.FirstSection.Body.GetChild(NodeType, int, boolean).
- Apelați ExtractContent(startPara, end Para, True) pentru a extrage nodurile într-un obiect.
- Utilizați metoda de ajutor GenerateDocument(Dokument, extractNodes) pentru a crea un document cu conținutul extras.
- Salvați noul document folosind Document.Save(string).
Iată exemplul de cod pentru extragerea textului între un paragraf și o tabelă în C#:
Extract text bazat pe stiluri
Pentru a extrage conținut între paragrafe bazate pe stiluri, urmați aceste pași. Pentru această demonstrație, vom extrage conținut între primul “Titlu 1” și primul “Titlu 3” în documentul Word:
- Încărcați documentul Word folosind clasa Document.
- Extrageți paragrafele într-un obiect folosind metoda de ajutor ParagraphsByStyleName(Document, “Titlu 1”).
- Extrageți paragrafele într-un alt obiect folosind ParagraphsByStyleName(Document, “Capitol .
- Apelați ExtractContent(startPara, end Para, True) cu primele elemente din ambele secțiuni.
- Utilizați metoda de ajutor GenerateDocument(Dokument, extractNodes) pentru a crea un document cu conținutul extras.
- Salvați noul document folosind Document.Save(string).
Iată un eșantion de cod pentru a extrage conținutul între paragrafe bazate pe stiluri:
Citiți mai multe despre extracția textului
Explorați scenarii suplimentare pentru extragerea textului din documentele Word prin Acest articol de documentare.
Obțineți o bibliotecă de extractori de text gratuite
Puteți obține un Licență temporară gratuită pentru a extrage textul fără limitări de evaluare.
concluziile
Aspose.Words pentru .NET este o bibliotecă versatilă care simplifică procesul de extragere a textului din documentele Word în C#. Cu caracteristicile sale extinse și API-ul prietenos cu utilizatorul, puteți lucra eficient cu documentele Word și puteți automatiza diferite scenarii de extragere a textului. Fie că vă dezvoltați aplicații care necesită procesarea documentelor Word sau pur și simplu extragerea textului, Aspose.Words pentru .NET este un instrument esențial pentru dezvoltatori.
Pentru a explora mai multe caracteristici ale Aspose.Words pentru .NET, verificați DocumentareDacă aveți întrebări, simțiți-vă liber să ajungeți prin intermediul nostru Forumul.
Vezi și
Tip: S-ar putea să doriți să verificați Aspose PowerPoint pentru Word Convertor, care demonstrează procesul popular de convertire a prezentărilor în documente Word.
More in this category
- Convertați Word DOC/DOCX în PDF în C# .NET Aspose.Words' Document Converter Plugin
- Generați codul de frână în documentele Word (.NET, C#) și citiți codul de frână din Word (.NET)
- Extrageți imagini din documentele Word în procesarea automată a imaginii C#
- Raporturi automate cu C# Mail Merge, Aspose.Words' Mail Merge Plugin
- Găsiți și înlocuiți textul în documentele Word folosind C# Automat Word Editing