
Microsoft Word dokumenty sú štruktúra pre vytváranie a zdieľanie textového obsahu. Ak vyvíjate aplikácie C#, ktoré interagujú s týmito dokumentmi, možno budete musieť extrahovať text z nich. To by mohlo byť na účely, ako je analýza textu alebo extrakcia konkrétnych sekcií dokumentu zostaviť do nového#.
Tabuľka obsahu
- C# knižnica pre textové extrakcie
- Pochopenie textovej extrakcie v Word dokumentoch
- Krok za krokom návod na extrahovanie textu z dokumentu Word- Odstránenie textu medzi odsekmi
- Odstránenie textu medzi rôznymi typmi uzlín
- Text založený na štýloch
C# knižnica pre textové extrakcie
Aspose.Words pre .NET je silná a užívateľsky príjemná knižnica navrhnutá pre prácu s dokumentmi Word. Poskytuje komplexný súbor funkcií, vrátane textovej extrakcie, tvorby dokumentov, manipulácie a konverzie. S Aspose.Words pre .NET, vývojári môžu efektívne spravovať rôzne aspekty dokumentů Word, čím sa stáva neoceniteľným nástrojom pre vaše rozvojové potreby.
aby sme začali, Stiahnuť knižnicu alebo nainštalovať priamo z NuGet pomocou nasledujúceho príkazu v konzole manažéra balíkov:
PM> Install-Package Aspose.Words
Pochopenie textovej extrakcie v Word dokumentoch
Dokument MS Word obsahuje rôzne prvky, ako sú odseky, tabuľky a obrázky. Preto sa požiadavky na textové extrakcie môžu líšiť v závislosti od konkrétneho použitia.
Každý prvok v dokumente Word je reprezentovaný ako uzol. Preto, aby ste efektívne spracovali dokument, budete musieť pracovať s týmito uzolami. Pozrime sa, ako extrahovať text z dokumentov Word v rôznych scenároch.
Krok za krokom sprievodca na extrahovanie textu z dokumentu Word
V tejto časti implementujeme textový extraktor C# pre dokumenty Word. Pracovný tok pre textový extrakciu bude zahŕňať nasledujúce kroky:
- Definujte uzly, ktoré sa majú zahrnúť do procesu extrakcie.
- Odstráňte obsah medzi špecifikovanými uzlinami (vrátane alebo vylúčením počiatočných a koncových uzlin).
- Použite klonované extrahované uzly na vytvorenie nového dokumentu Word, ktorý obsahuje extrahovaný obsah.
Vytvoríme metódu s názvom ExtractContent, ktorá prijíma uzly a ďalšie parametre na vykonanie textovej extrakcie.Táto Metóda preruší dokument a klonuje uzoly na základe nasledujúcich parametrov:
StartNode a EndNote: Tieto definujú začiatočné a konce bodov pre extrakciu obsahu. Môžu byť blokové úrovne (napr. Paragraf, Tabuľka) alebo inline-level uzly (p. j., Run , FieldStarts alebo BookmarkStars).- Pre polia prejdite na príslušný objekt FieldStart.
Pre poznámky používajte tlačidlá BookmarkStart a BookmarkEnd.
Ak chcete komentovať, použite nôžky CommentRangeStart a Koment RangeEnd.
IsInclusive: Tento parameter určuje, či sú značky zahrnuté do extrakcie.Ak sú nastavené na falošné a sú uvedené rovnaké alebo následné uzly, vráti sa prázdny zoznam.
Tu je úplná implementácia metódy ExtractContent na extrahovanie obsahu medzi špecifikovanými uzlinami:
Okrem toho sa niektoré pomocné metódy vyžadujú metódou ExtractContent na uľahčenie práce na extrakciu textu:
Teraz, keď máme naše metódy pripravené, môžeme pokračovať v extrakcii textu z dokumentu Word.
Odstránenie textu medzi odsekmi slovného dokumentu {#Odstránenie textu medzi odsekmi}
Ak chcete extrahovať obsah medzi dvoma odsekmi v dokumente Word DOCX, postupujte podľa týchto krokov:
- Stiahnite dokument Word pomocou triedy Dokument.
- Získajte odkazy na začiatok a koniec odsekov pomocou metódy Document.FirstSection.Body.GetChild(NodeType.PARAGRAPH, int, boolean.
- Zavolajte metódu ExtractContent(startPara, end Para, True) na extrahovanie uzlín do objektu.
- Použite metódu GenerateDocument(Dokument, extractedNodes) na vytvorenie dokumentu s extrahovaným obsahom.
- Uložiť nový dokument pomocou metódy Document.Save(string.
Tu je vzorka kódu, ktorá ukazuje, ako extrahovať text medzi 7. a 11. odsekom v Wordovom dokumente:
Odstránenie textu medzi rôznymi typmi uzlov
Môžete tiež extrahovať obsah medzi rôznymi typmi uzlín. Napríklad, extrahujeme obsah medzi odsekom a tabuľkou a uložíme ho do nového dokumentu Word:
- Stiahnite dokument Word pomocou triedy Dokument.
- Získajte odkazy na začiatočné a končné uzly pomocou metódy Document.FirstSection.Body.GetChild(NodeType, int, boolean.
- Zavolajte ExtractContent(startPara, end Para, True) na extrahovanie uzlov do objektu.
- Použite metódu GenerateDocument(Dokument, extractedNodes) na vytvorenie dokumentu s extrahovaným obsahom.
- Uložiť nový dokument pomocou Document.Save(string).
Tu je vzorka kódu na extrahovanie textu medzi odsekom a tabuľkou v C#:
Vyrábať text založený na štýloch {#Vyrábať text medzi odsekmi založený na štýloch}
Ak chcete extrahovať obsah medzi odsekmi na základe štýlov, postupujte podľa týchto krokov. Pre túto demonštráciu extrahujeme obsah medzi prvým “Hlavou 1” a prvým “Hlavou 3” v Wordovom dokumente:
- Stiahnite dokument Word pomocou triedy Dokument.
- Odstráňte odseky do objektu pomocou metódy pomocníka ParagraphsByStyleName(Dokument, “Hlava 1.
- Odstráňte odseky do iného objektu pomocou ParagraphsByStyleName(Dokument, “Hlavný”).
- Zavolajte ExtractContent(startPara, end Para, True) s prvými prvkami z oboch odsekov.
- Použite metódu GenerateDocument(Dokument, extractedNodes) na vytvorenie dokumentu s extrahovaným obsahom.
- Uložiť nový dokument pomocou Document.Save(string).
Tu je vzorka kódu na extrahovanie obsahu medzi odsekmi na základe štýlov:
Prečítajte si viac o Text Extraction
Preskúmajte ďalšie scenáre na extrahovanie textu z dokumentov programu Word prostredníctvom Tento dokumentárny článok.
Získajte bezplatnú knižnicu textového extraktora {#Získajte bezplatnú licenciu API}
Môžete získať A bezplatná dočasná licencia Vyrábať text bez obmedzení hodnotenia.
Záver
Aspose.Words for .NET je všestranná knižnica, ktorá zjednodušuje proces extrakcie textu z Word dokumentov v C#. S jeho rozsiahlymi funkciami a užívateľsky priateľským API môžete efektívne pracovať s Word dokumentmi a automatizovať rôzne scenáre extrakcie textu. Či už vyvíjate aplikácie, ktoré vyžadujú spracovanie Word dokumentov alebo jednoducho extrakciu textu, Aspose.Words for .NET je nevyhnutným nástrojom pre vývojárov.
Ak chcete preskúmať ďalšie funkcie Aspose.Words pre .NET, skontrolujte dokumentácia. Ak máte akékoľvek otázky, cítite sa slobodne dostať sa cez naše Fórum.
Pozri tiež
Tip: Možno chcete skontrolovať Aspose PowerPoint na slovo Konvertor, ktorý preukazuje populárny proces konverzie prezentácií na Word dokumenty.
More in this category
- Konvertovať Word DOC/DOCX do PDF v C# .NET a Aspose.Words' Document Converter Plugin
- Vytvorte barový kód v dokumentoch programu Word (.NET, C#) a čítajte barový kód z programu Word (.NET)
- Extrakt obrázkov z Word dokumentov v C# Automatické spracovanie obrázkov
- Automatické správy s C# Mail Merge a Aspose.Words Mail Merge Plugin
- Nájsť a nahradiť text v Word dokumentoch pomocou C# Automatické úpravy slov