Extracció de text de Word Documents en C# | File Format Processing Plugins for C# .NET Core

Extract Text from MS Word Documents in C#

Els documents de Microsoft Word són una taula per crear i compartir continguts textuals. Si vostè està desenvolupant aplicacions C# que interactuen amb aquests documents, pot trobar-se necessària per extreure text d’ells. Això podria ser per a finalitats com l’anàlisi de text o extraure seccions específiques de un document per compilar en un nou#.

Taula de continguts

C# Biblioteca per a l’extracció de text

Aspose.Words per a .NET És una biblioteca poderosa i amable per a l’usuari dissenyada per treballar amb els documents de Word. proporciona un conjunt complet de característiques, incloent extracció de text, creació del document, manipulació i conversió. Amb Aspose.Words per .NET, els desenvolupadors poden gestionar eficaçment diversos aspectes dels documents del Word, la qual cosa fa que sigui una eina inestimable para les seves necessitats de desenvolupament.

per començar, Descarrega la biblioteca o instal·lar-lo directament des de NuGet Utilitzar el següent comandament en la consola de gestió de paquets:

PM> Install-Package Aspose.Words

Comprendre l’extracció de text en els documents de Word

Un document MS Word inclou diversos elements com ara paràgrafs, taules i imatges. Per tant, els requisits per a l’extracció de text poden diferir en funció del cas d’ús específic. Potser cal extreure text entre paràgrafs, notes, comentaris, i més.

Cada element d’un document de Word es representa com un nucli. Per tant, per processar eficaçment un document, hauràs de treballar amb aquests nuclis. Explorarem com extreure text dels documents de Word en diferents escenaris.

Guia de pas a pas per extreure text d’un document de paraula

En aquesta secció, implementarem un extractor de text C# per a documents de Word. El flux de treball per a l’extracció de text implicarà els següents passos:

Defineix els nodes a incloure en el procés d’extracci.
Extreure el contingut entre els nodes especificats (incloent o exclosos els nodes d’inici i final).
Utilitzeu els nodes extraïts clonats per crear un nou document de Word que conté el contingut extraït.

Creem un mètode anomenat ExtractContent que acceptarà nodes i altres paràmetres per realitzar l’extracció de text:

StartNode i EndNote: Aquests defineixen els punts d’inici i final per a l’extracció de continguts. poden ser nivells de bloc (per exemple, Paràgraf, Table) o nuclis de nivell inline (p. ex., Run , FieldStarts o BookmarkStars).- Per a camps, passa l’objecte FieldStart corresponent.
Per a les notes, utilitzeu els nodes BookmarkStart i BookmarkEnd.
Per a comentaris, utilitzeu els nuclis CommentRangeStart i Considerar RangeEnd.
IsInclusive: Aquest paràmetre determina si els marcadors estan inclosos en l’extracció. Si s’estableix a fals i es proporcionen els mateixos o consecutius nodes, es retornarà una llista buida.

Aquí teniu la implementació completa del mètode ExtractContent per a l’extracció de contingut entre els nodes especificats:

A més, alguns mètodes d’ajuda es requereixen pel mètode ExtractContent per facilitar el funcionament de l’extracció de text:

Ara que tenim els nostres mètodes preparats, podem continuar a extreure text d’un document de Word.

Extracció de text entre paràgrafs d’un document de paraula {#extracció de text entre paràgrafs}

Per extreure contingut entre dos paràgrafs en un document Word DOCX, segueix aquests passos:

Carregar el document Word utilitzant la classe Document.
Obtenir referències als paràgrafs d’inici i finalització utilitzant el mètode Document.FirstSection.Body.GetChild(NodeType.PARAGRAPH, int, boolean.
Anomenem el mètode ExtractContent(startPara, end Para, True) per extreure els nodes a un objecte.
Utilitzeu el mètode d’ajuda GenerateDocument(document, extractatNodes) per crear un document amb el contingut extraït.
Salva el nou document utilitzant el mètode Document.Save(string.

Aquí teniu una mostra de codi que demostra com extreure text entre els paràgrafs 7 i 11 en un document de Word:

Extracció de text entre diferents tipus de nodes

També podeu extreure contingut entre diferents tipus de nodes. Per exemple, extreureu el contingut entre un paràgraf i una taula i guardar-lo en un nou document de Word:

Carregar el document Word utilitzant la classe Document.
Obtenir referències als nodes de començament i finalització utilitzant el mètode Document.FirstSection.Body.GetChild(NodeType, int, boolean.
Calla ExtractContent(startPara, endPara i True) per extreure els nodes a un objecte.
Utilitzeu el mètode d’ajuda GenerateDocument(document, extractatNodes) per crear un document amb el contingut extraït.
Salva el nou document utilitzant Document.Save(string).

Aquí teniu la mostra de codi per a l’extracció de text entre un paràgraf i una taula en C#:

Extracció de text basat en estils {#extracció de text entre paràgrafs basat en estils}

Per extraure contingut entre paràgrafs basats en estils, segueix aquests passos.Per a aquesta demostració, extraurem contingut entre el primer “Títol 1” i el primer “Títol 3” en el document de la paraula:

Carregar el document Word utilitzant la classe Document.
Extreure els paràgrafs a un objecte utilitzant el mètode d’ajuda ParagraphsByStyleName(Document, “Títol 1.
Extreure els paràgrafs a un altre objecte utilitzant ParagraphsByStyleName(Document, “Heading 3”).
Calla ExtractContent(startPara, end Para, True) amb els primers elements de les arrels dels dos paràgrafs.
Utilitzeu el mètode d’ajuda GenerateDocument(document, extractatNodes) per crear un document amb el contingut extraït.
Salva el nou document utilitzant Document.Save(string).

Aquí teniu una mostra de codi per extreure continguts entre paràgrafs basats en estils:

Llegeix més sobre Extracció de text

Explorar escenaris addicionals per a l’extracció de text dels documents de Word a través Aquest article documentació.

Obtenir una lliure biblioteca d’extractors de text de paraules

Es pot obtenir una Llicència temporal gratuïta per a l’extracció de text sense limitacions d’avaluació.

Conclusió

Aspose.Words per .NET és una biblioteca versàtil que simplifica el procés d’extracció de text de documents de Word en C#. Amb les seves àmplies característiques i API amable per a l’usuari, pot treballar eficientment amb documents de Word i automatitzar diversos escenaris d’extracció de text. Si vostè està desenvolupant aplicacions que requereixen el tractament de documents de Word o simplement extracció de text, Aspose.Words per .NET és una eina essencial per als desenvolupadors.

Per explorar més característiques d’Aspose.Words per a .NET, comprova el Documentació. Si teniu qualsevol pregunta, senteu-vos lliures d’arribar a través del nostre El fòrum.

Veure també

Tip: Potser voleu comprovar l’Aspose PowerPoint a la paraula Converter, que demostra el procés popular de convertir les presentacions en documents de Word.

Taula de continguts#

C# Biblioteca per a l’extracció de text#

Comprendre l’extracció de text en els documents de Word#

Guia de pas a pas per extreure text d’un document de paraula#

Extracció de text entre paràgrafs d’un document de paraula {#extracció de text entre paràgrafs}#

Extracció de text entre diferents tipus de nodes#

Extracció de text basat en estils {#extracció de text entre paràgrafs basat en estils}#

Llegeix més sobre Extracció de text#

Obtenir una lliure biblioteca d’extractors de text de paraules#

Conclusió#

Veure també#

More in this category