
Els documents de Microsoft Word són una taula per crear i compartir contingut textual. Si vostè està desenvolupant aplicacions C# que interactuen amb aquests documents, vostè pot trobar-se necessitat d’extreure text d’ells. Això podria ser per a finalitats com l’anàlisi de text o l’extracció de seccions específiques d’un document per compilar en un nou#.
Taula de continguts
- C# Biblioteca per a l’extracció de text
- Comprendre l’extracció de text en els documents de Word
- Guia de pas a pas per extreure text d’un document de Word- Extracció de text entre paràgrafs
- Extracció de text entre diferents tipus de nuclis
- Extracció de text basada en estils
C# Biblioteca per a l’extracció de text
Aspose.Words per a .NET És una biblioteca poderosa i amable per a l’usuari dissenyada per treballar amb els documents de Word. proporciona un conjunt complet de característiques, incloent extracció de text, creació del document, manipulació i conversió. Amb Aspose.Words per .NET, els desenvolupadors poden gestionar eficaçment diversos aspectes dels documents del Word, la qual cosa fa que sigui una eina inestimable para les seves necessitats de desenvolupament.
per començar, Descarrega la biblioteca o instal·lar-lo directament des de NuGet Utilitzar el següent comandament en la consola de gestió de paquets:
PM> Install-Package Aspose.Words
Comprendre l’extracció de text en els documents de Word
Un document MS Word inclou diversos elements com ara paràgrafs, taules i imatges. Per tant, els requisits per a l’extracció de text poden diferir en funció del cas d’ús específic. Potser cal extreure text entre paràgrafs, notes, comentaris, i més.
Cada element d’un document de Word es representa com un nucli. Per tant, per processar eficaçment un document, hauràs de treballar amb aquests nuclis. Explorarem com extreure text dels documents de Word en diferents escenaris.
Guia de pas a pas per extreure text d’un document de paraula
En aquesta secció, implementarem un extractor de text C# per a documents de Word. El flux de treball per a l’extracció de text implicarà els següents passos:
- Defineix els nodes a incloure en el procés d’extracci.
- Extreure el contingut entre els nodes especificats (incloent o exclosos els nodes d’inici i final).
- Utilitzeu els nodes extraïts clonats per crear un nou document de Word que conté el contingut extraït.
Creem un mètode anomenat ExtractContent que acceptarà nodes i altres paràmetres per realitzar l’extracció de text.
StartNode i EndNote: Aquests defineixen els punts d’inici i final per a l’extracció de continguts. poden ser nivells de bloc (per exemple, Paràgraf, Table) o nuclis de nivell inline (p. ex., Run , FieldStarts o BookmarkStars).- Per a camps, passa l’objecte FieldStart corresponent.
Per a les notes, utilitzeu els nodes BookmarkStart i BookmarkEnd.
Per a comentaris, utilitzeu els nuclis CommentRangeStart i Considerar RangeEnd.
IsInclusive: Aquest paràmetre determina si els marcadors estan inclosos en l’extracció. Si s’estableix a fals i es proporcionen els mateixos o consecutius nodes, es retornarà una llista buida.
Aquí teniu la implementació completa del mètode ExtractContent per a l’extracció de contingut entre els nodes especificats:
A més, alguns mètodes d’ajuda es requereixen pel mètode ExtractContent per facilitar el funcionament de l’extracció de text:
Ara que tenim els nostres mètodes preparats, podem continuar a extreure text d’un document de Word.
Extracció de text entre paràgrafs d’un document de paraula {#extracció de text entre paràgrafs}
Per extreure contingut entre dos paràgrafs en un document Word DOCX, segueix aquests passos:
- Carregar el document Word utilitzant la classe Document.
- Obtenir referències als paràgrafs d’inici i finalització utilitzant el mètode Document.FirstSection.Body.GetChild(NodeType.PARAGRAPH, int, boolean).
- Anomenem el mètode ExtractContent(startPara, end Para, True) per extreure els nodes a un objecte.
- Utilitzeu el mètode d’ajuda GenerateDocument(document, extractatNodes) per crear un document amb el contingut extraït.
- Salva el nou document utilitzant el mètode Document.Save(string).
Aquí teniu una mostra de codi que demostra com extreure text entre els paràgrafs 7 i 11 en un document de Word:
Extracció de text entre diferents tipus de nodes
També podeu extreure contingut entre diferents tipus de nodes. Per exemple, extreureu el contingut entre un paràgraf i una taula i guardar-lo en un nou document de Word:
- Carregar el document Word utilitzant la classe Document.
- Obtenir referències als nodes de començament i finalització utilitzant el mètode Document.FirstSection.Body.GetChild(NodeType, int, boolean).
- Calla ExtractContent(startPara, endPara i True) per extreure els nodes a un objecte.
- Utilitzeu el mètode d’ajuda GenerateDocument(document, extractatNodes) per crear un document amb el contingut extraït.
- Salva el nou document utilitzant Document.Save(string).
Aquí teniu la mostra de codi per a l’extracció de text entre un paràgraf i una taula en C#:
Extracció de text basat en estils {#extracció de text entre paràgrafs basat en estils}
Per extraure contingut entre paràgrafs basats en estils, segueix aquests passos.Per a aquesta demostració, extraurem contingut entre el primer “Títol 1” i el primer “Títol 3” en el document de la paraula:
- Carregar el document Word utilitzant la classe Document.
- Extreure els paràgrafs a un objecte utilitzant el mètode d’ajuda ParagraphsByStyleName(Document, “Títol 1”).
- Extreure els paràgrafs a un altre objecte utilitzant ParagraphsByStyleName(Document, “Heading 3].
- Calla ExtractContent(startPara, end Para, True) amb els primers elements de les arrels dels dos paràgrafs.
- Utilitzeu el mètode d’ajuda GenerateDocument(document, extractatNodes) per crear un document amb el contingut extraït.
- Salva el nou document utilitzant Document.Save(string).
Aquí teniu una mostra de codi per extreure continguts entre paràgrafs basats en estils:
Llegeix més sobre Extracció de text
Explorar escenaris addicionals per a l’extracció de text dels documents de Word a través Aquest article documentació.
Obtenir una lliure biblioteca d’extractors de text de paraules
Es pot obtenir una Llicència temporal gratuïta per a l’extracció de text sense limitacions d’avaluació.
Conclusió
Aspose.Words per .NET és una biblioteca versàtil que simplifica el procés d’extracció de text de documents de Word en C#. Amb les seves àmplies característiques i API amable per a l’usuari, pot treballar eficientment amb documents de Word i automatitzar diversos escenaris d’extracció de text. Si vostè està desenvolupant aplicacions que requereixen el tractament de documents de Word o simplement extracció de text, Aspose.Words per .NET és una eina essencial per als desenvolupadors.
Per explorar més característiques d’Aspose.Words per a .NET, comprova el Documentació. Si teniu qualsevol pregunta, senteu-vos lliures d’arribar a través del nostre El fòrum.
Veure també
- Crear documents de Word en C# sense MS Office
- Generar documents de Word a partir de temples en C# .NET
Tip: Potser voleu comprovar l’Aspose PowerPoint a la paraula Converter, que demostra el procés popular de convertir les presentacions en documents de Word.
More in this category
- Convertir Word DOC/DOCX a PDF en C# .NET Aspose.Words' Document Converter Plugin
- Generar codi de barra en els documents de Word (.NET, C#) i llegir codi de barra de Word (.NET)
- Extracció d'imatges de Documents de Word en C# Processament d'imatges automàtics
- Reports automàtics amb C# Mail Merge, Aspose.Words' Mail Merge Plugin
- Troba i reemplaça el text en els documents de Word utilitzant l'editació automàtica de C#