
Microsoft Word-documenten zijn een stapel voor het creëren en delen van tekstinhoud. Als u C#-toepassingen ontwikkelt die met deze documenten interageren, kunt u zichzelf vinden dat u tekst van hen moet extraheren. Dit zou kunnen zijn voor doeleinden zoals tekstanalyse of het extraheren van specifieke secties van een document om in een nieuw te compileren. In deze blog post, zullen we de methoden voor het extraheren van tekst uit Word-documenten in C#.
Tabel van inhoud
- C# Bibliotheek voor tekstextractie
- Begrijp tekstextractie in Word-documenten
- Step-by-step gids voor het extraheren van tekst uit een Word-document- De tekst tussen de paragrafen
- Het extraheren van tekst tussen verschillende soorten noden
- Extracting tekst op basis van stijlen
C# Bibliotheek voor Text Extraction
Aspose.Words voor .NET is een krachtige en gebruiksvriendelijke bibliotheek ontworpen om te werken met Word-documenten. Het biedt een uitgebreid set van functies, waaronder tekstextractie, document creatie, manipulatie en conversie. Met Aspose.Words voor .NET, ontwikkelaars kunnen efficiënt beheren verschillende aspecten van Word documenten, waardoor het een waardevol gereedschap voor uw ontwikkeling behoeften.
Om te beginnen, Download de bibliotheek of het rechtstreeks van NuGet Gebruik de volgende commando’s in de package manager console:
PM> Install-Package Aspose.Words
Begrijpen Text Extraction in Word Documents
Een MS Word-document bestaat uit verschillende elementen zoals paragraaf, tabellen en afbeeldingen.Daarom kunnen de vereisten voor tekstextractie verschillen op basis van de specifieke gebruikssituatie.
Elk element in een Word-document wordt vertegenwoordigd als een knooppunt.Daarom moet u met deze knooppunten werken om een document effectief te verwerken.
Step-by-step gids voor het extraheren van tekst uit een Word Document
In dit gedeelte implementeren we een C#-tekstextractor voor Word-documenten.De werkstromen voor tekstextractie omvatten de volgende stappen:
- Definieer de noden die moeten worden opgenomen in het extractieproces.
- Extract de inhoud tussen de aangegeven knooppunten (inclusief of uitsluiten de start- en eind knooppunten).
- Gebruik de gecloneerde gecontroleerde knooppunten om een nieuw Word-document te maken dat de gecontroleerde inhoud bevat.
Laten we een methode creëren met de naam ExtractContent die knooppunten en andere parameters accepteert om de tekstextractie uit te voeren.
StartNode en EndNote: Deze definieert de start- en eindpunten voor contentextractie. ze kunnen blokniveaus zijn (bijvoorbeeld Paragraf, Tabel) of inline-level nodes (bv. Run , FieldStard of BookmarkStand).- Voor velden, ga dan naar het overeenkomstige FieldStart object.
Voor bookmarks, gebruik de knoppen BookmarkStart en BookmarkEnd.
Voor commentaar gebruiken we de knoppen CommentRangeStart en ContactRangend.
IsInclusive: Deze parameter bepaalt of de markeringen zijn opgenomen in de extractie.Als ze op vals worden ingesteld en dezelfde of opeenvolgende knooppunten worden verstrekt, wordt een leeg lijst teruggestuurd.
Hier is de volledige implementatie van de ExtractContent methode om inhoud te extraheren tussen de aangegeven knooppunten:
Bovendien zijn sommige helpermethoden vereist door de ExtractContent-methode om de tekstextractie te vergemakkelijken:
Nu we onze methoden klaar hebben, kunnen we verder met het extraheren van tekst uit een Word-document.
Het extraheren van tekst tussen paragrafen van een woorddocument
Om inhoud te extraheren tussen twee paragrafen in een Word DOCX-document, volg deze stappen:
- Download het Word-document met behulp van de Document klasse.
- Verwijder naar de start- en eindparagrafen met behulp van de Document.FirstSection.Body.GetChild(NodeType.PARAGRAPH, int, boolean) methode.
- Bel de ExtractContent(startPara, endPara en True) methode om de knooppunten in een object te extraheren.
- Gebruik de GenerateDokument(Document, extractedNodes) helpermethode om een document te maken met de extraeerde inhoud.
- Speel het nieuwe document met behulp van de Document.Save(string)-methode.
Hier is een codemonster dat laat zien hoe je tekst tussen de 7e en 11e paragraaf in een Word-document kunt extraheren:
Het extraheren van tekst tussen verschillende soorten noden
U kunt ook inhoud extraheren tussen verschillende soorten knooppunten. bijvoorbeeld, laten we inhoud extraheren tussen een paragraaf en een tabel en het opslaan in een nieuw Word-document.
- Download het Word-document met behulp van de Document klasse.
- Verwijder naar de start- en eindknoten met behulp van de Document.FirstSection.Body.GetChild(NodeType, int, boolean) methode.
- Bel ExtractContent(startPara, end Para, True) om de knooppunten in een object te extraheren.
- Gebruik de GenerateDokument(Document, extractedNodes) helpermethode om een document te maken met de extraeerde inhoud.
- Speel het nieuwe document met behulp van Document.Save(string).
Hier is de code voor het extraheren van tekst tussen een paragraaf en een tabel in C#:
Extracting tekst gebaseerd op stijlen
Om inhoud te extraheren tussen paragraafs op basis van stijlen, volg deze stappen.Voor deze demonstratie, zullen we inhoud extraheren tussen de eerste “Head 1” en de eerste “Head 3” in het Word-document:
- Download het Word-document met behulp van de Document klasse.
- Extract paragraaf in een object met behulp van de hulpmethode ParagraphsByStyleName(Document, “Heading 1”).
- Extract paragraaf in een ander object met behulp van ParagraphsByStyleName(Document, “Heading 3].
- Bel ExtractContent(startPara, endPara en True) met de eerste elementen van beide paragrafen.
- Gebruik de GenerateDokument(Document, extractedNodes) helpermethode om een document te maken met de extraeerde inhoud.
- Speel het nieuwe document met behulp van Document.Save(string).
Hier is een code voor het extraheren van inhoud tussen paragraafs op basis van stijlen:
Lees meer over Text Extraction
Ontdek extra scenario’s voor het extraheren van tekst uit Word-documenten door middel van Dit documentatie artikel.
Krijg een gratis Word Text Extractor Library
U kunt een Gratis tijdelijke licentie om tekst te extraheren zonder beoordelingsbeperkingen.
Conclusie
Aspose.Words voor .NET is een veelzijdige bibliotheek die het proces van het extraheren van tekst uit Word-documenten in C# vergemakkelijkt.Met zijn uitgebreide functies en gebruiksvriendelijke API kunt u efficiënt werken met Word-documenten en verschillende tekst-extractie scenario’s automatiseren.Als u toepassingen ontwikkelt die Word-documenten verwerken of gewoon tekst extraheren, is Aspose.Words voor .NET een essentiële tool voor ontwikkelaars.
Om meer functies van Aspose.Words voor .NET te verkennen, kijk dan naar de DocumentatieAls u vragen hebt, voel u zich vrij om het te bereiken via onze Forum.
Zie ook
Tip: U wilt misschien de Aspose bekijken PowerPoint naar Word Converter, die het populaire proces van het omzetten van presentaties naar Word-documenten toont.
More in this category
- Word DOC/DOCX converteren naar PDF in C# .NET Aspose.Words' Document Converter Plugin
- Barcode genereren in Word-documenten (.NET, C#) en Barcode lezen van Word (.NET)
- Extract beelden uit Worddocumenten in C# Automate Image Processing
- Automatische berichten met C# Mail Merge, Aspose.Words' Mail Merge Plugin
- Vind en vervang tekst in Word-documenten met behulp van C# Automate Word Editing