
I documenti di Microsoft Word sono uno strumento per la creazione e la condivisione del contenuto testo. Se stai sviluppando applicazioni C# che interagiscono con questi docetti, potresti trovare la necessità di estrarre il testo da essi. Questo potrebbe essere per scopi come l’analisi del testo o la estrazione di sezioni specifiche di un documento per compilare in un nuovo.
Tabella dei contenuti
- C# Libreria per l’estrazione di testo
- Conoscere l’estrazione del testo nei documenti di Word
- Guida passo dopo passo per estrarre testo da un documento di Word- L’estratto di testo tra paragrafi
- Estratto di testo tra diversi tipi di nodi
- Testo di estrazione basato su stili
C# Biblioteca per l’estrazione di testo
Aspose.Words per .NET è una potente e user-friendly libreria progettata per lavorare con i documenti di Word. fornisce un’ampia gamma di funzionalità, tra cui l’estrazione di testo, la creazione di documento, manipolazione e conversione. con Aspose.Words per .NET, gli sviluppatori possono gestire in modo efficiente diversi aspetti del documento Word, rendendolo uno strumento inestimabile per le vostre esigenze di sviluppo.
per iniziare, Scarica la biblioteca o installare direttamente da NuGet Utilizzare il seguente comando nella console di gestione del pacchetto:
PM> Install-Package Aspose.Words
Conoscere l’estrazione del testo nei documenti di Word
Un documento MS Word comprende diversi elementi come paragrafi, tabelle e immagini. Di conseguenza, i requisiti per l’estrazione di testo possono variare in base al caso di utilizzo specifico. Potrebbe essere necessario estrarre il testo tra paragrafi, caratteri, commenti, e altro ancora.
Ogni elemento in un documento di Word è rappresentato come un nodo. Pertanto, per elaborare efficacemente un documento, dovrai lavorare con questi nodi.
Guida passo dopo passo per estrarre testo da un documento Word
In questa sezione implementeremo un estrattore di testo C# per i documenti Word. Il flusso di lavoro per l’estrazione di testo coinvolgerà i seguenti passaggi:
- Definisci i nodi da includere nel processo di estrazione.
- Extraggere il contenuto tra i nodi specificati (inclusi o esclusi i nodi di partenza e di fine).
- Utilizzare i nodi estratti clonati per creare un nuovo documento Word contenente il contenuto estratto.
Creiamo un metodo chiamato ExtractContent che accetterà i nodi e altri parametri per eseguire l’estrazione di testo.
StartNode e EndNode: questi definiscono i punti di partenza e di fine per l’estrazione di contenuti. possono essere a livello di blocco (ad esempio, Paragrafo, Tabella) o a livello inline (ad esempio, Run, FieldStart, BookmarkStart).- Per i campi, passare l’oggetto FieldStart corrispondente.
Per i bookmark, utilizzare i nodi BookmarkStart e BookmarkEnd.
Per i commenti, utilizzare i nodi CommentRangeStart e CommentRangeEnd.
IsInclusive: Questo parametro determina se i marcatori sono inclusi nell’estrazione.Se si impostano a falsi e vengono forniti gli stessi o consecutivi nodi, verrà restituito un elenco vuoto.
Ecco la completa attuazione del metodo ExtractContent per estrarre contenuti tra i nodi specificati:
Inoltre, alcuni metodi di aiuto sono richiesti dal metodo ExtractContent per facilitare il lavoro di estrazione del testo:
Ora che abbiamo i nostri metodi pronti, possiamo procedere ad estrarre il testo da un documento di Word.
Estratto di testo tra paragrafi di un documento di parola {#estratto di testo tra paragrafi}
Per estrarre contenuti tra due paragrafi in un documento Word DOCX, seguire questi passaggi:
- Scarica il documento Word utilizzando la classe Documento.
- Ricevi i riferimenti ai paragrafi di inizio e di fine utilizzando il metodo Document.FirstSection.Body.GetChild(NodeType.PARAGRAPH, int, boolean).
- Chiama il metodo ExtractContent(startPara, endPara, True) per estrarre i nodi in un oggetto.
- Utilizzare il metodo di assistenza GenerateDocument(Document, extractedNodes) per creare un documento con il contenuto estratto.
- Salva il nuovo documento utilizzando il metodo Document.Save(string).
Ecco un campione di codice che dimostra come estrarre il testo tra i paragrafi 7 e 11 in un documento Word:
Estratto di testo tra diversi tipi di nodi
Puoi anche estrarre il contenuto tra diversi tipi di nodi. ad esempio, extraiamo il contenuto tra un paragrafo e una tabella e lo salviamo in un nuovo documento Word.
- Scarica il documento Word utilizzando la classe Documento.
- Ricevi i riferimenti ai nodi di inizio e di fine utilizzando il metodo Document.FirstSection.Body.GetChild(NodeType, int, boolean).
- Chiama ExtractContent(startPara, endPara, True) per estrarre i nodi in un oggetto.
- Utilizzare il metodo di assistenza GenerateDocument(Document, extractedNodes) per creare un documento con il contenuto estratto.
- Salva il nuovo documento utilizzando Document.Save(string).
Ecco il campione di codice per l’estrazione del testo tra un paragrafo e una tabella in C#:
Extracting Text Based on Styles
Per estrarre contenuti tra paragrafi basati su stili, seguire questi passaggi.Per questa dimostrazione, estraremo contenuti tra il primo “Titolo 1” e il primo “Titolo 3” nel documento Word:
- Scarica il documento Word utilizzando la classe Documento.
- Estratto dei paragrafi in un oggetto utilizzando il metodo di aiuto ParagraphsByStyleName(Documento, “Titolo 1”).
- Extract paragrafi in un altro oggetto utilizzando ParagraphsByStyleName(Documento, “Titolo”).
- Chiama ExtractContent(startPara, endPara, True) con i primi elementi di entrambi i paragrafi.
- Utilizzare il metodo di assistenza GenerateDocument(Document, extractedNodes) per creare un documento con il contenuto estratto.
- Salva il nuovo documento utilizzando Document.Save(string).
Ecco un campione di codice per estrarre contenuti tra paragrafi basati su stili:
Leggi di più sull’estrazione del testo
Scopri scenari aggiuntivi per l’estrazione di testo dai documenti Word attraverso Questo articolo di documentazione.
Ottieni una Libreria di Estrattori di testo di Word
Puoi ottenere un Licenza temporanea gratuita per estrarre il testo senza limitazioni di valutazione.
conclusione
Aspose.Words per .NET è una biblioteca versatile che semplifica il processo di estrazione di testo da documenti di Word in C#. Con le sue ampie funzionalità e API user-friendly, è possibile lavorare in modo efficiente con documenti di Word e automatizzare vari scenari di estrazione di testo. Che si sviluppa applicazioni che richiedono il trattamento di documenti di Word o semplicemente estrazione di testo, Aspose.Words per .NET è uno strumento essenziale per gli sviluppatori.
Per esplorare ulteriori caratteristiche di Aspose.Words per .NET, verifica il DocumentazioneSe avete domande, siate liberi di raggiungere attraverso il nostro Il forum.
Vedi anche
Tip: Potresti voler controllare il Aspose PowerPoint per la parola Converter, che dimostra il processo popolare di convertire le presentazioni in documenti Word.
More in this category
- Convertire Word DOC/DOCX in PDF in C# .NET Aspose.Words' Document Converter Plugin
- Genera codice a barre in documenti Word (.NET, C#) | Leggi codice a barre da Word (.NET)
- Extract Immagini da Documenti di Word in C# Automatic Image Processing
- Rapporti automatizzati con C# Mail Merge, Aspose.Words' Mail Merge Plugin
- Trovare e sostituire il testo nei documenti di Word utilizzando C# Automatic Word Editing