
Microsoft Word 文档是创建和共享文本内容的步骤. 如果您正在开发与这些文档互动的 C# 应用程序,您可能会发现自己需要从这些文档中提取文本。 这可能是用于文本分析或提取文档的特定部分,以编译到一个新的文档。
内容表
C# 文本提取图书馆 {# 文本提取文本从词文档}
ASPOSE.Words 为 .NET 它提供了一系列功能,包括文本提取,文档创建,操作和转换. 通过 Aspose.Words 为 .NET,开发人员可以有效地管理 Word 文件的各个方面,使其为您的开发需求提供无价值的工具。
要开始, 下载图书馆 或者直接从 NuGet 在包管理器控制台中使用下列命令:
PM> Install-Package Aspose.Words
理解文本提取在Word文档
MS Word 文档包含各种元素,如段落,表和图像. 因此,文本提取的要求可以根据特定使用案例有所不同. 您可能需要在段落,图标,评论等之间提取文本。
因此,要有效处理文档,您将需要使用这些节点,让我们来探索如何在不同的情况下从文档中提取文本。
步骤指南从Word文档中提取文本
在此部分中,我们将实施Word文档的C#文本提取器,文本提取工作流将包括以下步骤:
- 定义要在提取过程中包含的节点。
- 在指定的节点之间提取内容(包括或排除开始和结束节点)。
- 使用克隆提取的节点创建一个包含提取内容的新Word文档。
让我们创建一个名为 ExtractContent 的方法,它会接受节点和其他参数来执行文本提取。
StartNode 和 EndNode:这些定义了内容提取的起点和结束点,这些点可以是区块级(例如, 段, 表)或内线级节点(例如, Run, FieldStart, BookmarkStart)。- 对于字段,请输入相应的 FieldStart 对象。
对于图标,请使用 BookmarkStart 和 BookmarkEnd 节点。
对于评论,请使用 CommentRangeStart 和 CommentRangeEnd 节点。
IsInclusive: 此参数确定标记是否包含在提取中. 如果设置为虚假,并提供相同或连续的节点,则将返回一个空白列表。
以下是 ExtractContent 方法的完整实施,以便在指定的节点之间提取内容:
此外,通过 ExtractContent 方法需要一些辅助方法来促进文本提取操作:
现在我们已经准备好了我们的方法,我们可以继续从Word文档中提取文本。
文本文本文本文本文本文本文本文本文本文本文本文本
要在 Word DOCX 文档中提取两个段落之间的内容,请遵循以下步骤:
- 使用 文档 类下载 Word 文档。
- 使用 Document.FirstSection.Body.GetChild(NodeType.PARAGRAPH, int, boolean) 方法获取开始和结束段落的参考。
- 使用 ExtractContent(startPara、endPara、True) 方法将节点提取到一个对象中。
- 使用 GenerateDocument(Document, extractedNodes) 辅助方法来创建包含所提取内容的文档。
- 使用 Document.Save(string) 方法保存新文档。
下面是一个代码样本,表明如何在Word文档中提取第7至第11段之间的文本:
不同类型的节点之间的文本提取 {# 文本提取 - 不同类型的节点}
您也可以在不同类型的节点之间提取内容. 例如,让我们在段落和表之间提取内容并将其存储在一个新的 Word 文档中。
- 使用 文档 类下载 Word 文档。
- 使用 Document.FirstSection.Body.GetChild(NodeType, int, boolean) 方法获取开始和结束节点的参考。
- 呼叫 **ExtractContent(startPara,endPara,True)**将节点提取到一个对象中。
- 使用 GenerateDocument(Document, extractedNodes) 辅助方法来创建包含所提取内容的文档。
- 使用 Document.Save(string) 保存新文件。
下面是编码样本,以便在 C# 中的段落和表之间提取文本:
以风格为基础的文本提取 {# 以风格为基础的文本提取文本}
要在基于风格的段落之间提取内容,请遵循以下步骤. 为此示范,我们将在Word文档中的第一个“标题1”和第一个“标题3”之间提取内容:
- 使用 文档 类下载 Word 文档。
- 将段落提取到一个对象,使用 ParagraphsByStyleName(文档,“标题 1”) 辅助方法。
- 将段落提取到另一个对象,使用 ParagraphsByStyleName(文件,“标题”。
- 呼叫 ExtractContent(startPara,endPara,True) 与第一部分从两个段落的序列。
- 使用 GenerateDocument(Document, extractedNodes) 辅助方法来创建包含所提取内容的文档。
- 使用 Document.Save(string) 保存新文件。
下面是基于风格的段落之间的内容提取的代码样本:
阅读更多关于文本提取
探索通过 Word 文件提取文本的额外场景 此文档文章.
获取免费Word文本提取器图书馆
你可以得到一个 免费临时许可证 提取文本,没有评估限制。
结论
Aspose.Words for .NET 是一个多元化的图书馆,简化了从 Word 文档中提取文本的过程。 凭借其广泛的功能和用户友好的 API,您可以有效地使用 Word 文档,并自动化各种文本提取场景. 无论您正在开发需要 Word 文档处理的应用程序还是简单地提取文本的应用程序,Aspose.Words for .NET 是开发人员的重要工具。
要了解更多 Aspose.Words for .NET 的功能,请查看 人们在说什么如果您有任何疑问,请自由地通过我们的 论坛.
看也
提示: 您可能想查看 Aspose PowerPoint 到 Word 转换器,展示了将演示文稿转化为Word文档的流行过程。