
从 PDF 文件中提取文本是文档处理任务中常见的要求. 本文提供了一个关于使用 Aspose.PDF 的文本提取器插件 的深入指南,以便在 C# 中有效和多元化文本提取文本。 无论您需要从整个文档、特定页面或定义区域提取文本,Aspose 插件都会以最小的努力促进高性能的 PDF 文本提取.
Aspose.PDF的文本提取器插件的关键特点
Aspose.PDF的文本提取器插件的概述
Aspose.PDF的文本提取器插件为 .NET 是从 PDF 文档中提取文本的坚实解决方案,专为与 .NET 应用程序合作的开发人员设计,支持 .NET Framework 和 .NET Core 为 PDF 文本提取:
- Pure Mode:在保持原始格式和结构时提取文本.
- Raw 模式:提取文本,没有任何格式化.
- Plain Mode:提取文本并删除所有格式和特殊字符.
使用 Aspose.PDF 的好处
- Batch Processing:同时处理多个PDF文件.
- 可自定义设置: 调整提取设置以适应您的具体需求.
- Seamless Integration:直接与 .NET 应用程序集成,以便顺利工作流.
- 高速性能:优化为快速、准确的文本提取,最少的资源消耗.
开始使用 C# PDF 文本提取
是的 ASPOSE.PDF 为 .NET 图书馆是 .NET 开发人员寻找高性能 C# PDF Extract 解决方案的全面工具,您可以通过 NuGet 轻松安装:
PM> Install-Package Aspose.PDF
否则,你可以 下载DLL 将其直接集成到您的项目中,提供可靠的 C# PDF to Text 解决方案.
从一个完整的PDF中提取文本在C#
要从 PDF 中提取所有文本,请遵循以下步骤:
- 使用 PDF 加载 文件 班级.
- 创建 A TextAbsorber 对象.
- 将吸收器应用到所有页面.
- 将提取的文本保存到文件中.
例子代码
从特定页面提取文本到PDF
要使用 C# 从单页中提取文本,请遵循以下步骤:
- 下载PDF.
- 创建 A TextAbsorber.
- 将吸收器应用到所需页面.
- 保存提取的文本.
例子代码
从特定区域提取文本 PDF
要从页面的特定区域提取文本,要定义直角坐标,请遵循以下步骤:
- 下载PDF.
- 设置 TextSearchOptions 定义区域.
- 應用 The TextAbsorber 到该地区.
- 保存提取的文本.
例子代码
使用 Regex 搜索和提取文本}
提取符合特定模式的文本,使用常规表达式:
- 下载PDF.
- 设置一个 regex 模式.
- 使用模式的应用 TextAbsorber.
- 提取相匹配的文本片段.
例子代码
在 C# 中提取表数据作为文本
要从表中提取内容,请使用以下步骤:
- 下载PDF.
- 使用 TableAbsorber 通过桌面结构导航.
- 按细胞提取文本细胞.
例子代码
在 PDF 中提取突出文本
提取突出文本:
- 通过笔记.
- 过滤器 TextMarkupAnnotation.
- 恢复和保存突出碎片.
例子代码
优化文本提取与低内存使用
一)使用 **** 和 ****:
- 呼叫
absorber.Reset()
处理每个页面后. - 使用页面保留的免费记忆
page.FreeMemory()
.
二)使用 MemorySaving 时尚:
设置 TextExtractionOptions.TextFormattingMode
在 PDF 文本提取过程中优化内存使用.
例子代码
免费 C# PDF 文本提取图书馆
得到A 免费临时许可证 为 .NET 提供无限访问 Aspose.PDF 并为有效的 C# PDF 文本提取 解决方案开启其全部潜力. 您还可以探索如 C# 转换 PDF 为 文字 的选项,以及 阅读 PDF 从 PDF 为自定义的解決方案,包括 < C # 从 PDF 抽出文本来.
结论
Aspose.PDF的文本提取器插件为 .NET 提供了一个多元化和高效的解决方案,可靠的文件提交任务. 从从整个文档到特定页面或地区提到文本来,它以精确性和速度简化过程. 这使得它是最好的 C# PDF 提集文 图书馆之一!