Extract Text from PDF C#

从 PDF 文件中提取文本是文档处理任务中常见的要求. 本文提供了一个关于使用 Aspose.PDF 的文本提取器插件 的深入指南,以便在 C# 中有效和多元化文本提取文本。 无论您需要从整个文档、特定页面或定义区域提取文本,Aspose 插件都会以最小的努力促进高性能的 PDF 文本提取。

Aspose.PDF的文本提取器插件的关键特点

Aspose.PDF的文本提取器插件的概述

Aspose.PDF的文本提取器插件为 .NET 是从 PDF 文档中提取文本的坚实解决方案,专为与 .NET 应用程序合作的开发人员设计,支持 .NET Framework 和 .NET Core 为 PDF 文本提取。

  • Pure Mode:在保持原始格式和结构时提取文本。
  • Raw 模式:提取文本,没有任何格式化。
  • Plain Mode:提取文本并删除所有格式和特殊字符。

使用 Aspose.PDF 的好处

  • Batch Processing:同时处理多个PDF文件。
  • 可自定义设置: 调整提取设置以适应您的具体需求。
  • Seamless Integration:直接与 .NET 应用程序集成,以便顺利工作流。
  • 高速性能:优化为快速、准确的文本提取,最少的资源消耗。

开始使用 C# PDF 文本提取

是的 ASPOSE.PDF 为 .NET 图书馆是 .NET 开发人员寻找高性能 C# PDF Extract 解决方案的全面工具,您可以通过 NuGet 轻松安装:

PM> Install-Package Aspose.PDF

否则,你可以 下载DLL 将其直接集成到您的项目中,提供可靠的 C# PDF to Text 解决方案。

从一个完整的PDF中提取文本在C#

要从 PDF 中提取所有文本,请遵循以下步骤:

  • 使用 PDF 加载 文件 班级。
  • 创建 A 文本吸收器 对象。
  • 将吸收器应用到所有页面。
  • 将提取的文本保存到文件中。

例子代码

从特定页面提取文本到PDF

要使用 C# 从单页中提取文本,请遵循以下步骤:

  • 下载PDF。
  • 创建 A 文本吸收器.
  • 将吸收器应用到所需页面。
  • 保存提取的文本。

例子代码

从特定区域提取文本 PDF

要从页面的特定区域提取文本,要定义直角坐标,请遵循以下步骤:

例子代码

使用 Regex 搜索和提取文本

提取符合特定模式的文本,使用常规表达式:

  • 下载PDF。
  • 设置一个 regex 模式。
  • 使用模式的应用 文本吸收器.
  • 提取相匹配的文本片段。

例子代码

在 C# 中提取表数据作为文本

要从表中提取内容,请使用以下步骤:

  • 下载PDF。
  • 使用 桌面吸收器 通过桌面结构导航。
  • 按细胞提取文本细胞。

例子代码

在 PDF 中提取突出文本

提取突出文本:

  • 通过笔记。
  • 过滤器 文本 标签.
  • 恢复和保存突出碎片。

例子代码

优化文本提取与低内存使用

(一)使用 **** 和 ****:

  • 呼叫 absorber.Reset() 处理每个页面后
  • 使用页面保留的免费记忆 page.FreeMemory().

(二)使用 记忆 时尚:

设置 TextExtractionOptions.TextFormattingMode 在 PDF 文本提取过程中优化内存使用。

例子代码

免费 C# PDF 文本提取图书馆

得到A 免费临时许可证 为 .NET 提供无限访问 Aspose.PDF 并为有效的 C# PDF 文本提取 解决方案开启其全部潜力. 您还可以探索如 ** C# 转换 PDF 为 文字** 的选项,以及 ** 阅读 PDF 从 PDF** 为自定义的解決方案,包括 ** < C # 从 PDF * 抽出文本来** 。

结论

Aspose.PDF的文本提取器插件为 .NET 提供了一个多元化和高效的解决方案,可靠的文件提交任务. 从从整个文档到特定页面或地区提到文本来,它以精确性和速度简化过程. 这使得它是最好的 C# PDF 提集文 图书馆之一。

More in this category