从PDF中提取文本C#

从PDF文件中提取文本是文档处理任务中的一个常见需求。本文提供了关于如何使用Aspose.PDF的文本提取插件在C#中高效且多功能地提取文本的深入指南。无论您需要从整个文档、特定页面还是定义区域中提取文本,Aspose插件都能以最小的努力实现高性能的PDF文本提取。


涵盖的功能


突出Aspose.PDF的文本提取插件

Aspose.PDF的文本提取插件用于.NET是从PDF文档中提取文本的可靠解决方案。它专为从事.NET应用程序开发的开发人员设计,支持.NET Framework和.NET Core的PDF文本提取。该插件提供三种操作模式:

  1. 纯模式:提取文本,同时保留原始格式和结构。
  2. 原始模式:提取文本,不保留格式。
  3. 纯文本模式:提取文本并移除格式和特殊字符。

优势

  • 支持多个PDF的批处理。
  • 提供可自定义的提取设置以满足特定需求。
  • 与.NET应用程序的直接集成确保无缝工作流程。
  • 针对高速度、准确的文本提取进行了优化,资源使用最小。

C# PDF文本提取库

Aspose.PDF for .NET库是一个全面的工具,适用于寻找高性能C# PDF文本提取的.NET开发人员。您可以通过NuGet轻松安装:

PM> Install-Package Aspose.PDF

或者,您可以下载DLL直接将其集成到您的项目中,提供可靠的C# PDF文本提取解决方案。


从整个PDF中提取文本在C#中

要从PDF中提取所有文本,请按照以下步骤操作:

  1. 使用Document类加载PDF。
  2. 创建一个TextAbsorber对象。
  3. 将吸收器应用于所有页面。
  4. 将提取的文本保存到文件中。

示例代码


从特定页面提取文本在PDF中

要从单个页面提取文本:

  1. 加载PDF。
  2. 创建一个TextAbsorber
  3. 将吸收器应用于所需页面。
  4. 保存提取的文本。

示例代码


从特定区域提取文本在PDF中

从页面特定区域提取文本涉及定义矩形坐标。步骤包括:

  1. 加载PDF。
  2. 配置TextSearchOptions以定义区域。
  3. TextAbsorber应用于该区域。
  4. 保存提取的文本。

示例代码


使用正则表达式搜索和提取文本

要使用正则表达式提取匹配特定模式的文本:

  1. 加载PDF。
  2. 定义一个正则表达式模式。
  3. 使用TextAbsorber应用该模式。
  4. 提取匹配的文本片段。

示例代码


将表格数据提取为文本在C#中

要提取表格内容:

  1. 加载PDF。
  2. 使用TableAbsorber导航表格结构。
  3. 逐个单元格提取文本。

示例代码


提取PDF中的高亮文本

要提取高亮文本:

  1. 遍历注释。
  2. 过滤TextMarkupAnnotation
  3. 检索并保存高亮片段。

示例代码


以低内存使用优化文本提取

i) 使用 Reset()FreeMemory():

  1. 在处理每个页面后调用absorber.Reset()
  2. 使用page.FreeMemory()释放页面占用的内存。

ii) 使用 MemorySaving 模式:

TextExtractionOptions.TextFormattingMode设置为优化PDF文本提取期间的内存使用。

示例代码


免费C# PDF文本提取库

获取免费临时许可证,以无限制访问Aspose.PDF for .NET并释放其在高效C# PDF文本提取中的全部潜力。


结论

Aspose.PDF的文本提取插件用于.NET为可靠的文本提取任务提供了一种多功能且高效的解决方案。从整个文档到特定页面或区域,它以精确和快速的方式简化了该过程,使其成为可用的最佳C# PDF文本提取库之一。今天就试试,以简化您的PDF文本提取工作流程,仅需99美元!