如何在C#中从PDF中提取文本 | Aspose.PDF的文本提取插件 | File Format Processing Plugins for C# .NET Core

从 PDF 文件中提取文本是文档处理任务中常见的要求. 本文提供了一个关于使用 Aspose.PDF 的文本提取器插件 的深入指南,以便在 C# 中有效和多元化文本提取文本。无论您需要从整个文档、特定页面或定义区域提取文本,Aspose 插件都会以最小的努力促进高性能的 PDF 文本提取.

Aspose.PDF的文本提取器插件的关键特点

Aspose.PDF的文本提取器插件的概述

Aspose.PDF的文本提取器插件为 .NET 是从 PDF 文档中提取文本的坚实解决方案,专为与 .NET 应用程序合作的开发人员设计,支持 .NET Framework 和 .NET Core 为 PDF 文本提取:

Pure Mode:在保持原始格式和结构时提取文本.
Raw 模式:提取文本,没有任何格式化.
Plain Mode:提取文本并删除所有格式和特殊字符.

使用 Aspose.PDF 的好处

Batch Processing:同时处理多个PDF文件.
可自定义设置: 调整提取设置以适应您的具体需求.
Seamless Integration:直接与 .NET 应用程序集成,以便顺利工作流.
高速性能:优化为快速、准确的文本提取,最少的资源消耗.

开始使用 C# PDF 文本提取

是的 Aspose.PDF 为 .NET 图书馆是 .NET 开发人员寻找高性能 C# PDF Extract 解决方案的全面工具,您可以通过 NuGet 轻松安装:

PM> Install-Package Aspose.PDF

否则,你可以下载DLL 将其直接集成到您的项目中,提供可靠的 C# PDF to Text 解决方案.

从一个完整的PDF中提取文本在C#

要从 PDF 中提取所有文本,请遵循以下步骤:

使用 PDF 加载文件班级.
创建 A TextAbsorber 对象.
将吸收器应用到所有页面.
将提取的文本保存到文件中.

例子代码

从特定页面提取文本到PDF

要使用 C# 从单页中提取文本,请遵循以下步骤:

下载PDF.
创建 A TextAbsorber.
将吸收器应用到所需页面.
保存提取的文本.

例子代码

从特定区域提取文本 PDF

要从页面的特定区域提取文本,要定义直角坐标,请遵循以下步骤:

下载PDF.
设置 TextSearchOptions 定义区域.
應用 The TextAbsorber 到该地区.
保存提取的文本.

例子代码

使用 Regex 搜索和提取文本}

提取符合特定模式的文本,使用常规表达式:

下载PDF.
设置一个 regex 模式.
使用模式的应用 TextAbsorber.
提取相匹配的文本片段.

例子代码

在 C# 中提取表数据作为文本

要从表中提取内容,请使用以下步骤:

下载PDF.
使用 TableAbsorber 通过桌面结构导航.
按细胞提取文本细胞.

例子代码

在 PDF 中提取突出文本

提取突出文本:

通过笔记.
过滤器 TextMarkupAnnotation.
恢复和保存突出碎片.

例子代码

优化文本提取与低内存使用

一)使用和 :

呼叫 absorber.Reset() 处理每个页面后.
使用页面保留的免费记忆 page.FreeMemory().

二)使用 MemorySaving 时尚:

设置 TextExtractionOptions.TextFormattingMode 在 PDF 文本提取过程中优化内存使用.

例子代码

免费 C# PDF 文本提取图书馆

得到A 免费临时许可证为 .NET 提供无限访问 Aspose.PDF 并为有效的 C# PDF 文本提取解决方案开启其全部潜力. 您还可以探索如 C# 转换 PDF 为文字的选项,以及阅读 PDF 从 PDF 为自定义的解決方案,包括 < C # 从 PDF 抽出文本来.

结论

Aspose.PDF的文本提取器插件为 .NET 提供了一个多元化和高效的解决方案,可靠的文件提交任务. 从从整个文档到特定页面或地区提到文本来,它以精确性和速度简化过程. 这使得它是最好的 C# PDF 提集文图书馆之一!

Aspose.PDF的文本提取器插件的关键特点#

Aspose.PDF的文本提取器插件的概述#

使用 Aspose.PDF 的好处#

开始使用 C# PDF 文本提取#

从一个完整的PDF中提取文本在C##

例子代码#

从特定页面提取文本到PDF#

例子代码#

从特定区域提取文本 PDF#

例子代码#

使用 Regex 搜索和提取文本}#

例子代码#

在 C# 中提取表数据作为文本#

例子代码#

在 PDF 中提取突出文本#

例子代码#

优化文本提取与低内存使用#

一)使用 **** 和 ****:#

二)使用 MemorySaving 时尚:#

例子代码#

免费 C# PDF 文本提取图书馆#

结论#

More in this category

Aspose.PDF的文本提取器插件的关键特点

Aspose.PDF的文本提取器插件的概述

使用 Aspose.PDF 的好处

开始使用 C# PDF 文本提取

从一个完整的PDF中提取文本在C#

例子代码

从特定页面提取文本到PDF

例子代码

从特定区域提取文本 PDF

例子代码

使用 Regex 搜索和提取文本}

例子代码

在 C# 中提取表数据作为文本

例子代码

在 PDF 中提取突出文本

例子代码

优化文本提取与低内存使用

一)使用和 :

二)使用 MemorySaving 时尚:

例子代码

免费 C# PDF 文本提取图书馆

结论