
PDF 文档在各种业务流程中至关重要,通常需要以编程方式访问其扫描内容。从扫描的 PDF 文件中提取文本可能是一个复杂的任务,这突显了有效工具的必要性。在本教程中,我们将深入探讨 如何在 C# 中进行 PDF 文档的 OCR 并提取文本,使用可靠的 Aspose.OCR for .NET API,这是一个领先的 C# OCR PDF 提取库,可供免费评估。
你将学到什么
在本文中,我们将涵盖以下主题:
Aspose.OCR for .NET API 概述
我们将利用 Aspose.OCR for .NET API,这是一个强大的 .NET PDF OCR API,旨在从扫描图像、智能手机照片和屏幕截图中识别文本,并以各种文档格式返回结果。该 API 不仅将图像转换为文本,还可以从扫描中创建可搜索的 PDF,并纠正识别文本中的拼写错误,使其成为最快的 C# PDF OCR 解决方案之一,仅需 $99。
该 API 具有 AsposeOcr 类,提供多种 OCR 操作方法。值得注意的是, RecognizePdf(string, DocumentRecognitionSettings) 方法对于从指定的 PDF 文档中提取文本至关重要。 DocumentRecognitionSettings 类允许自定义识别过程,而 RecognitionResult 类封装识别结果。
您可以 下载 API 的 DLL 或通过 NuGet 安装它:
PM> Install-Package Aspose.OCR
在 C# 中 OCR PDF 和提取文本的步骤
要对 PDF 文档执行 OCR 并提取识别的文本,请按照以下步骤操作:
- 创建 AsposeOcr 类的实例。
- 初始化 DocumentRecognitionSettings 类的对象。
- 指定 OCR 的语言。
- 通过调用 RecognizePdf() 方法获取 RecognitionResult,传递图像路径和 DocumentRecognitionSettings 对象。
- 循环遍历 RecognitionResult 列表以显示识别的文本。
以下是一个示例,说明 如何在 C# 中对 PDF 文档进行 OCR 并提取识别的文本:
如何在 C# 中对 PDF 执行 OCR 并保存文本
要对 PDF 文档执行 OCR 并保存识别的文本,请按照以下步骤操作:
- 创建 AsposeOcr 类的实例。
- 初始化 DocumentRecognitionSettings 类的对象。
- 指定 OCR 的语言。
- 调用 RecognizePdf() 方法以获取 RecognitionResult。
- 使用 SaveMultipageDocument() 方法保存文本,该方法需要输出文件路径、SaveFormat 和 RecognitionResult 对象。
以下是一个示例,演示 如何在 C# 中对 PDF 文档进行 OCR 并保存识别的文本:
在 C# 中将 OCR PDF 转换为 Word
要将扫描的 PDF 文档转换为 Word,请按照上述相同步骤操作,但在最后一步中指定 SaveFormat.Docx。
以下是一个示例,说明 如何在 C# 中对 PDF 进行 OCR 并将识别的文本保存为 Word 文档:
在 C# 中将 OCR PDF 转换为 JSON
要将 PDF 文档中的识别文本保存到 JSON 文件中,请按照之前的步骤进行,唯一的变化是在最后一步中指定 SaveFormat.Json。
以下是一个示例,演示 如何在 C# 中对 PDF 进行 OCR 并将识别的文本保存为 JSON 文件:
获取免费评估许可证
您可以 获取免费临时许可证,以在没有任何限制的情况下评估 Aspose.OCR for .NET API。
结论
在本教程中,我们学习了如何对 PDF 文档执行 OCR 并提取 PDF 中的文本。我们还探讨了如何将识别的文本保存为 TXT、DOCX 和 JSON 文件。有关 Aspose.OCR for .NET API 的更多信息,请查看其 文档。如果您有任何问题,请随时在我们的 论坛 上与我们联系。
另请参阅
通过利用 Aspose.OCR for .NET API,您可以在 C# 中实现高精度的 PDF OCR,适用于各种应用程序,包括发票处理和表单处理。这个 实惠的 .NET PDF OCR 解决方案 非常适合希望高效集成 OCR PDF 功能的开发人员。