PDF 文档在各种业务流程中至关重要,通常需要以编程方式访问其扫描内容。从扫描的 PDF 文件中提取文本可能是一个复杂的任务,这突显了有效工具的必要性。在本教程中,我们将深入探讨 如何在 C# 中进行 PDF 文档的 OCR 并提取文本,使用可靠的 Aspose.OCR for .NET API,这是一个领先的 C# OCR PDF 提取库,可供免费评估。

你将学到什么

在本文中,我们将涵盖以下主题:

  1. Aspose.OCR for .NET API 概述
  2. OCR PDF 和提取文本的步骤
  3. 如何对 PDF 执行 OCR 并保存文本
  4. 将 OCR PDF 转换为 Word
  5. 将 OCR PDF 转换为 JSON

Aspose.OCR for .NET API 概述

我们将利用 Aspose.OCR for .NET API,这是一个强大的 .NET PDF OCR API,旨在从扫描图像、智能手机照片和屏幕截图中识别文本,并以各种文档格式返回结果。该 API 不仅将图像转换为文本,还可以从扫描中创建可搜索的 PDF,并纠正识别文本中的拼写错误,使其成为最快的 C# PDF OCR 解决方案之一,仅需 $99

该 API 具有 AsposeOcr 类,提供多种 OCR 操作方法。值得注意的是, RecognizePdf(string, DocumentRecognitionSettings) 方法对于从指定的 PDF 文档中提取文本至关重要。 DocumentRecognitionSettings 类允许自定义识别过程,而 RecognitionResult 类封装识别结果。

您可以 下载 API 的 DLL 或通过 NuGet 安装它:

PM> Install-Package Aspose.OCR

在 C# 中 OCR PDF 和提取文本的步骤

要对 PDF 文档执行 OCR 并提取识别的文本,请按照以下步骤操作:

  1. 创建 AsposeOcr 类的实例。
  2. 初始化 DocumentRecognitionSettings 类的对象。
  3. 指定 OCR 的语言。
  4. 通过调用 RecognizePdf() 方法获取 RecognitionResult,传递图像路径和 DocumentRecognitionSettings 对象。
  5. 循环遍历 RecognitionResult 列表以显示识别的文本。

以下是一个示例,说明 如何在 C# 中对 PDF 文档进行 OCR 并提取识别的文本

OCR PDF 和提取 C# 中的文本

如何在 C# 中对 PDF 执行 OCR 并保存文本

要对 PDF 文档执行 OCR 并保存识别的文本,请按照以下步骤操作:

  1. 创建 AsposeOcr 类的实例。
  2. 初始化 DocumentRecognitionSettings 类的对象。
  3. 指定 OCR 的语言。
  4. 调用 RecognizePdf() 方法以获取 RecognitionResult
  5. 使用 SaveMultipageDocument() 方法保存文本,该方法需要输出文件路径、SaveFormatRecognitionResult 对象。

以下是一个示例,演示 如何在 C# 中对 PDF 文档进行 OCR 并保存识别的文本

在 C# 中对 PDF 执行 OCR 并保存文本

在 C# 中将 OCR PDF 转换为 Word

要将扫描的 PDF 文档转换为 Word,请按照上述相同步骤操作,但在最后一步中指定 SaveFormat.Docx

以下是一个示例,说明 如何在 C# 中对 PDF 进行 OCR 并将识别的文本保存为 Word 文档

OCR PDF 并在 C# 中将扫描的 PDF 转换为 Word

在 C# 中将 OCR PDF 转换为 JSON

要将 PDF 文档中的识别文本保存到 JSON 文件中,请按照之前的步骤进行,唯一的变化是在最后一步中指定 SaveFormat.Json

以下是一个示例,演示 如何在 C# 中对 PDF 进行 OCR 并将识别的文本保存为 JSON 文件

获取免费评估许可证

您可以 获取免费临时许可证,以在没有任何限制的情况下评估 Aspose.OCR for .NET API。

结论

在本教程中,我们学习了如何对 PDF 文档执行 OCR 并提取 PDF 中的文本。我们还探讨了如何将识别的文本保存为 TXTDOCXJSON 文件。有关 Aspose.OCR for .NET API 的更多信息,请查看其 文档。如果您有任何问题,请随时在我们的 论坛 上与我们联系。

另请参阅

通过利用 Aspose.OCR for .NET API,您可以在 C# 中实现高精度的 PDF OCR,适用于各种应用程序,包括发票处理和表单处理。这个 实惠的 .NET PDF OCR 解决方案 非常适合希望高效集成 OCR PDF 功能的开发人员。