Convert Scanned PDF to Word in C#

引入

扫描的 PDF 文件经常包含文本作为图像,使无法选择、编辑或复制内容。 如果您需要将扫描的 PDF 转换为可编辑的 Word 文档, 光学字符识别(OCR) 技术提供了一个有效的方式来提取文本,同时保存原始格式。 在本文中,您将学习如何通过 C# 编程转换扫描的 PDF 到 Word(DOCX 或 DOC) 与 .NET 图书馆的 Aspose.OCR 和 Aspose.Words 。

为什么要将扫描的PDF转换为Word?

将扫描的 PDF 转换为 Word 文档有几个强制性的理由:

  • 轻松编辑扫描文件: 修改文本,而无需手动复制。
  • 提取文本进行进一步处理:使用提取文本进行分析或集成到其他应用程序。
  • 保持布局和格式化:保持原始文档的结构,同时使其可编辑。
  • 自动基于OCR的文档处理:将此功能无缝集成到您的C#应用程序中。

内容表

1. 设置 OCR API for 扫描 PDF 到 Word 转换

要从扫描的PDF中提取文本并将其转换为Word文档,我们将使用:

安装

您可以轻松地通过 NuGet 安装这些 API 以以下命令:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

否则,您可以从DLL下载 Aspose 下载页面.

2. 将扫描的 PDF 转换为编辑的 Word 文档

遵循以下步骤 将扫描的 PDF 文件转换为 Word (DOCX 或 DOC) 在 C#:

  • 启动 OCRAsposeOcr.
  • 提取文本 使用 DocumentRecognitionSettings.
  • 存储认可的文本 在 A StringBuilder.
  • 创建一个 Word 文档 使用 Aspose.Words.
  • 应用格式化 并将其保存为 DOCX 或 DOC。

代码样本

以下是一個 C# 示例,顯示 扫描 PDF 到 Word 轉換:

保存格式化在OCR转换

虽然OCR文本提取力强大,但它可能并不总是保留 原始格式、字体和风格

  • 使用 Aspose.Words 段落风格 适用一致的文本格式。
  • 设置字体属性 如尺寸、勇气、意大利语和匹配。
  • 调整页面边缘和布局 为改善 Word 文档输出。

4. 在扫描的PDF中处理多页

对于 多页扫描的PDF,处理并将所有页面的文本融入一个单一的Word文档至关重要。

  • 在扫描的PDF中通过每个页面
  • 每页识别文本 并将其存储在 StringBuilder.
  • 添加认可的文本 到 Word 文档中。

此方法确保 无限多页 PDF 转换为 Word

5. 许可全 OCR 准确性

默认情况下,Aspose.OCR 在评估模式下运行,可 限制文本识别准确性

请求 **(免费临时许可证)(https://purchase.aspose.com/temporary-license)**进行评估。

结论和额外资源

总结

在此指南中,我们涵盖了:

  • 设置 Aspose.OCR 扫描 PDF 处理
  • 提取 文本从扫描的 PDF 中的 C#
  • 认可的文本转换为格式化的Word文档
  • 处理 多页扫描PDF到Word转换

通过使用 Aspose.OCR 和 Aspose.Words,您可以轻松地将基于图像的 PDF 转换为可编辑的 Word 文件。

更多关于扫描PDF转换的提示

如果您正在寻找改善工作流的方式,请考虑使用 C# OCR PDF 到 文本 功能或 ** C# PDF to DOCX** 为更先进的处理解决方案。 无论您需要 ** 转换扫描的 PDF 为 Word 编辑**, 或者只是想 ** 在 Word 中翻译的PDF 文件,这些方法提供无价的支持. 对于那些询问, ** 我如何将一个扫稿的 pdf 变成 Word?** , 提到的工具将无力地指导您通过过程。

扫描 PDF 到 Word 转换

最后,对于更具自定义的解决方案,请探索如何将扫描的 PDF 文件转换为 Word** 或使用一个 C# 文本识别图书馆 为提高文档处理能力. 这些资源将对任何经常处理扫收的文件的人有好处。

More in this category