Convert Scanned PDF to Word in C#

導入

スキャンされたPDFファイルはしばしば画像としてテキストを含み、コンテンツを選択、編集、またはコピーすることは不可能です. 編集可能なWordドキュメントにスキャンされたPDFを 変換する必要がある場合は、オプティックキャラクター認識(OCR)テクノロジーは、オリジナルのフォーマットを保存しながらテキストを抽出するための効率的な方法を提供します. この記事では、プログラミング的にスキャンされたPDFをWord(DOCXまたはDOC)に変換する方法を学びます。

なぜスキャンされたPDFをWordに変換するのか?

スキャンされた PDF を Word ドキュメントに変換するには、いくつかの強制的な理由があります:

  • 簡単にスキャンされたドキュメントを編集する:手動レティピングのハッシュなしでテキストを変更します。
  • 追加処理のためのテキスト抽出:他のアプリケーションに分析または統合するために抽出されたテキストを使用します。
  • レイアウトとフォーマットを維持する:オリジナルのドキュメントの構造を維持し、編集可能にする。
  • OCRベースの自動ドキュメント処理:この機能を無制限にC#アプリケーションに統合します。

テーブルコンテンツ

1. スキャンされた PDF を Word に変換するための OCR API を設定

スキャンされた PDF からテキストを抽出し、それらを Word ドキュメントに変換するには、以下を使用します。

  • Aspose.OCR for .NET - スキャンされた画像からテキストを認識する強力なツールです。
  • Aspose.Words for .NET - この図書館では、抽出されたテキストをWord形式に変換します。

インストール

NuGet を介して、以下のコマンドで簡単にこれらの API をインストールできます。

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

代わりに、DLLをダウンロードすることができます。 Aspose ダウンロードページ.

スキャンされたPDFを編集可能なWordドキュメントに変換する

これらのステップに従って スキャンされた PDF ファイルを Word (DOCX または DOC) に C# に変換します。

  • OCRをスタートさせる AsposeOcr.
  • テキストを抽出する 使用 DocumentRecognitionSettings.
  • ストア認定テキスト in a StringBuilder.
  • Word ドキュメントを作成する Aspose.Words.
  • フォーマットを適用し、DOCXまたはDOCとして保存します。

コードサンプル

以下は、スキャンされたPDFをWordに変換するを示すC#の例です。

3. OCR変換でフォーマットを保存する

OCR テキスト抽出は強力ですが、常に オリジナルのフォーマット、フォント、スタイル を保存することはできません。

  • Aspose.Words Paragraph Stylesを使用して、一貫したテキストフォーマットを適用します。
  • サイズ、勇気、イタリック、および調和などの文字属性を設定します。
  • Word ドキュメントのパフォーマンスを向上させるためにページのマージンとランキングを調整します。

4. スキャンされたPDFで複数のページを処理する

複数のページでスキャンされたPDFの場合、すべてのページから単一のWordドキュメントにテキストを処理して組み合わせることは重要です。

  • スキャンされたPDFで各ページを通過する
  • ページごとにテキストを認識する に保存する StringBuilder.
  • 承認されたテキスト を Word ドキュメントに追加します。

このアプローチは 単純な複数のページのPDFをWordに変換するを提供します。

5. 完全な OCR 正確性のためのライセンス

デフォルトでは、ASPOSE.OCR は評価モードで動作し、テキスト認識の正確さを 制限することができます。

↓ 評価目的のために **無料の暫定ライセンス**を要求します。

6.結論と追加資源

概要

このガイドでは、以下をカバーしています。

  • 設定 Aspose.OCR for scaned PDF processing
  • C#でスキャンされたPDFから テキストを抽出する
  • 認定テキストをフォーマットされたWordドキュメントに変換する
  • 処理 複数ページのスキャン PDF から Word への変換

Aspose.OCR および Aspose.Words を使用すると、簡単に 画像ベースの PDF を編集可能な Word ファイルに変換できます。

スキャンされたPDF変換のための追加のヒント

仕事の流れを向上させる方法を探している場合は、 C# OCR PDF to Text 機能を使用するか、より高度な処理のための C# PDF から DOCX のソリューションを検討してください。 もしあなたが 変換する必要があるかどうかは、編集するために Word にスキャンされたPDF ドキュメンタリーを 、これらの方法は貴重なサポートを提供します. 尋ねる人々のために、 どのように私はスキャンされたpdf を Word?、上記のツールはプロセスを通じてあなたを指導します。

スキャン PDF から Word への変換

最後に、よりカスタマイズされたソリューションのために、スキャンされたPDFファイルをWordに変換する方法を調べるか、文書処理能力を向上させるためにC#テキスト認識ライブラリ を使用します。これらのリソースは、定期的にスキャンされたドキュメントを処理する人にとって有益であることが証明されます。

More in this category