Convert Scanned PDF to Word in C#

はじめに

スキャンしたPDFファイルは、テキストを画像として保存することが多く、コンテンツを選択、編集、コピーすることができません。スキャンしたPDFを編集可能なWord文書に変換する必要がある場合、光学文字認識(OCR)技術は、元のフォーマットを保持しながらテキストを抽出する効率的な方法を提供します。この記事では、C#を使用してスキャンしたPDFをWord(DOCXまたはDOC)にプログラムで変換する方法を学びます。使用するライブラリはAspose.OCR for .NETAspose.Words for .NETです。

スキャンしたPDFをWordに変換する理由

スキャンしたPDFをWord文書に変換する理由はいくつかあります:

  • スキャンした文書を簡単に編集: 手動で再入力する手間なしにテキストを修正できます。
  • さらなる処理のためにテキストを抽出: 抽出したテキストを分析や他のアプリケーションに使用できます。
  • レイアウトとフォーマットを保持: 編集可能にしながら元の文書の構造を維持します。
  • OCRベースの文書処理を自動化: この機能をC#アプリケーションにシームレスに統合できます。

目次

  1. スキャンしたPDFからWordへの変換のためのOCR APIのセットアップ
  2. スキャンしたPDFを編集可能なWord文書に変換
  3. OCR変換におけるフォーマットの保持
  4. スキャンしたPDFの複数ページの処理
  5. 完全なOCR精度のためのライセンス
  6. 結論と追加リソース

1. スキャンしたPDFからWordへの変換のためのOCR APIのセットアップ

スキャンしたPDFからテキストを抽出し、Word文書に変換するために、以下を利用します:

  • Aspose.OCR for .NET – スキャンした画像からテキストを認識する強力なツール。
  • Aspose.Words for .NET – 抽出したテキストをWordフォーマットに変換するライブラリ。

インストール

以下のコマンドを使用して、NuGet経由でこれらのAPIを簡単にインストールできます:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

または、Aspose Downloads PageからDLLをダウンロードすることもできます。


2. スキャンしたPDFを編集可能なWord文書に変換

以下の手順に従って、C#でスキャンしたPDFファイルをWord(DOCXまたはDOC)に変換します:

  1. AsposeOcrでOCRを初期化します。
  2. DocumentRecognitionSettingsを使用してテキストを抽出します。
  3. 認識されたテキストをStringBuilder保存します。
  4. Aspose.Wordsを使用してWord文書を作成します。
  5. フォーマットを適用し、DOCXまたはDOCとして保存します。

コードサンプル

こちらがスキャンしたPDFからWordへの変換を示すC#の例です:


3. OCR変換におけるフォーマットの保持

OCRによるテキスト抽出は強力ですが、元のフォーマット、フォント、スタイルを常に保持できるわけではありません。正確なフォーマットを保証するために、以下のヒントを考慮してください:

  • Aspose.Wordsの段落スタイルを利用して、一貫したテキストフォーマットを適用します。
  • フォントプロパティ(サイズ、太字、イタリック、配置など)を設定します。
  • ページの余白とレイアウトを調整して、Word文書の出力を改善します。

4. スキャンしたPDFの複数ページの処理

複数ページのスキャンしたPDFの場合、すべてのページのテキストを処理して1つのWord文書に統合することが重要です。これを達成するために:

  • スキャンしたPDFの各ページをループします。
  • ページごとにテキストを認識し、StringBuilderに保存します。
  • 認識されたテキストをWord文書に追加します。

このアプローチにより、シームレスな複数ページPDFからWordへの変換が実現します。


5. 完全なOCR精度のためのライセンス

デフォルトでは、Aspose.OCRは評価モードで動作し、テキスト認識精度が制限される場合があります。APIの全機能を解放するために:

🔹 **無料の一時ライセンス**をリクエストしてください。


6. 結論と追加リソース

まとめ

このガイドでは、以下の内容をカバーしました:

スキャンしたPDF処理のためのAspose.OCRのセットアップ
C#でスキャンしたPDFからのテキスト抽出
認識されたテキストをフォーマットされたWord文書に変換
複数ページのスキャンしたPDFからWordへの変換の処理


Aspose.OCRとAspose.Wordsを活用することで、画像ベースのPDFを編集可能なWordファイルに簡単に変換できます。今日から**$99であなたのOCR対応PDFからWordへの変換ツール**を.NETで構築し始めましょう! 🚀