
PDF文書はさまざまなビジネスプロセスに不可欠であり、しばしばスキャンされたコンテンツへのプログラム的なアクセスが必要です。スキャンされたPDFファイルからテキストを抽出することは複雑な作業であり、効果的なツールの必要性が浮き彫りになります。このチュートリアルでは、信頼性の高いAspose.OCR for .NET APIを使用して、C#でPDF文書をOCR処理し、PDFからテキストを抽出する方法について詳しく説明します。このAPIは、無料評価が可能なC# OCR PDF抽出ライブラリのリーディングカンパニーです。
学べること
この記事では、以下のトピックについて解説します。
- Aspose.OCR for .NET APIの概要
- PDFをOCR処理してテキストを抽出する手順
- PDFにOCRを実行してテキストを保存する方法
- OCR PDFをWordに変換する
- OCR PDFをJSONに変換する
Aspose.OCR for .NET APIの概要
私たちは、スキャンされた画像、スマートフォンの写真、スクリーンショットからテキストを認識し、さまざまな文書形式で結果を返すように設計された堅牢な**.NET PDF OCR APIであるAspose.OCR for .NET APIを利用します。このAPIは、画像をテキストに変換するだけでなく、スキャンから検索可能なPDFを作成し、認識されたテキストのスペルミスを修正することもできるため、$99で入手可能な最も高速なC# PDF OCRソリューション**の1つです。
APIには、OCR操作のための複数のメソッドを提供するAsposeOcrクラスがあります。特に、指定されたPDF文書からテキストを抽出するために不可欠なRecognizePdf(string, DocumentRecognitionSettings)メソッドがあります。DocumentRecognitionSettingsクラスは認識プロセスのカスタマイズを可能にし、RecognitionResultクラスは認識結果をカプセル化します。
APIのDLLをダウンロードするか、NuGetを通じてインストールできます:
PM> Install-Package Aspose.OCR
PDFをOCR処理してテキストを抽出する手順
PDF文書にOCRを実行して認識されたテキストを抽出するには、次の手順に従います。
- AsposeOcrクラスのインスタンスを作成します。
- DocumentRecognitionSettingsクラスのオブジェクトを初期化します。
- OCRの言語を指定します。
- RecognizePdf()メソッドを呼び出してRecognitionResultを取得し、画像パスとDocumentRecognitionSettingsオブジェクトを渡します。
- RecognitionResultリストをループして、識別されたテキストを表示します。
以下は、C#でPDF文書をOCR処理し、認識されたテキストを抽出する方法を示す例です:
PDFにOCRを実行してテキストを保存する方法
PDF文書にOCRを実行して認識されたテキストを保存するには、次の手順に従います。
- AsposeOcrクラスのインスタンスを作成します。
- DocumentRecognitionSettingsクラスのオブジェクトを初期化します。
- OCRの言語を指定します。
- RecognizePdf()メソッドを呼び出してRecognitionResultを取得します。
- **SaveMultipageDocument()**メソッドを使用してテキストを保存します。このメソッドには、出力ファイルパス、SaveFormat、およびRecognitionResultオブジェクトが必要です。
以下は、C#でPDF文書をOCR処理し、認識されたテキストを保存する方法を示す例です:
OCR PDFをWordに変換する
スキャンされたPDF文書をWordに変換するには、前述の手順と同じ手順に従いますが、最終ステップでSaveFormat.Docxを指定します。
以下は、C#でPDFをOCR処理し、認識されたテキストをWord文書として保存する方法を示す例です:
OCR PDFをJSONに変換する
PDF文書から認識されたテキストをJSONファイルに保存するには、前述の手順に従い、最終ステップでSaveFormat.Jsonを指定します。
以下は、C#でPDFをOCR処理し、認識されたテキストをJSONファイルとして保存する方法を示す例です:
無料評価ライセンスを取得
Aspose.OCR for .NET APIを評価するための無料の一時ライセンスを取得できます。
結論
このチュートリアルでは、PDF文書にOCRを実行し、C#でPDFからテキストを抽出する方法を学びました。また、認識されたテキストをTXT、DOCX、およびJSONファイルとして保存する方法についても探りました。Aspose.OCR for .NET APIに関する詳細は、そのドキュメントをご覧ください。質問がある場合は、フォーラムでお気軽にお問い合わせください。
関連情報
Aspose.OCR for .NET APIを活用することで、請求書処理やフォーム処理など、さまざまなアプリケーションで高精度のPDF OCRをC#で実装できます。この手頃な価格の.NET PDF OCRソリューションは、アプリケーションにOCR PDF機能を効率的に統合したい開発者に最適です。