PDFからテキストを抽出するC#

PDFファイルからテキストを抽出することは、ドキュメント処理タスクにおいて一般的な要件です。この記事では、C#での効率的で多用途なテキスト抽出のためのAspose.PDFのテキスト抽出プラグインの使用に関する詳細なガイドを提供します。ドキュメント全体、特定のページ、または定義された領域からテキストを抽出する必要がある場合でも、Asposeプラグインは最小限の労力で高性能なPDFテキスト抽出を実現します。


対応機能


Aspose.PDFのテキスト抽出プラグインのハイライト

Aspose.PDFのテキスト抽出プラグイン for .NETは、PDFドキュメントからテキストを抽出するための信頼できるソリューションです。これは、.NETアプリケーションで作業する開発者向けに特別に設計されており、.NET Frameworkおよび.NET CoreのPDFテキスト抽出をサポートしています。このプラグインは、3つの操作モードを提供します:

  1. ピュアモード:元のフォーマットと構造を保持しながらテキストを抽出します。
  2. 生モード:フォーマットなしでテキストを抽出します。
  3. プレインモード:テキストを抽出し、フォーマットと特殊文字を削除します。

利点

  • 複数のPDFのバッチ処理をサポート。
  • 特定の要件に応じたカスタマイズ可能な抽出設定を提供。
  • .NETアプリケーションとの直接統合により、シームレスなワークフローを実現。
  • 最小限のリソース使用で高速かつ正確なテキスト抽出に最適化。

C# PDFテキスト抽出ライブラリ

Aspose.PDF for .NETライブラリは、高性能なC# PDFテキスト抽出を求める.NET開発者のための包括的なツールです。NuGetを介して簡単にインストールできます:

PM> Install-Package Aspose.PDF

または、DLLをダウンロードして、プロジェクトに直接統合することもでき、信頼できるC# PDFテキスト抽出ソリューションを提供します。


C#でPDF全体からテキストを抽出

PDFからすべてのテキストを抽出するには、以下の手順に従います:

  1. Documentクラスを使用してPDFをロードします。
  2. TextAbsorberオブジェクトを作成します。
  3. 吸収器をすべてのページに適用します。
  4. 抽出したテキストをファイルに保存します。

例コード


PDFの特定のページからテキストを抽出

単一のページからテキストを抽出するには:

  1. PDFをロードします。
  2. TextAbsorberを作成します。
  3. 吸収器を目的のページに適用します。
  4. 抽出したテキストを保存します。

例コード


PDFの特定の領域からテキストを抽出

ページの特定の領域からテキストを抽出するには、矩形座標を定義する必要があります。手順は以下の通りです:

  1. PDFをロードします。
  2. 定義された領域のためにTextSearchOptionsを構成します。
  3. TextAbsorberをその領域に適用します。
  4. 抽出したテキストを保存します。

例コード


正規表現を使用してテキストを検索および抽出

特定のパターンに一致するテキストを正規表現を使用して抽出するには:

  1. PDFをロードします。
  2. 正規表現パターンを定義します。
  3. TextAbsorberを使用してパターンを適用します。
  4. 一致するテキストフラグメントを抽出します。

例コード


C#でテーブルデータをテキストとして抽出

テーブルの内容を抽出するには:

  1. PDFをロードします。
  2. TableAbsorberを使用してテーブル構造をナビゲートします。
  3. セルごとにテキストを抽出します。

例コード


PDFのハイライトされたテキストを抽出

ハイライトされたテキストを抽出するには:

  1. 注釈を反復処理します。
  2. TextMarkupAnnotationをフィルタリングします。
  3. ハイライトされたフラグメントを取得して保存します。

例コード


低メモリ使用でのテキスト抽出の最適化

i) **Reset()およびFreeMemory()**の使用:

  1. 各ページを処理した後にabsorber.Reset()を呼び出します。
  2. page.FreeMemory()を使用してページが保持しているメモリを解放します。

ii) _MemorySaving_モードの使用:

PDFテキスト抽出中のメモリ使用を最適化するために、TextExtractionOptions.TextFormattingModeを設定します。

例コード


無料C# PDFテキスト抽出ライブラリ

Aspose.PDF for .NETへの無制限アクセスのための無料の一時ライセンスを取得し、効率的なC# PDFテキスト抽出のためのその全機能を解放します。


結論

Aspose.PDFのテキスト抽出プラグイン for .NETは、信頼できるテキスト抽出タスクのための多用途で効率的なソリューションを提供します。全体のドキュメントから特定のページや領域まで、精度と速度でプロセスを簡素化し、利用可能な最高のC# PDFテキスト抽出ライブラリの1つとなっています。今日試して、わずか$99でPDFテキスト抽出ワークフローを簡素化してください!