Extract Text from PDF C#

PDF ファイルからテキストを抽出することは、文書処理作業において一般的な要件です. この記事では、C# で効率的かつ多様なテキスト抽出のための Aspose.PDF のテキスト抽出プラグイン を使用するための深いガイドを提供します. 完全な文書、特定のページ、または定義された地域からテキストを抽出する必要があるかどうかにかかわらず、Aspose プラグインは、最小の努力で高性能の PDF テキスト抽出を容易にします.

Aspose.PDFのテキストエクストラクタープラグインのキー機能

Aspose.PDFのテキストエクストラクタープラグインの概要

Aspose.PDF の テキスト エクストラクター プラグイン for .NET は PDF ドキュメントから テキスト を 抽出 する ための 強力 な ソリューション です. .NET アプリケーション で 働く 開発 者 に 特別 に 設計 さ れ て い ます. .NET Framework と .NET Core の PDF テキスト エクストラクター を サポート し て い ます. プラグイン は 3 つの 操作 モード を 提供 し て い ます:

  • Pure Mode:オリジナルのフォーマットと構造を維持しながらテキストを抽出します.
  • Raw モード:フォーマットなしでテキストを抽出します.
  • Plain モード: テキストを抽出し、すべてのフォーマットや特別な文字を削除します.

Asposeを使用する利点.PDF

  • Batch Processing:複数のPDFを同時に処理します.
  • カスタマイズ可能な設定:あなたの特定のニーズに合わせるために抽出設定をカスタマイズします.
  • Seamless Integration: 順調なワークフローのための .NET アプリケーションと直接統合します.
  • 高速パフォーマンス:最適化され、最小限のリソース消費量で迅速かつ正確なテキスト抽出に適しています.

C# PDF テキスト抽出で始まる

The ASPOSE.PDF for .NET 図書館は、高度なパフォーマンス C# PDF Extract ソリューションを求める .NET 開発者のための包括的なツールです:

PM> Install-Package Aspose.PDF

代わりに、あなたは ダウンロード DLL プロジェクトに直接統合し、信頼性の高い C# PDF to Text ソリューションを提供します.

テキストをC#でPDF全体から抽出する}

PDFからすべてのテキストを抽出するには、以下の手順に従ってください:

  • PDFを使用してダウンロードする 文書 クラス.
  • Aを作る TextAbsorber オブジェクト.
  • すべてのページに吸収器を適用します.
  • 抽出されたテキストをファイルに保存します.

例コード

PDF で特定ページからテキストを抽出する

C# を使用して単一ページからテキストを抽出するには、以下の手順に従ってください:

  • PDFをダウンロードします.
  • Aを作る TextAbsorber.
  • 望ましいページに吸収器を適用します.
  • 抽出されたテキストを保存します.

例コード

特定地域からのテキストをPDFで抽出する

ページの特定の領域からテキストを抽出するには、直角座標を定義します:

  • PDFをダウンロードします.
  • 設定 TextSearchOptions 定められた地域について.
  • 応用する TextAbsorber 地域へ.
  • 抽出されたテキストを保存します.

例コード

テキストの検索と抽出 Regex

通常の表現を使用して特定のパターンと一致するテキストを抽出するには:

  • PDFをダウンロードします.
  • レゲックスパターンを定義します.
  • パターンを使用する TextAbsorber.
  • 合致テキストフラグメントを抽出します.

例コード

テーブルデータをC#でテキストとして抽出する

テーブルからコンテンツを抽出するには、以下の手順を使用します:

  • PDFをダウンロードします.
  • 利用 TableAbsorber テーブル構造を通して航行する.
  • 細胞によるテキストセルを抽出します.

例コード

強調テキストをPDFで抽出する

強調されたテキストを抽出するには:

  • ノートを通してイタリア.
  • フィルター TextMarkupAnnotation.
  • 強調された部分を取り戻し、保存します.

例コード

テキスト抽出の最適化と低メモリ使用

1)利用 **** そして ****:

  • 電話 absorber.Reset() 各ページの処理後.
  • 無料のメモリは、使用するページによって保持されます page.FreeMemory().

2)利用 MemorySaving モード:

セット TextExtractionOptions.TextFormattingMode PDF テキスト抽出時にメモリの使用を最適化する.

例コード

無料 C# PDF テキスト抽出図書館

得るA 無料の暫定ライセンス .NET のための Aspose.PDF への無制限のアクセスを提供し、効率的な C# PDF テキスト抽出 ソリューションの完全な潜在能力を解き明かします.

結論

Aspose.PDF の テキスト エクストラクター プラグイン for .NET は 信頼性の高い タスク に 多様 で 効率 的 な ソリューション を 提供 し て い ます. 全 ドキュメント から 特定 ページ や 地域 まで 、 プロセスを 精度 と スピード が 簡素 化 します. これは 利用できる 最良 の C# PDF Extract Text ライブラリ の 1 つ です. 今日 試してみる だけ $99 の PDF 文書 抽出 ワーク フローを単純化します!

More in this category