C#でPDFからテキストを抽出する方法 | Aspose.PDFのテキスト抽出プラグイン | File Format Processing Plugins for C# .NET Core

PDF ファイルからテキストを抽出することは、文書処理作業において一般的な要件です. この記事では、C# で効率的かつ多様なテキスト抽出のための Aspose.PDF のテキスト抽出プラグイン を使用するための深いガイドを提供します. 完全な文書、特定のページ、または定義された地域からテキストを抽出する必要があるかどうかにかかわらず、Aspose プラグインは、最小の努力で高性能の PDF テキスト抽出を容易にします.

Aspose.PDFのテキストエクストラクタープラグインのキー機能

Aspose.PDFのテキストエクストラクタープラグインの概要

Aspose.PDF のテキストエクストラクタープラグイン for .NET は PDF ドキュメントからテキストを抽出するための強力なソリューションです. .NET アプリケーションで働く開発者に特別に設計されています. .NET Framework と .NET Core の PDF テキストエクストラクターをサポートしています. プラグインは 3 つの操作モードを提供しています:

Pure Mode:オリジナルのフォーマットと構造を維持しながらテキストを抽出します.
Raw モード:フォーマットなしでテキストを抽出します.
Plain モード: テキストを抽出し、すべてのフォーマットや特別な文字を削除します.

Asposeを使用する利点.PDF

Batch Processing:複数のPDFを同時に処理します.
カスタマイズ可能な設定:あなたの特定のニーズに合わせるために抽出設定をカスタマイズします.
Seamless Integration: 順調なワークフローのための .NET アプリケーションと直接統合します.
高速パフォーマンス:最適化され、最小限のリソース消費量で迅速かつ正確なテキスト抽出に適しています.

C# PDF テキスト抽出で始まる

The Aspose.PDF for .NET 図書館は、高度なパフォーマンス C# PDF Extract ソリューションを求める .NET 開発者のための包括的なツールです:

PM> Install-Package Aspose.PDF

代わりに、あなたはダウンロード DLL プロジェクトに直接統合し、信頼性の高い C# PDF to Text ソリューションを提供します.

テキストをC#でPDF全体から抽出する}

PDFからすべてのテキストを抽出するには、以下の手順に従ってください:

PDFを使用してダウンロードする文書クラス.
Aを作る TextAbsorber オブジェクト.
すべてのページに吸収器を適用します.
抽出されたテキストをファイルに保存します.

例コード

PDF で特定ページからテキストを抽出する

C# を使用して単一ページからテキストを抽出するには、以下の手順に従ってください:

PDFをダウンロードします.
Aを作る TextAbsorber.
望ましいページに吸収器を適用します.
抽出されたテキストを保存します.

例コード

特定地域からのテキストをPDFで抽出する

ページの特定の領域からテキストを抽出するには、直角座標を定義します:

PDFをダウンロードします.
設定 TextSearchOptions 定められた地域について.
応用する TextAbsorber 地域へ.
抽出されたテキストを保存します.

例コード

テキストの検索と抽出 Regex

通常の表現を使用して特定のパターンと一致するテキストを抽出するには:

PDFをダウンロードします.
レゲックスパターンを定義します.
パターンを使用する TextAbsorber.
合致テキストフラグメントを抽出します.

例コード

テーブルデータをC#でテキストとして抽出する

テーブルからコンテンツを抽出するには、以下の手順を使用します:

PDFをダウンロードします.
利用 TableAbsorber テーブル構造を通して航行する.
細胞によるテキストセルを抽出します.

例コード

強調テキストをPDFで抽出する

強調されたテキストを抽出するには:

ノートを通してイタリア.
フィルター TextMarkupAnnotation.
強調された部分を取り戻し、保存します.

例コード

テキスト抽出の最適化と低メモリ使用

1)利用そして :

電話 absorber.Reset() 各ページの処理後.
無料のメモリは、使用するページによって保持されます page.FreeMemory().

2)利用 MemorySaving モード:

セット TextExtractionOptions.TextFormattingMode PDF テキスト抽出時にメモリの使用を最適化する.

例コード

無料 C# PDF テキスト抽出図書館

得るA 無料の暫定ライセンス .NET のための Aspose.PDF への無制限のアクセスを提供し、効率的な C# PDF テキスト抽出ソリューションの完全な潜在能力を解き明かします.

結論

Aspose.PDF のテキストエクストラクタープラグイン for .NET は信頼性の高いタスクに多様で効率的なソリューションを提供しています. 全ドキュメントから特定ページや地域まで、プロセスを精度とスピードが簡素化します. これは利用できる最良の C# PDF Extract Text ライブラリの 1 つです. 今日試してみるだけ $99 の PDF 文書抽出ワークフローを単純化します!

Aspose.PDFのテキストエクストラクタープラグインのキー機能#

Aspose.PDFのテキストエクストラクタープラグインの概要#

Asposeを使用する利点.PDF#

C# PDF テキスト抽出で始まる#

テキストをC#でPDF全体から抽出する}#

例コード#

PDF で特定ページからテキストを抽出する#

例コード#

特定地域からのテキストをPDFで抽出する#

例コード#

テキストの検索と抽出 Regex#

例コード#

テーブルデータをC#でテキストとして抽出する#

例コード#

強調テキストをPDFで抽出する#

例コード#

テキスト抽出の最適化と低メモリ使用#

1)利用 **** そして ****:#

2)利用 MemorySaving モード:#

例コード#

無料 C# PDF テキスト抽出図書館#

結論#

More in this category

Aspose.PDFのテキストエクストラクタープラグインのキー機能

Aspose.PDFのテキストエクストラクタープラグインの概要

Asposeを使用する利点.PDF

C# PDF テキスト抽出で始まる

テキストをC#でPDF全体から抽出する}

例コード

PDF で特定ページからテキストを抽出する

例コード

特定地域からのテキストをPDFで抽出する

例コード

テキストの検索と抽出 Regex

例コード

テーブルデータをC#でテキストとして抽出する

例コード

強調テキストをPDFで抽出する

例コード

テキスト抽出の最適化と低メモリ使用

1)利用そして :

2)利用 MemorySaving モード:

例コード

無料 C# PDF テキスト抽出図書館

結論