Aspose.PDF Text Extractor Plugin for .NET は、開発者がさまざまなフォーマットで PDF ドキュメントからテキストをプログラム的に抽出することを可能にする強力なツールです. 構造化された、平らな、または原料の文書が必要であるかどうかにかかわらず、このプラグインは柔軟な出力モードと無線の統合を提供します。
導入
Aspose.PDF Text Extractor Plugin for .NET は、開発者が最大限の柔軟性で PDF ファイルからテキストコンテンツを簡単に抽出するのに役立つように設計されています. このツールは複数のエクストラクションモード(純粋(フォーマット)、原料(アス)または平ら(クリーン))をサポートし、ドキュメント変換、データ採掘、アクセシビリティの改善など、さまざまな使用ケースに適しています。
Aspose.PDF テキストエクストラクター プラグイン キー機能
複数の抽出モード- あなたのニーズに合った純粋(フォーマット)、原料(as-is)、または平ら(クリーン)形式でテキストを抽出します。
Batch PDF 処理- 複数の PDF ファイルを同時に処理し、効率的な作業流を提供します。
シンプルな .NET 統合- プラグインを簡単に C# または .NET プロジェクトに統合します。
スタートする Aspose.PDF テキストエクストラクター プラグイン
- .NET のための Aspose.PDF をインストールするNuGet を介して、または .NET ソリューションにセットアップをダウンロードします。
- ライセンスを設定するプラグインを無制限の処理およびサポートのために有効にします。
- コントロールエクストラクションオプション利用
TextExtractor
そして、TextExtractorOptions
クラスは、望ましい方法で抽出モードを設定します(純粋、原料、平ら)。 - プロセス&レトリエテスト結果コンテナコレクションを通じてテキスト抽出とアクセス結果を実行します。
例:PDFからテキストを抽出する(C#)
Aspose.PDF を使用して単一の PDF ファイルからテキストを抽出するには、以下の例に従ってください。
using Aspose.Pdf.Plugins;
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource("C:\\Samples\\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);
例: 複数のPDFからバッチエクストラクトテキスト
複数の PDF ファイルをバッチ処理するには、以下の例を使用します。
string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}
使用ケース&拡張子
- PDF から TXT への変換: インデックス、検索、またはアーカイブのためのフラットテキストに PDF を自動化する。
- データマイニング: テーブルデータ、請求書、またはフォームを追加処理または分析のために抽出します。
- アクセシビリティ: スクリーンリーダーや代替フォーマットのための読みやすいコンテンツの準備。
- Batch Processing: 特定のダウンストリームワークフロー(例えば、OCRプレプロセッサ、エンティティ認識)のための抽出モードを使用します。
ベストプラクティス
常にあなたの出力要件に基づいて適切な抽出モードを選択します. 大規模なドキュメントセットでは、バッチ処理はパワーを最大化し、手動の努力を最小限にすることができます. データの正確さを確保するために、実際の世界のPDFでテスト抽出す結果。