Aspose.PDF for .NET は、画像エクストラクターで強力なソリューションを提供し、開発者がさまざまなフォーマットで高品質の画像の抽出を自動化することができます.

導入

この記事では、 .NET で Aspose.PDF Image Extractor を使用して PDF ファイルに組み込まれたすべての画像を抽出する方法を示しています.

現実世界問題

手動でPDFから画像を抽出することは遅く、信じられない。多くのツールは画像が欠けたり、品質が低くなったりしますが、企業は文書化、報告、アーカイブ、または再編のためのオリジナル、高品質の画像が必要です.

ソリューション概要

Aspose.PDF Image Extractor for .NET は、すべての PDF から画像の正確でプログラミング的な抽出を提供し、バッチワーク、一般的な画像形式、およびカスタマイズされた出力ルートをサポートします.

原則

  • Visual Studio 2019 以降
  • .NET 6.0 またはそれ以降
  • NuGet を介してインストールされた .NET のための Aspose.PDF
PM> Install-Package Aspose.PDF

ステップ・ステップ・実施

ステップ1:インストールおよび設定 Aspose.PDF

必要な名称を追加する:

using Aspose.Pdf.Plugins;
using System.IO;

ステップ2:PDFドキュメントの準備

入力ファイルパス(単一PDF)を設定します):

string inputPath = "@C:\Samples\sample.pdf";

ステップ3:PDFから基本画像抽出

利用 ImageExtractor そして ImageExtractorOptions すべての画像をPDFから取り出すために:

using (var plugin = new ImageExtractor())
{
    var options = new ImageExtractorOptions();
    options.AddInput(new FileDataSource(inputPath));
    var resultContainer = plugin.Process(options);
    foreach (var result in resultContainer.ResultCollection)
    {
        var imageFile = result.ToFile();
        Console.WriteLine($"Image saved: {imageFile}");
    }
}

使用ケース&アプリケーション(コード変数)

1. 複数のPDFから画像を抽出する(バッチ処理)

PDFファイルのディレクトリを通過し、すべての画像を抽出します:

string[] pdfFiles = Directory.GetFiles("@C:\Samples\PDFs", "*.pdf");
each (var pdfFile in pdfFiles)
{
    using (var plugin = new ImageExtractor())
    {
        var options = new ImageExtractorOptions();
        options.AddInput(new FileDataSource(pdfFile));
        var resultContainer = plugin.Process(options);
        foreach (var result in resultContainer.ResultCollection)
        {
            var imageFile = result.ToFile();
            Console.WriteLine($"Extracted: {imageFile}");
        }
    }
}

2. 特定の画像タイプのみを抽出する(例えば、JPEG/PNG)

プロセス後の結果をファイル拡張子によってフィルタリングすることができます:

foreach (var result in resultContainer.ResultCollection)
{
    var imageFile = result.ToFile();
    if (Path.GetExtension(imageFile).Equals(".jpg", StringComparison.OrdinalIgnoreCase))
    {
        // Process only JPEG images
        Console.WriteLine($"JPEG found: {imageFile}");
    }
}

3. 画像をカスタムフォルダーに輸出する

CMSやレポートとの統合のためのユーザー指定フォルダーに画像を書く:

string exportDir = "@C:\Samples\ExportedImages";
Directory.CreateDirectory(exportDir);
int count = 0;
each (var result in resultContainer.ResultCollection)
{
    var imageFile = result.ToFile();
    var destPath = Path.Combine(exportDir, $"extracted_{++count}{Path.GetExtension(imageFile)}");
    File.Copy(imageFile, destPath, overwrite:true);
}

4. ページごとに画像を抽出する(先進)

より精密なコントロールのために、PDFを最初に分割することによってページごとに画像を処理するか、ダウンストリーム論理を使用します ResultCollection インデックス.

共通の課題と解決策

チャレンジ: いくつかの画像が抽出されていないソリューション: PDF が腐敗していないことを確認し、XObject/image タイプの問題をチェックしたり、最新の Aspose.PDF バージョンで抽出を実行したりします.

チャレンジ: 出力ファイルタイプ/フォーマットソリューション: 特定のフォーマットが必要な場合、抽出された画像を変換するために、プロセッサ後を使用します.

パフォーマンスと最良の実践

  • 大きなプロジェクトや繰り返しの仕事のためにバッチ抽出を使用する
  • フィルネーム紛争を避けるために出力フォルダーを組織する
  • 出力画像の品質を確認し、ターゲットアプリでチェックする
  • 常に自動実行で一時的なファイルを掃除する

完全実施例

using Aspose.Pdf.Plugins;
using System;
using System.IO;

public class Program
{
    public static void Main()
    {
        string inputPath = "@C:\Samples\sample.pdf";
        using (var plugin = new ImageExtractor())
        {
            var options = new ImageExtractorOptions();
            options.AddInput(new FileDataSource(inputPath));
            var resultContainer = plugin.Process(options);
            foreach (var result in resultContainer.ResultCollection)
            {
                var imageFile = result.ToFile();
                Console.WriteLine($"Extracted image: {imageFile}");
            }
        }
    }
}

結論

Aspose.PDF Image Extractor for .NET は、PDF ドキュメントからすべての画像を取得するプロセスを簡素化し、単一のファイル、バッチ、またはカスタマイズされた抽出のニーズをサポートします.

More in this category