このガイドでは、PDFファイルからテキストを抽出するために .NET のための Aspose.PDF プラグインを使用する方法を学び、そのコンテンツを概要のために ChatGPT に送信し、結果の総合を処理します。

導入

このガイドでは、PDFファイルからテキストを抽出するために .NET のための Aspose.PDF プラグインを使用する方法を学び、そのコンテンツを概要のために ChatGPT に送信し、結果の総合を処理します。

原則

私たちが始める前に、あなたは次のことを保証します:

  • Aspose.PDF.Plugin NuGet を介してインストール
  • OpenAI API アクセスとキー(または Azure OpenAI サービス)
  • .NET 6+ プロジェクトの設定
  • インターネットアクセス ChatGPT リクエスト

PDFからテキストを抽出する

まずは、PDFファイルからテキストを抽出する必要があります. Aspose.PDF.Plugin は、 TextExtractor これを達成するために使用できるクラスです。

using Aspose.Pdf.Plugins;

string inputPath = "C:\\Docs\\sample.pdf";
var extractor = new TextExtractor();
var options = new TextExtractorOptions();
options.AddInput(new FileDataSource(inputPath));
var resultContainer = extractor.Process(options);
string textContent = resultContainer.ResultCollection[0].ToString();

このコードスナイプは、どのようにイニシアチブ化するかを示しています TextExtractor抽出オプションを設定し、PDFファイルを処理してそのコンテンツを取り出す。

タグ : エクストラクションエラー処理

抽出プロセス中に潜在的なエラーを処理することが重要です たとえば、入力パスが間違っている場合、またはファイル形式が Aspose.PDF.Plugin によってサポートされていない場合は、適切なエピソード処理を実施する必要があります。

コンテンツを ChatGPT に送信

PDF からテキストを抽出した後、次のステップはこのコンテンツを ChatGPT に送信することです。 HttpClient あなたの API キーと prompt で OpenAI のエンド ポイントに API の呼び出しを作成します。

using System.Net.Http;
using System.Net.Http.Headers;
using System.Text;
using Newtonsoft.Json;

string apiKey = "YOUR_OPENAI_API_KEY";
string prompt = $"Summarize the following PDF content in 5 bullet points:\n{textContent}";

var httpClient = new HttpClient();
httpClient.DefaultRequestHeaders.Authorization = new AuthenticationHeaderValue("Bearer", apiKey);
var requestBody = new {{
    model = "gpt-3.5-turbo",
    messages = new[]
    {
        new {{ role = "system", content = "You are a helpful assistant that summarizes PDF content." }},
        new {{ role = "user", content = prompt }}
    }
}};
string jsonBody = JsonConvert.SerializeObject(requestBody);
var response = await httpClient.PostAsync(
    "https://api.openai.com/v1/chat/completions",
    new StringContent(jsonBody, Encoding.UTF8, "application/json")
);
string responseString = await response.Content.ReadAsStringAsync();
// Parse summary from responseString

このセクションでは、リクエストボディを構築する方法を示し、ChatGPTに送信します。

タグ : パルシング 回答

回答を受け取った後、まとめられたコンテンツを分解する必要があります. これは、概要テキストを含むJSON回答の特定の部分を抽出することによって行うことができます。

サムライを節約する

ChatGPT の API 応答から概要をパルセッドした後、データベースまたはファイル システムに保存したいかもしれません。

エラー処理

適切なエラー処理は、このようなプロセスを自動化する際に重要です. API の速度制限、ネットワークの問題、および誤った回答などのシナリオを考慮してください. ChatGPT に送信する前に抽出されたテキストの確認を実施します。

セクション:ログイン作業

すべての操作をログインすることは、デビューおよび監査の目的で役立ちます. Serilog または NLog のようなログングフレームワークを使用して、概要プロセス中に重要なイベントを記録します。

セキュリティノート

プライバシーの要件が満たされることを確認する前に、データをクラウドベースのAIサービス、例えばChatGPTに送信します。敏感なコンテンツの場合は、外部のAPIに頼る代わりに地元の言語モデルを導入することを検討してください。

よくある質問

Q:スキャンされたPDFをまとめることはできますか?A: ただ、それらがOKRであるか、または選択可能なテキストが含まれている場合にのみ。

Q:これは機密文書に対して安全ですか?A: あなたのプライバシーの要件が許可されている場合にのみ ChatGPT にデータを送信します. 敏感なコンテンツの場合は、地元の処理を使用した言語モデルで検討してください。

More in this category