Aspose.OCR .NET でスキャンされたドキュメントを検索可能にする | File Format Processing Plugins for C# .NET Core

Aspose.OCR for .NET は、開発者が画像からテキストを抽出し、それらを検索可能にすることを可能にすることによって、この問題に対する強力な解決策を提供します. このブログの投稿では、あなたの開発環境を設定するプロセスを通じて、認識設定を構成する、バッチでテクストを取り出す、検索インデックスの構築または更新、アーカイブの視聴者と検索機能を統合して、強固なエラー処理を追加します。

完全例

ステップ・ステップ・ガイド

ステップ1:開発環境を構築する

.NET のための Aspose.OCR でスタートするには、開発環境が設定されなければなりません. これは必要な SDK や依存性のインストールを含みます. 公式サイトから最新バージョンをダウンロードして、 NuGet を通じてプロジェクトに追加したり、DLL を直接参照したりできます。

ステップ2:アーカイブファイルの整理

文書の処理を開始する前に、スキャンされたドキュメントファイルをあなたのワークフローに意味のあるディレクトリ構造に組織します. これは日付、ドキストタイプ、またはその他の関連する基準に基づく可能性があります. すべてのファイルがアプリケーションからアクセス可能であり、それらがAspose.OCRがサポートするフォーマット(JPEG、PNG、TIFFなど)にあることを確認します。

ステップ3:認識設定の設定

Aspose.OCR は、特定のニーズに合致する認識プロセスをフィンタインすることを可能にします. 言語、フォントタイプ、および画像の事前処理のオプションなどの設定を設定することができます。たとえば、英語でドキュメントで作業している場合は、「英語」に設定します。また、高解像度の画像でより良いテキスト検出のための DPI セットを調整したいかもしれません。

// Step 2: Organize scanned document files into a directory structure
string inputDirectory = @"C:\ScannedDocuments\2023\Invoices";
string[] supportedFormats = { ".jpg", ".png", ".tiff" };

// Get all supported files from the directory
var files = Directory.GetFiles(inputDirectory)
                     .Where(f => supportedFormats.Contains(Path.GetExtension(f), StringComparer.OrdinalIgnoreCase))
                     .ToArray();

ステップ4:バッチでテキストを抽出する

設定が設定された後、文書からテキストを抽出し始めることができます. Aspose.OCR は、複数のファイルを同時に処理できることを意味するバッチ処理をサポートします. これはスキャンされたドキュメントの大規模なアーカイブに特に役立ちます. あなたの画像を含むディレクトリを指定し、その他のものを取り扱うことができます。

// Step 3: Configuring Recognition Settings
ocrEngine.SetLanguage(Language.English);
ocrEngine.SetImagePreprocessing(ImagePreprocessingOptions.Denoising);
ocrEngine.SetResolution(300); // Set DPI for better text detection

ステップ5:検索インデックスの構築または更新

ドキュメントからテキストを抽出した後、ユーザーがキーワード検索に基づいて関連する文書を迅速に検索できる検索インデックスを作成または更新する必要があります。

// Step 4: Extract text in batch from a directory of images
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\results";

ocrEngine.RecognizeMultiple(inputDirectory, outputDirectory);

ステップ6:検索をアーカイブビューと統合する

検索可能なドキュメントを最終ユーザーにアクセスできるようにするには、検索機能をアーカイブビューヤーアプリに統合する必要があります. これはウェブベースのインターフェイスまたはデスクトップアプリケーションかもしれません. 視聴者は、ユーザーがインデックスされたテキストを通じて検索し、関連するスキャンされた文書を見ることができます。

// Step 5: Building or Updating a Search Index
// Store extracted text in a searchable format (e.g., database or inverted index file)
string extractedText = ocrEngine.RecognizePage("scannedDocument.png").CodeText;
File.WriteAllText("searchIndex.txt", extractedText);

ステップ7:エラー処理の追加

最後に、あなたのアプリケーションに強力なエラー処理を追加することが重要であり、それは、腐敗したファイルやネットワークのミスなどの予期せぬ問題を礼儀正しく処理することができることを保証します。

ベストプラクティス

スキャンされたドキュメントを検索可能にすることは、デジタルアーカイブの使用可能性を向上させるための強力な方法です。このチュートリアルで示されたステップに従って、あなたは画像からテキストを抽出し、検索できるフォーマットに統合するために .NET のための Aspose.OCR を利用することができます。さまざまなタイプの文書と信頼性を確保するための様々な条件でアプリケーションを徹底的にテストすることを覚えておいてください。

完全例#

ステップ・ステップ・ガイド#

ステップ1:開発環境を構築する#

ステップ2:アーカイブファイルの整理#

ステップ3:認識設定の設定#

ステップ4:バッチでテキストを抽出する#

ステップ5:検索インデックスの構築または更新#

ステップ6:検索をアーカイブビューと統合する#

ステップ7:エラー処理の追加#

ベストプラクティス#

More in this category

完全例