使用 Aspose.OCR .NET 可搜索扫描文件 | File Format Processing Plugins for C# .NET Core

Aspose.OCR for .NET 提供了一个强大的解决方案,通过允许开发人员从图像中提取文本并使它们可搜索的过程,这篇博客帖子将指导您通过设置您的开发环境,配置识别设置,在包中抽出文字,构建或更新搜索指数,与档案浏览器集成搜索功能,并添加坚实的错误处理。

完整的例子

步骤指南

步骤1:建立你的发展环境

要开始使用 Aspose.OCR for .NET,您需要建立一个开发环境,其中包括安装所需的 SDK 和任何依赖性。您可以从官方网站上下载最新版本的 Aspose.OKR 并通过 NuGet 或直接引用 DLL 将其添加到您的项目中。

步骤2:组织您的档案文件

在您开始处理文档之前,将扫描的文件文件安排在一个对工作流有意义的目录结构中,这可能基于日期、文件类型或其他相关标准,确保所有文件都是从您的应用程序访问的,并且它们是由Aspose.OCR支持的格式(如JPEG、PNG、TIFF等)。

步骤3:设置识别设置

Aspose.OCR 允许您完成识别过程,以满足您的具体需求. 您可以设置语言、字体类型和图像预处理选项等设置。例如,如果您在英语中使用文档,则将语言设置为“英语”。此外,您可能需要调整 DPI 设置以更好地检测高分辨率图片的文本。

// Step 2: Organize scanned document files into a directory structure
string inputDirectory = @"C:\ScannedDocuments\2023\Invoices";
string[] supportedFormats = { ".jpg", ".png", ".tiff" };

// Get all supported files from the directory
var files = Directory.GetFiles(inputDirectory)
                     .Where(f => supportedFormats.Contains(Path.GetExtension(f), StringComparer.OrdinalIgnoreCase))
                     .ToArray();

步骤4:在Batch中提取文本

一旦设置已设置,您可以开始从文档中提取文本. Aspose.OCR 支持集成处理,这意味着您能够同时处理多个文件。

// Step 3: Configuring Recognition Settings
ocrEngine.SetLanguage(Language.English);
ocrEngine.SetImagePreprocessing(ImagePreprocessingOptions.Denoising);
ocrEngine.SetResolution(300); // Set DPI for better text detection

步骤5:创建或更新搜索指数

在从文件中提取文本后,您需要创建或更新一个搜索指数,允许用户根据关键词搜索快速找到相关文档。

// Step 4: Extract text in batch from a directory of images
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\results";

ocrEngine.RecognizeMultiple(inputDirectory, outputDirectory);

步骤6:将搜索与档案浏览器集成

要使您的可搜索文件可访问终端用户,您需要将搜索功能集成到一个档案浏览器应用程序中,这可能是基于网页的界面或桌面应用。

// Step 5: Building or Updating a Search Index
// Store extracted text in a searchable format (e.g., database or inverted index file)
string extractedText = ocrEngine.RecognizePage("scannedDocument.png").CodeText;
File.WriteAllText("searchIndex.txt", extractedText);

步骤7:添加错误处理

最后,重要的是要添加强大的错误处理到您的应用程序,以确保它可以慈善地处理意想不到的问题,如腐败的文件或网络故障。

最佳实践

通过遵循本教程中列出的步骤,您可以利用 Aspose.OCR for .NET 从图像中提取文本并将其集成到可搜索的格式。请记住仔细测试您的应用程序与不同类型的文档,并在不同的条件下确保可靠性。

完整的例子#

步骤指南#

步骤1:建立你的发展环境#

步骤2:组织您的档案文件#

步骤3:设置识别设置#

步骤4:在Batch中提取文本#

步骤5:创建或更新搜索指数#

步骤6:将搜索与档案浏览器集成#

步骤7:添加错误处理#

最佳实践#

More in this category