Сделайте сканируемые документы поисковыми с помощью Aspose.OCR .NET | File Format Processing Plugins for C# .NET Core

Aspose.OCR для .NET предлагает мощное решение этой проблемы, позволяя разработчикам извлечь текст из изображений и сделать их поисковыми. Этот блог-пост будет направлять вас через процесс настройки вашего среды развития, конфигурирования распознавательных настроек, экстракции текста в комплекте, построения или обновления индекса поиска, интеграции функции поиска с архивом просмотра и добавления прочной обработки ошибок. К концу этого учебника у вас будет всеобъемлющее понимание того, как сделать сканированные документы поискемыми с помощью асфозы.

Полный пример

Step-by-Step Руководство

Шаг 1: Создайте свое развитие

Для того, чтобы начать с Aspose.OCR для .NET, вам нужно иметь разработанную среду. Это включает в себя установку необходимых SDK и любых зависимостей. Вы можете загрузить последнюю версию асфозы.ОКР с официального сайта и добавить ее к вашему проекту через NuGet или путем ссылки на DLL напрямую.

Шаг 2: Организация файлов архивов

Перед тем, как начать обработку документов, организуйте сканированные файлы документа в структуру каталога, которая имеет смысл для вашего рабочего потока. Это может основываться на дате, типе документа или любых других соответствующих критериях. Убедитесь, что все файли доступны с вашего приложения и что они находятся в формате поддерживаемом Aspose.OCR (например, JPEG, PNG, TIFF и т. д.).

Шаг 3: Конфигурирование настройки распознавания

Aspose.OCR позволяет уточнить процесс распознавания, чтобы соответствовать вашим конкретным потребностям. Вы можете настроить настройки, такие как язык, тип шрифта и опции предварительной обработки изображения. К примеру, если вы работаете с документами на английском языке, вы бы настроили язык на “английский”. Кроме того, вам может захотеть адаптировать настройку DPI для лучшего обнаружения текста на картинках с высоким разрешением.

// Step 2: Organize scanned document files into a directory structure
string inputDirectory = @"C:\ScannedDocuments\2023\Invoices";
string[] supportedFormats = { ".jpg", ".png", ".tiff" };

// Get all supported files from the directory
var files = Directory.GetFiles(inputDirectory)
                     .Where(f => supportedFormats.Contains(Path.GetExtension(f), StringComparer.OrdinalIgnoreCase))
                     .ToArray();

Шаг 4: Экстракция текста в батареи

Как только ваши настройки конфигурируются, вы можете начать экстрактировать текст из ваших документов. Aspose.OCR поддерживает обработку наборов, что значит, Вы можете обрабатывать несколько файлов одновременно. Это особенно полезно для больших архивов сканированных материалов.

// Step 3: Configuring Recognition Settings
ocrEngine.SetLanguage(Language.English);
ocrEngine.SetImagePreprocessing(ImagePreprocessingOptions.Denoising);
ocrEngine.SetResolution(300); // Set DPI for better text detection

Шаг 5: Создание или обновление индекса поиска

После экстракции текста из ваших документов вам нужно построить или обновлять поисковый индекс, который позволяет пользователям быстро найти соответствующие документы на основе поисков ключевых слов.

// Step 4: Extract text in batch from a directory of images
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\results";

ocrEngine.RecognizeMultiple(inputDirectory, outputDirectory);

Шаг 6: Интегрирование поиска с архивом

Для того, чтобы ваши поисковые документы были доступны конечным пользователям, вам нужно интегрировать функциональность поиска в архивный просмотр приложения. Это может быть веб-базированный интерфейс или настольное приложение.

// Step 5: Building or Updating a Search Index
// Store extracted text in a searchable format (e.g., database or inverted index file)
string extractedText = ocrEngine.RecognizePage("scannedDocument.png").CodeText;
File.WriteAllText("searchIndex.txt", extractedText);

Шаг 7: Добавление ошибок в обработку

Наконец, важно добавить прочную обработку ошибок к вашему приложению, чтобы убедиться, что он может доброжелательно справляться с неожиданными проблемами, такими как коррумпированные файлы или сетевые ошибки.

Лучшие практики

Сделайте сканированные документы поисковыми является мощным способом повышения полезности цифровых архивов.Следуя шагам, указанным в этом руководстве, вы можете использовать Aspose.OCR для .NET для извлечения текста из изображений и интегрировать его в искаемый формат.Помните, чтобы тщательно проверить ваше приложение с различными видами документов и при различных условиях для обеспечения надежности. Кроме того, рассмотрите внедрение таких функций, как оценка качества OCR и автоматическая коррекция для дальнейшего улучшения точности процесса вывода текста.

Полный пример#

Step-by-Step Руководство#

Шаг 1: Создайте свое развитие#

Шаг 2: Организация файлов архивов#

Шаг 3: Конфигурирование настройки распознавания#

Шаг 4: Экстракция текста в батареи#

Шаг 5: Создание или обновление индекса поиска#

Шаг 6: Интегрирование поиска с архивом#

Шаг 7: Добавление ошибок в обработку#

Лучшие практики#

More in this category