Aspose.OCR за .NET предлага мощно решение на този проблем, като позволява на разработчиците да извличат текст от изображенията и да ги направят търсещи. Този блог пост ще ви насочи през процеса на настройка на вашата среда за развитие, конфигуриране на разпознаване настройки, екстракция на текст в комплект, изграждане или актуализация на индекс за търсене, интегриране функционалността на търсачката с архивен преглед, и добавяне на солидна обработка на грешки.
Пълният пример
Стъпка по стъпка ръководство
Стъпка 1: Създаване на вашата среда за развитие
За да започнете с Aspose.OCR за .NET, трябва да имате създадена среда за развитие. Това включва инсталирането на необходимите SDK и всяка зависимост. Можете да изтеглите най-новата версия на Asposa.ocR от официалния уебсайт и да я добавите към вашия проект чрез NuGet или чрез препращане на DLL директно.
Стъпка 2: Организиране на вашите архиви
Преди да започнете обработката на документи, организирате скенираните си документи в структура на директориума, която има смисъл за вашия работен поток. Това може да се основава на дата, тип на документа или други съответни критерии. Уверете се, че всички файлове са достъпни от вашата заявка и че те са в формат, подкрепен от Aspose.OCR (като JPEG, PNG, TIFF, и т.н.).
Стъпка 3: Конфигуриране на настройките за разпознаване
Aspose.OCR ви позволява да преобразувате процеса на разпознаване, за да отговарят на специфичните ви нужди. Можете да конфигурирате настройки като език, тип шрифт и опции за предварително обработка на изображения. Например, ако работите с документи на английски, ще зададете езика на “английски”.
// Step 2: Organize scanned document files into a directory structure
string inputDirectory = @"C:\ScannedDocuments\2023\Invoices";
string[] supportedFormats = { ".jpg", ".png", ".tiff" };
// Get all supported files from the directory
var files = Directory.GetFiles(inputDirectory)
.Where(f => supportedFormats.Contains(Path.GetExtension(f), StringComparer.OrdinalIgnoreCase))
.ToArray();
Стъпка 4: Извличане на текст в бач
След като настройките ви са конфигурирани, можете да започнете да извличате текст от документите си. Aspose.OCR поддържа обработка на комплекти, което означава, че може да обработвате няколко файла наведнъж. Това е особено полезно за големи архиви на скенираните документи. Можете да посочите директорията, съдържаща вашите изображения и да позволите на Asposa.ocR да се справя с останалото.
// Step 3: Configuring Recognition Settings
ocrEngine.SetLanguage(Language.English);
ocrEngine.SetImagePreprocessing(ImagePreprocessingOptions.Denoising);
ocrEngine.SetResolution(300); // Set DPI for better text detection
Стъпка 5: Изграждане или актуализиране на индекс за търсене
След извличане на текст от вашите документи, трябва да създадете или актуализирате индекс за търсене, който позволява на потребителите бързо да намерят съответните документи въз основа на търсенето с ключови думи.
// Step 4: Extract text in batch from a directory of images
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\results";
ocrEngine.RecognizeMultiple(inputDirectory, outputDirectory);
Стъпка 6: Интегриране на търсенето с Archive Viewer
За да направите търсените документи достъпни за крайните потребители, трябва да интегрирате функцията за търсене в приложение за архивиране. Това може да бъде уеб-базиран интерфейс или настолно приложение. Проследяването следва да позволи на потребителите да търсят през индексирания текст и да виждат съответните сканирани документи.
// Step 5: Building or Updating a Search Index
// Store extracted text in a searchable format (e.g., database or inverted index file)
string extractedText = ocrEngine.RecognizePage("scannedDocument.png").CodeText;
File.WriteAllText("searchIndex.txt", extractedText);
Стъпка 7: Добавяне на обработка на грешки
Накрая, важно е да добавите солидна обработка на грешки в приложението си, за да се гарантира, че тя може благосклонно да управлява неочаквани проблеми като корумпирани файлове или мрежови грешка.
Най-добрите практики
Създаването на скенираните документи е мощен начин за подобряване на използването на цифровите архиви. Чрез следване на стъпките, изброени в този урок, можете да използвате Aspose.OCR за .NET, за да извлечете текст от изображения и да го интегрирате в формат, който може да се търси. Не забравяйте да тествате приложението си задълбочено с различни видове документи и при различни условия за гарантиране на надеждност. Освен това, помислете за изпълнението на функции като ОКР оценка на качеството и автоматична корекция за по-нататъшно подобрение на точността на процеса на извличане на текст.