Зробити скановані документи пошуковими за допомогою Aspose.OCR .NET | File Format Processing Plugins for C# .NET Core

Aspose.OCR для .NET пропонує потужне вирішення цієї проблеми, дозволяючи розробникам витягувати текст з зображень і робити їх пошуковими. Цей блог-пост буде направляти вас через процес встановлення вашого середовища розвитку, конфігурації налаштувань розпізнавання, екстракції тексту в комплекті, будівництва або оновлення індексу пошуку, інтеграції функції пошука з переглядачем архіву та додавання міцного обробки помилок.

Повний приклад

Крок за кроком інструкція

Крок 1: Визначте своє середовище розвитку

Для того, щоб почати з Aspose.OCR для .NET, потрібно мати встановлено середовище розвитку.Це включає в себе встановлення необхідних SDK і будь-яких залежності.Ви можете завантажити найновішу версію Asposa.ocR з офіційного сайту і додати її до вашого проекту через NuGet або шляхом посилання на DLL безпосередньо.

Крок 2: Організовуйте свої архіви

Перед тим, як почати обробку документів, організуйте скановані файли документа в структуру каталогу, яка робить сенс для вашого робочого потоку. Це може бути засноване на даті, типі документа або будь-яких інших відповідних критеріях. Переконайтеся, що всі дані доступні з вашої програми і що вони є у формі, підтримуваному Aspose.OCR (наприклад, JPEG, PNG, TIFF і т.д.).

Крок 3: Налаштування налаштувань пізнання

Aspose.OCR дозволяє вдосконалювати процес розпізнавання, щоб відповідати вашим конкретним потребам. Ви можете налаштувати влаштування, такі як мова, тип шрифту та варіанти попереднього обробки зображення. Наприклад, якщо ви працюєте з документами англійською мовою, ви будете встановити мову на “англійську”.

// Step 2: Organize scanned document files into a directory structure
string inputDirectory = @"C:\ScannedDocuments\2023\Invoices";
string[] supportedFormats = { ".jpg", ".png", ".tiff" };

// Get all supported files from the directory
var files = Directory.GetFiles(inputDirectory)
                     .Where(f => supportedFormats.Contains(Path.GetExtension(f), StringComparer.OrdinalIgnoreCase))
                     .ToArray();

Крок 4: Витяг тексту в бач

Після того, як ваші налаштування встановлюються, ви можете почати екстрактувати текст з ваших документів. Aspose.OCR підтримує обробку пакетів, що означає, Ви можете обробити кілька файлів одночасно. Це особливо корисно для великих архівів сканованих матеріалів.

// Step 3: Configuring Recognition Settings
ocrEngine.SetLanguage(Language.English);
ocrEngine.SetImagePreprocessing(ImagePreprocessingOptions.Denoising);
ocrEngine.SetResolution(300); // Set DPI for better text detection

Крок 5: Створення або оновлення індексу пошуку

Після витягу тексту з ваших документів, ви повинні побудувати або оновлювати індекс пошуку, який дозволяє користувачам швидко знайти відповідні документи на основі пошуків ключових слів.

// Step 4: Extract text in batch from a directory of images
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\results";

ocrEngine.RecognizeMultiple(inputDirectory, outputDirectory);

Крок 6: Інтеграція пошуку з переглядачем архіву

Для того, щоб ваші пошукові документи були доступними для кінцевих користувачів, необхідно інтегрувати функцію пошуку в програму архівного переглядача. Це може бути веб-заснований інтерфейс або настільна програма. Переглядач повинен дозволити користувачам шукати через індексний текст і переглянути відповідні скановані документи.

// Step 5: Building or Updating a Search Index
// Store extracted text in a searchable format (e.g., database or inverted index file)
string extractedText = ocrEngine.RecognizePage("scannedDocument.png").CodeText;
File.WriteAllText("searchIndex.txt", extractedText);

Крок 7: Використання помилок

Нарешті, важливо додати міцну справу з помилками до вашої програми, щоб переконатися, що вона може доброзичливо справлятися з несподіваними проблемами, такими як пошкоджені файли або помилки в мережі.

Найкращі практики

Зробити скановані документи пошуковими є потужним способом для поліпшення використання цифрових архівів. Досліджуючи кроки, зазначені в цьому підручнику, ви можете скористатися Aspose.OCR для .NET для екстракту тексту з зображень і інтегрувати його в пошуковий формат. Пам’ятайте про тестування вашої програми ретельно з різними видами документів і за різних умов, щоб забезпечити надійність. Крім того, розглянемо реалізацію функцій, таких як оцінка якості OCR і автоматична корекція для подальшого підвищення точності процесу витягу тексту.

Повний приклад#

Крок за кроком інструкція#

Крок 1: Визначте своє середовище розвитку#

Крок 2: Організовуйте свої архіви#

Крок 3: Налаштування налаштувань пізнання#

Крок 4: Витяг тексту в бач#

Крок 5: Створення або оновлення індексу пошуку#

Крок 6: Інтеграція пошуку з переглядачем архіву#

Крок 7: Використання помилок#

Найкращі практики#

More in this category