Aspose.OCR for .NET нуди моћно решење за овај проблем омогућавајући програмерима да извлаче текст из слика и чине их претраживајућим. Овај блог пост ће вас водити кроз процес постављања вашег окружења развоја, конфигурисања подешавања препознавања, екстрактирања текста у бацху, изградње или ажурирање индекса потражње, интегрисање функционалности потраживања са архивом прегледача, и додавање чврстог третмана грешака.

Потпуни пример

Корак по корак водич

Корак 1: Успостављање вашег развојног окружења

Да бисте започели са Aspose.OCR за .NET, морате имати развојну средину постављену. ово укључује инсталирање неопходних СДК и било какве зависности. можете преузети најновију верзију АСПО.ОЦР са званичног сајта и додати га свом пројекту путем НуГет или референцијом ДЛЛ директно.

Корак 2: Организовање архивних датотека

Пре него што почнете да обрађујете документе, организујте скениране документарне датотеке у структуру директоријума која чини смисао за ваш радни ток. ово може бити засновано на датуму, типу документа, или било којим другим релевантним критеријумима. Уверите се да су сви фајлови доступни из ваше апликације и да они су у формату који подржава Асписе.ОЦР (као што су ЈПЕГ, ПНГ, ТИФФ, итд.).

Корак 3: Конфигурисање подешавања препознавања

Аппосе.ОЦР вам омогућава да фине-туне процеса препознавања да одговара вашим специфичним потребама. Можете конфигурисати подешавања као што су језик, тип шрифта и опције препроцесирања слике. На пример, ако радите са документима на енглеском, бисте поставили језик на “англиски”.

// Step 2: Organize scanned document files into a directory structure
string inputDirectory = @"C:\ScannedDocuments\2023\Invoices";
string[] supportedFormats = { ".jpg", ".png", ".tiff" };

// Get all supported files from the directory
var files = Directory.GetFiles(inputDirectory)
                     .Where(f => supportedFormats.Contains(Path.GetExtension(f), StringComparer.OrdinalIgnoreCase))
                     .ToArray();

Корак 4: Екстракција текста у бацху

Када су подешавања конфигурисана, можете почети да извлачите текст из својих докумената.Аппосе.ОЦР подржава обраду бацх-а, што значи да можете да обрађујете више датотека одједном.То је посебно корисно за велике архиве скенираних документа.

// Step 3: Configuring Recognition Settings
ocrEngine.SetLanguage(Language.English);
ocrEngine.SetImagePreprocessing(ImagePreprocessingOptions.Denoising);
ocrEngine.SetResolution(300); // Set DPI for better text detection

Корак 5: Изградња или ажурирање Индекса претраге

Након извлачења текста из својих докумената, потребно је да креирате или ажурирате индекс претраге који омогућава корисницима да брзо пронађу релевантне документе засноване на потрагама за кључним речима.

// Step 4: Extract text in batch from a directory of images
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\results";

ocrEngine.RecognizeMultiple(inputDirectory, outputDirectory);

Корак 6: Интегрисање претраге са прегледачем архива

Да би ваши претраживачки документи били приступачни коначним корисницима, потребно је интегрисати функционалност прегледања у апликацију архивног гледаоца. ово би могло бити веб-базирани интерфејс или апликација за десктоп.

// Step 5: Building or Updating a Search Index
// Store extracted text in a searchable format (e.g., database or inverted index file)
string extractedText = ocrEngine.RecognizePage("scannedDocument.png").CodeText;
File.WriteAllText("searchIndex.txt", extractedText);

Корак 7: Додавање управљања грешкама

На крају крајева, важно је додати чврсту управљање грешкама у вашу апликацију како би се осигурало да може љубазно да се бави неочекиваним проблемима као што су корумпирани датотеке или мрежне грешке. ово укључује логгирање грешака у сврхе дебагирања и пружа корисничке поруке за грешку када је потребно.

Најбоља пракса

Давање скенираних докумената претраживају је моћан начин да се побољша корисност дигиталних архива. Следећи кораке наведене у овом туторијалу, можете искористити Асписе.ОЦР за .НЕТ да бисте извукли текст из слика и интегрисали га у формат који се може прегледати. Запамтите да детаљно тестирате своју апликацију са различитим типовима документа и под различитим условима како би се осигурала поузданост.

More in this category