Аутоматизација екстракције текста из слика или ПДФ-а на више језика може бити изазов задатак, али са Асписе.ОЦР за .НЕТ, програмери могу ускладити овај процес и ефикасно управљати великим количинама података. Овај моћни АПИ вам омогућава да препознате текст на различитим језицима, чинећи га непроцењивим алатом за предузећа које се баве мултијазичном документацијом.

Потпуни пример

Корак 1: Успостављање вашег развојног окружења

Пре него што уђете у код, уверите се да имате потребне алате и библиотеке инсталиране. морате имати .NET Цоре или .НЕТ Рамворк постављен на вашем рачунару. Поред тога, инсталирајте Асписе.ОЦР за .Нет преко НуГет Пакет Менаџер у Визуелу Студио.

Корак 2: Организовање улазних датотека по језику

Да бисте ефикасно обрадили вишејезичне слике или ПДФ-а, од суштинског значаја је да организујете своје улазне датотеке на основу језика који садрже. ово се може урадити ручно или кроз скрипт који идентификује језик сваког фајла пре обраде.

Корак 3: Конфигурисање подешавања препознавања

Аппосе.ОЦР за .НЕТ вам омогућава да прилагодите подешавања препознавања за различите језике.Можете подесити специфичне конфигурације као што су сет карактера, модел језика и опције препроцесирања слике како бисте побољшали тачност.

Корак 3.1: Успостављање модела језика

За сваки језик који планирате да обрађујете, конфигуришите одговарајући језички модел.Аппосе.ОЦР подржава широк спектар језика, укључујући енглески, шпанског, немачког, француског и још много тога.

// Step 2: Organize input files by language
var englishFiles = Directory.GetFiles("input", "*.*", SearchOption.AllDirectories)
    .Where(file => Path.GetFileName(file).StartsWith("en_"));
var spanishFiles = Directory.GetFiles("input", "*.*", SearchOption.AllDirectories)
    .Where(file => Path.GetFileName(file).StartsWith("es_"));

Корак 3.2: Прилагођавање сета карактера

Прилагодите подешавања сета карактера да бисте укључили или искључили одређене карактере на основу језичких захтева. ово може помоћи у смањењу лажних позитива и побољшању прецизности препознавања.

Корак 4: Бацх обрада слика или ПДФ-а

Када је ваше окружење постављено и конфигурације су на месту, можете почети да обрађујете слике или ПДФ-а у батовима.

// Step 3: Configuring Recognition Settings
ocrEngine.SetLanguage(Language.English, Language.French); // Set languages for recognition
ocrEngine.SetImagePreprocessing(ImagePreprocessingOptions.Invert); // Apply image preprocessing

Корак 5: Управљање грешкама и изузецима

Током обраде баццх-а, неопходно је да се грешке и изузеци управљају љубазно. имплементирајте блокове покушаја да бисте управљали неочекиваним проблемима као што су грешка приступа датотекама или неисправности препознавања.

Корак 5.1: Логирање грешака

Креирајте механизам за пријављивање да бисте регистровали било какве грешке које се суочавају током фазе обраде. ово ће помоћи у дебагирању и побољшању будућих покрета.

// Step 4: Batch Processing Images or PDFs
string[] imageFiles = Directory.GetFiles("inputImages", "*.jpg");
foreach (string imageFile in imageFiles)
{
    // Apply OCR to each image file
    string recognizedText = ocrEngine.RecognizeImage(imageFile);
    File.WriteAllText($"output/{Path.GetFileNameWithoutExtension(imageFile)}.txt", recognizedText);
}

Корак 5.2: Механизам повлачења

Увођење механизма повлачења за датотеке које не могу да се обрађују због привремених проблема, као што су мрежне кашњења или корумпирања фајлова.

Најбоља пракса

Аутоматизација мултијезичне ОЦР екстракције са Асписе.ОКР за .НЕТ може значајно побољшати ефикасност радног тока за обраду докумената.Следећи кораке наведене у овом туторијалу, можете успоставити јак систем који може да управља различитим језичким улазама.Запамтите да редовно ажурирате своје језичке моделе и конфигурације како бисте се прилагодили новим захтевима и повећали прецизност препознавања.

Закључак

На крају крајева, коришћење Aspose.OCR за .NET не само да олакшава процес извлачења текста из слика или ПДФ-а, већ и осигурава да ваша апликација остаје свеобухватна и прилагодљива у мултијазичном окружењу.

More in this category