Aspose.OCR pre .NET ponúka silné riešenie tohto problému tým, že umožňuje vývojárom extrahovať text z obrázkov a urobiť ich vyhľadávateľnými. Tento blogový príspevok vás vedie procesom nastavenia vášho rozvojového prostredia, konfigurácie rozpoznávacích nastavení, extrakcie textu v balíčku, budovanie alebo aktualizácia indexov hľadania, integrovanie funkcie hľadania s archívnym prehliadačom a pridávanie robustnej manipulácie s chybami. Na konci tohto tutoriálu budete mať komplexné pochopenie toho, ako skenované dokumenty môžete vyskúšať pomocou ASPOSE.

Kompletný príklad

Krok za krokom sprievodca

Krok 1: Vytvorte svoje rozvojové prostredie

Ak chcete začať s Aspose.OCR pre .NET, musíte mať nastavené rozvojové prostredie. To zahŕňa inštaláciu potrebných SDK a akýchkoľvek závislostí. Môžete si stiahnuť najnovšiu verziu ASPOSE.OKR z oficiálnej webovej stránky a pridať ju do svojho projektu prostredníctvom NuGet alebo odkazovaním na DLL priamo.

Krok 2: Usporiadanie archívnych súborov

Pred začatím spracovania dokumentov organizujte skenované dokumenty do štruktúry adresára, ktorá má zmysel pre váš pracovný tok. To by mohlo byť založené na dátume, typu dokumentu alebo akýchkoľvek ďalších relevantných kritérií. Uistite sa, že všetky súbory sú prístupné z vašej aplikácie a že sú v formáte podporovanom spoločnosťou Aspose.OCR (napríklad JPEG, PNG, TIFF atď.).

Krok 3: Konfigurácia rozpoznávacích nastavení

Aspose.OCR vám umožňuje dokončiť proces rozpoznávania, aby vyhovoval vašim špecifickým potrebám. Môžete nastaviť nastavenia, ako je jazyk, typ písma a možnosti predbežného spracovania obrazu. Napríklad, ak pracujete s dokumentmi v angličtine, nastavíte jazyk na “anglicky”. Okrem toho by ste mohli chcieť prispôsobiť nastavenie DPI pre lepšiu detekciu textu na obrázkoch s vysokým rozlíšením.

// Step 2: Organize scanned document files into a directory structure
string inputDirectory = @"C:\ScannedDocuments\2023\Invoices";
string[] supportedFormats = { ".jpg", ".png", ".tiff" };

// Get all supported files from the directory
var files = Directory.GetFiles(inputDirectory)
                     .Where(f => supportedFormats.Contains(Path.GetExtension(f), StringComparer.OrdinalIgnoreCase))
                     .ToArray();

Krok 4: Odstránenie textu v batch

Akonáhle sú nastavenia nakonfigurované, môžete začať extrahovať text z vašich dokumentov. Aspose.OCR podporuje spracovanie súborov, čo znamená, že môžete spracovávať viaceré súbory naraz. To je obzvlášť užitočné pre veľké archívy skanovaného dokumentu.

// Step 3: Configuring Recognition Settings
ocrEngine.SetLanguage(Language.English);
ocrEngine.SetImagePreprocessing(ImagePreprocessingOptions.Denoising);
ocrEngine.SetResolution(300); // Set DPI for better text detection

Krok 5: Vytvorenie alebo aktualizácia vyhľadávacieho indexu

Po extrahovaní textu z vašich dokumentov potrebujete vytvoriť alebo aktualizovať vyhľadávací index, ktorý umožňuje používateľom rýchlo nájsť relevantné dokumenty na základe hľadania kľúčových slov.

// Step 4: Extract text in batch from a directory of images
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\results";

ocrEngine.RecognizeMultiple(inputDirectory, outputDirectory);

Krok 6: Integrovanie vyhľadávania s archívnym prehliadačom

Ak chcete, aby vaše vyhľadávacie dokumenty boli prístupné koncovým používateľom, musíte integrovať funkciu hľadania do archívnej prehliadačovej aplikácie. To by mohlo byť webové rozhranie alebo desktopová aplikácia.

// Step 5: Building or Updating a Search Index
// Store extracted text in a searchable format (e.g., database or inverted index file)
string extractedText = ocrEngine.RecognizePage("scannedDocument.png").CodeText;
File.WriteAllText("searchIndex.txt", extractedText);

Krok 7: Pridať chybové riešenie

Konečne, je dôležité pridať robustné riešenie chýb do aplikácie, aby sa zabezpečilo, že môže milosrdne riešiť neočakávané problémy, ako sú korumpované súbory alebo sieťové chyby.

Najlepšie postupy

Urobiť skenované dokumenty vyhľadávateľné je silný spôsob, ako zvýšiť použiteľnosť digitálnych archívov. S nasledovaním krokov uvedených v tomto tutoriáli, môžete využiť Aspose.OCR pre .NET na extrahovanie textu z obrázkov a integrovať ho do formátu, ktorý sa dá hľadať. Nezabudnite dôkladne testovať vašu aplikáciu s rôznymi typmi dokumentov a za rôznych podmienok na zabezpečenie spoľahlivosti. Okrem toho, zvážte implementáciu funkcií ako OCR hodnotenie kvality a automatická korekcia na ďalšie zlepšenie presnosti vášho procesu extrakcie.

More in this category