Učinite skenirane dokumente pretraživima pomoću Aspose.OCR .NET | File Format Processing Plugins for C# .NET Core

Aspose.OCR za .NET nudi snažno rješenje za ovaj problem omogućavajući razvijalcima da izvlače tekst iz slika i čine ih pretraživim.Ovaj blog post će vas voditi kroz proces postavljanja vašeg razvojnog okruženja, konfiguracije postavki prepoznavanja, ekstrakcije teksta u pakiranju, izgradnje ili ažuriranja indeksa pretraživanja, integracije funkcije pretrage s arhivskim preglednikom i dodavanja snažnog rukovanja pogreškama.Na kraju ovog tutorial-a, dobit ćete sveobuhvatno razumijevanje kako napraviti skenirane dokumente pretražujućim pomoću asposa.ocR.

Potpuni primjer

korak po korak vodič

Korak 1: Postavite svoje razvojno okruženje

Da biste počeli s Aspose.OCR za .NET, morate imati uspostavljeno razvojno okruženje.Ovo uključuje instalaciju potrebnih SDK-a i bilo kakvih ovisnosti.Možete preuzeti najnovije verzije Asposa.ocR sa službene web stranice i dodati ga vašem projektu putem NuGeta ili upućivanjem na DLL izravno.

Korak 2: Organizirajte svoje arhivske datoteke

Prije nego počnete obrađivati dokumente, organizirajte svoje skenirane dokumentne datoteke u strukturu direktora koja je smisleno za vaš radni tok. To bi moglo biti na temelju datuma, tipa dokumenta ili bilo kojeg drugog relevantnog kriterija. Uvjerite se da su svi dokumenti dostupni iz vaše aplikacije i da se nalaze u formatu koji podržava Aspose.OCR (kao što su JPEG, PNG, TIFF, itd.).

Korak 3: Konfiguriranje postavki prepoznavanja

Aspose.OCR vam omogućuje da ispravite proces prepoznavanja kako bi se prilagodili vašim specifičnim potrebama. Možete konfigurirati postavke kao što su jezik, tip pisma i opcije preprocesiranja slike. Na primjer, ako radite s dokumentima na engleskom jeziku, postavili biste jezik na “English”.

// Step 2: Organize scanned document files into a directory structure
string inputDirectory = @"C:\ScannedDocuments\2023\Invoices";
string[] supportedFormats = { ".jpg", ".png", ".tiff" };

// Get all supported files from the directory
var files = Directory.GetFiles(inputDirectory)
                     .Where(f => supportedFormats.Contains(Path.GetExtension(f), StringComparer.OrdinalIgnoreCase))
                     .ToArray();

Korak 4: Izvlačenje teksta u batch

Nakon što su postavke konfigurirane, možete početi ekstrakciju teksta iz vaših dokumenata. Aspose.OCR podržava obradu paketa, što znači da možete obrađivati više datoteka odjednom. To je posebno korisno za velike arhive skeniranih dokumenta.

// Step 3: Configuring Recognition Settings
ocrEngine.SetLanguage(Language.English);
ocrEngine.SetImagePreprocessing(ImagePreprocessingOptions.Denoising);
ocrEngine.SetResolution(300); // Set DPI for better text detection

Korak 5: Izgradnja ili ažuriranje indeksa pretraživanja

Nakon uklanjanja teksta iz dokumenata, morate izgraditi ili ažurirati indeks pretraživanja koji korisnicima omogućuje da brzo pronađu relevantne dokumente na temelju traženja ključnih riječi.

// Step 4: Extract text in batch from a directory of images
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\results";

ocrEngine.RecognizeMultiple(inputDirectory, outputDirectory);

Korak 6: Integracija pretraživanja s arhivskim preglednikom

Da bi vaši pretraživi dokumenti bili dostupni krajnjim korisnicima, morate integrirati funkciju pretraživanja u aplikaciju arhivskog preglednika. To bi moglo biti web-based interfejs ili desktop aplikacija.

// Step 5: Building or Updating a Search Index
// Store extracted text in a searchable format (e.g., database or inverted index file)
string extractedText = ocrEngine.RecognizePage("scannedDocument.png").CodeText;
File.WriteAllText("searchIndex.txt", extractedText);

Korak 7: Dodavanje rješavanja pogrešaka

Konačno, važno je dodati čvrstu upravljanje pogreškama u aplikaciju kako bi se osiguralo da se može ljubazno nositi s neočekivanim problemima kao što su korumpirane datoteke ili mrežne greške.

Najbolje prakse

Postavljanje skeniranih dokumenata je snažan način za poboljšanje korisnosti digitalnih arhiva. Slijedom koraka navedenih u ovom tutorial-u, možete koristiti Aspose.OCR za .NET kako biste izvukli tekst iz slika i integrirali ga u formatu koji se može pretraživati. Zapamtite da temeljito testirate svoju aplikaciju s različitim vrstama dokumenta i pod raznim uvjetima kako bi se osigurala pouzdanost. Dodatno, razmislite o implementaciji funkcija kao što su ocjena kvalitete OCR-a i automatsko ispravljanje da biste dodatno poboljšali točnost procesa izvlačenja teksta.

Potpuni primjer#

korak po korak vodič#

Korak 1: Postavite svoje razvojno okruženje#

Korak 2: Organizirajte svoje arhivske datoteke#

Korak 3: Konfiguriranje postavki prepoznavanja#

Korak 4: Izvlačenje teksta u batch#

Korak 5: Izgradnja ili ažuriranje indeksa pretraživanja#

Korak 6: Integracija pretraživanja s arhivskim preglednikom#

Korak 7: Dodavanje rješavanja pogrešaka#

Najbolje prakse#

More in this category