Aspose.OCR pentru .NET oferă o soluție puternică la această problemă, permițându-i dezvoltatorilor să extrage text din imagini și să le facă posibilă căutarea. Acest post de blog vă va ghida prin procesul de setare a mediului de dezvoltare, configurarea setărilor de recunoaștere, extragerea textului în batch, construirea sau actualizarea unui index de căutare, integrarea funcționalității de Căutare cu un vizualizator de arhive și adăugarea unei gestionări robuste a erorilor.

Exemplu complet

Ghidul pas cu pas

Pasul 1: Crearea unui mediu de dezvoltare

Pentru a începe cu Aspose.OCR pentru .NET, trebuie să aveți un mediu de dezvoltare stabilit.Acest lucru include instalarea SDK-ului necesar și a oricărei dependențe.Puteți descărca cea mai recentă versiune a ASPOSE.OKR de pe site-ul oficial și să o adăugați la proiectul dvs. prin NuGet sau prin referința directă la DLL.

Pasul 2: Organizați fișierele de arhivă

Înainte de a începe prelucrarea documentelor, organizați fișierele de document scanate într-o structură de directorie care face sens pentru fluxul de lucru. Acest lucru ar putea fi bazat pe data, tipul documentului sau orice alte criterii relevante. Asigurați-vă că toate fișiere sunt accesibile din aplicația dvs. și că acestea sunt în un format susținut de Aspose.OCR (cum ar fi JPEG, PNG, TIFF, etc.).

Pasul 3: Configurarea setărilor de recunoaștere

Aspose.OCR vă permite să fin-tune procesul de recunoaștere pentru a vă potrivi nevoile specifice. puteți configura setări cum ar fi limba, tip de font și opțiuni de prelucrare a imaginii. De exemplu, dacă lucrați cu documente în limba engleză, veți defini limba în “English”. În plus, ar putea dori să ajustați setarea DPI pentru o mai bună detecție a textului pe imagini cu rezoluție ridicată.

// Step 2: Organize scanned document files into a directory structure
string inputDirectory = @"C:\ScannedDocuments\2023\Invoices";
string[] supportedFormats = { ".jpg", ".png", ".tiff" };

// Get all supported files from the directory
var files = Directory.GetFiles(inputDirectory)
                     .Where(f => supportedFormats.Contains(Path.GetExtension(f), StringComparer.OrdinalIgnoreCase))
                     .ToArray();

Pasul 4: Extractarea textului în batch

Odată ce setările sunt configurate, puteți începe să extrageți text din documentele dvs. Aspose.OCR susține prelucrarea seturilor, ceea ce înseamnă că puteţi procesa mai multe fișiere la un moment dat. Acest lucru este deosebit de util pentru arhivele mari de documente scanate.

// Step 3: Configuring Recognition Settings
ocrEngine.SetLanguage(Language.English);
ocrEngine.SetImagePreprocessing(ImagePreprocessingOptions.Denoising);
ocrEngine.SetResolution(300); // Set DPI for better text detection

Pasul 5: Crearea sau actualizarea unui index de căutare

După ce extrageți textul din documentele dvs., trebuie să creați sau să actualizați un index de căutare care permite utilizatorilor să găsească rapid documente relevante bazate pe căutările de cuvinte cheie.

// Step 4: Extract text in batch from a directory of images
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\results";

ocrEngine.RecognizeMultiple(inputDirectory, outputDirectory);

Pasul 6: Integrarea căutării cu un vizualizator de arhive

Pentru a face documentele de căutare accesibile utilizatorilor finali, trebuie să integrați funcționalitatea căutării într-o aplicație de vizualizare a arhivelor. Aceasta ar putea fi o interfață bazată pe web sau o aplicare de desktop. Vizualizatorul ar trebui să permită utilizatorilor să caute prin textul indexat și să vadă documentația scanată corespunzătoare.

// Step 5: Building or Updating a Search Index
// Store extracted text in a searchable format (e.g., database or inverted index file)
string extractedText = ocrEngine.RecognizePage("scannedDocument.png").CodeText;
File.WriteAllText("searchIndex.txt", extractedText);

Pasul 7: Adăugarea erorilor de gestionare

În cele din urmă, este important să adăugați o gestionare robustă a erorilor în aplicația dvs. pentru a se asigura că poate gestiona cu milă problemele neașteptate, cum ar fi fi file corupte sau erori de rețea.

Cele mai bune practici

Fă documentele scanate disponibile pentru căutare este o modalitate puternică de a îmbunătăți utilizabilitatea arhivelor digitale. Prin urmarea pașilor enumerate în acest tutorial, puteți utiliza Aspose.OCR pentru .NET pentru a extrage text din imagini și să-l integrați într-un format care poate fi căutat. Amintiți-vă să testați aplicația dvs. în detaliu cu diferite tipuri de documente și în diferite condiții de asigurare a fiabilității.

More in this category