Fer que els documents escanats siguin buscables amb Aspose.OCR .NET | File Format Processing Plugins for C# .NET Core

Aspose.OCR per .NET ofereix una potent solució a aquest problema per permetre als desenvolupadors extreure text d’imatges i fer-los buscables. Aquest post del blog us guiarà a través del procés de configuració del vostre entorn de desenvolupament, configurant les configuracions de reconeixement, extreur text en batx, construir o actualitzar un índex de cerca, integrar la funcionalitat de la cerca amb un visuador d’arxius, i afegir robust tractament de errors.

Exemple complet

Guia de pas a pas

Pas 1: Desenvolupar el teu entorn de desenvolupament

Per començar amb Aspose.OCR per a .NET, cal tenir un entorn de desenvolupament establert. Això inclou instal·lar els SDKs necessaris i qualsevol dependència. Pots descarregar la darrera versió d’Asposa.ocR des del lloc web oficial i afegir-lo al teu projecte a través de NuGet o referint-se al DLL directament.

Pas 2: Organitzar els seus arxius

Abans de començar a processar documents, organitza els seus arxius de document escanats en una estructura de directori que fa sentit per al seu flux de treball. Això pot ser basat en la data, el tipus del document, o qualsevol altre criteri rellevant. Assegureu-vos que tots els fitxers són accessibles des de la vostra aplicació i que estan en un format recolzat per Aspose.OCR (com JPEG, PNG, TIFF, etc.).

Pas 3: Configuració de les configuracions de reconeixement

Aspose.OCR li permet finalitzar el procés de reconeixement per adaptar-se a les seves necessitats específiques. vostè pot configurar configuracions com ara el llenguatge, el tipus de font i les opcions de preprocessament d’imatge. Per exemple, si està treballant amb documents en anglès, s’estableix la llengua a “anglès”.

// Step 2: Organize scanned document files into a directory structure
string inputDirectory = @"C:\ScannedDocuments\2023\Invoices";
string[] supportedFormats = { ".jpg", ".png", ".tiff" };

// Get all supported files from the directory
var files = Directory.GetFiles(inputDirectory)
                     .Where(f => supportedFormats.Contains(Path.GetExtension(f), StringComparer.OrdinalIgnoreCase))
                     .ToArray();

Pas 4: Extracció de text en batx

Una vegada que les seves configuracions s’han configurat, es pot començar a extreure text dels seus documents. Aspose.OCR suposa el processament d’un conjunt, el que significa que es poden processar múltiples fitxers alhora. Això és particularment útil per a grans arxius de documents escanats.

// Step 3: Configuring Recognition Settings
ocrEngine.SetLanguage(Language.English);
ocrEngine.SetImagePreprocessing(ImagePreprocessingOptions.Denoising);
ocrEngine.SetResolution(300); // Set DPI for better text detection

Pas 5: Construir o actualitzar un índex de cerca

Després d’extreure text dels seus documents, cal construir o actualitzar un índex de cerca que permet als usuaris trobar ràpidament els documents rellevants basats en les cerques de paraules clau.

// Step 4: Extract text in batch from a directory of images
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\results";

ocrEngine.RecognizeMultiple(inputDirectory, outputDirectory);

Pas 6: Integrar la cerca amb un visualitzador d’arxiu

Per fer que els seus documents buscables siguin accessibles als usuaris finals, cal integrar la funció de cerca en una aplicació de visualitzador d’arxius. Això podria ser una interfície basada en la web o un programa de tauleta. El visualisador hauria de permetre a l’usuari buscar a través del text indexat i veure els corresponents documents escanats.

// Step 5: Building or Updating a Search Index
// Store extracted text in a searchable format (e.g., database or inverted index file)
string extractedText = ocrEngine.RecognizePage("scannedDocument.png").CodeText;
File.WriteAllText("searchIndex.txt", extractedText);

Pas 7: Afegir el tractament d’errors

Finalment, és important afegir un robust tractament d’errors a la seva aplicació per assegurar-se que pugui gestionar amb gràcia problemes inesperats com arxius corromputs o errors de xarxa.

Les millors pràctiques

Fer que els documents escanats siguin buscables és una manera poderosa per millorar la usabilitat dels arxius digitals. En seguir els passos esmentats en aquest tutorial, pot utilitzar Aspose.OCR per .NET per extreure text d’imatges i integrar-lo en un format buscable. Recorda provar la seva aplicació de forma detallada amb diferents tipus de documents i sota diverses condicions per assegurar la fiabilidad.

Exemple complet#

Guia de pas a pas#

Pas 1: Desenvolupar el teu entorn de desenvolupament#

Pas 2: Organitzar els seus arxius#

Pas 3: Configuració de les configuracions de reconeixement#

Pas 4: Extracció de text en batx#

Pas 5: Construir o actualitzar un índex de cerca#

Pas 6: Integrar la cerca amb un visualitzador d’arxiu#

Pas 7: Afegir el tractament d’errors#

Les millors pràctiques#

More in this category