Aspose.OCR per .NET offre una potente soluzione a questo problema consentendo agli sviluppatori di estrarre il testo dalle immagini e renderlo possibile per la ricerca. Questo post del blog vi guiderà attraverso il processo di configurazione del vostro ambiente di sviluppo, configurare le impostazioni di riconoscimento, extracting testo in batch, costruire o aggiornare un indice di ricerca, integrare la funzionalità di cerca con un visualizzatore di archivi, e aggiungere una solida gestione degli errori. Al termine di questo tutorial, avrai una comprensione completa di come fare i documenti scansionati possibili per l’utilizzo di Asposa.ocR.

Esempio completo

Guida passo dopo passo

Passo 1: Crea il tuo ambiente di sviluppo

Per iniziare con Aspose.OCR per .NET, è necessario avere un ambiente di sviluppo impostato.Questo include l’installazione del SDK necessario e qualsiasi dipendenza.Puoi scaricare la versione più recente dell’ASPOSE.OKR dal sito ufficiale e aggiungerla al tuo progetto tramite NuGet o facendo riferimento al DLL direttamente.

Passo 2: Organizzare i tuoi file di archivio

Prima di iniziare a elaborare i documenti, organizzare i file di documento scansionati in una struttura di directory che fa senso per il tuo flusso di lavoro. Questo potrebbe essere basato sulla data, il tipo del documento, o qualsiasi altro criterio rilevante. Assicurarsi che tutti i dati siano accessibili dalla tua applicazione e che siano in un formato supportato da Aspose.OCR (come JPEG, PNG, TIFF, ecc.).

Passo 3: Configurare le impostazioni di riconoscimento

Aspose.OCR ti consente di perfezionare il processo di riconoscimento per soddisfare le tue esigenze specifiche. Puoi configurare impostazioni come il linguaggio, il tipo di font e le opzioni di pre-processamento dell’immagine. Ad esempio, se stai lavorando con i documenti in inglese, ti impostare la lingua a “Inghilterra”. Inoltre, potrebbe voler adattare l’impostazione DPI per una migliore rilevazione del testo su immagini ad alta risoluzione.

// Step 2: Organize scanned document files into a directory structure
string inputDirectory = @"C:\ScannedDocuments\2023\Invoices";
string[] supportedFormats = { ".jpg", ".png", ".tiff" };

// Get all supported files from the directory
var files = Directory.GetFiles(inputDirectory)
                     .Where(f => supportedFormats.Contains(Path.GetExtension(f), StringComparer.OrdinalIgnoreCase))
                     .ToArray();

Passo 4: Estratto di testo in batch

Una volta che le tue impostazioni sono configurate, puoi iniziare a estrarre testo dai tuoi documenti. Aspose.OCR supporta il processamento del pacchetto, il che significa che puoi elaborare più file contemporaneamente. Questo è particolarmente utile per grandi archivi di documentari scansionati. Puoi specificare il directory che contiene le immagini e lasciare Asposa.ocR gestire il resto.

// Step 3: Configuring Recognition Settings
ocrEngine.SetLanguage(Language.English);
ocrEngine.SetImagePreprocessing(ImagePreprocessingOptions.Denoising);
ocrEngine.SetResolution(300); // Set DPI for better text detection

Passo 5: Costruire o aggiornare un indice di ricerca

Dopo aver estratto il testo dai tuoi documenti, è necessario creare o aggiornare un indice di ricerca che consente agli utenti di trovare rapidamente i dati pertinenti basati sulle ricerche di parole chiave.

// Step 4: Extract text in batch from a directory of images
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\results";

ocrEngine.RecognizeMultiple(inputDirectory, outputDirectory);

Passo 6: Integrare la ricerca con un archivista

Per rendere i documenti che si possono cercare accessibili agli utenti finali, è necessario integrare la funzionalità di ricerca in un’applicazione del visualizzatore di archivi.Questo potrebbe essere una interfaccia basata sul web o una applicazione desktop.Il Visualizzante dovrebbe consentire all’utente di fare la ricerca attraverso il testo indexato e vedere i corrispondenti Documenti scansionati.

// Step 5: Building or Updating a Search Index
// Store extracted text in a searchable format (e.g., database or inverted index file)
string extractedText = ocrEngine.RecognizePage("scannedDocument.png").CodeText;
File.WriteAllText("searchIndex.txt", extractedText);

Passo 7: Aggiungi errori di gestione

Infine, è importante aggiungere una solida gestione degli errori alla tua applicazione per garantire che possa gestire graziosamente problemi inaspettati come file corrotti o bug di rete.

Migliori pratiche

Facendo che i documenti scansionati possano essere visualizzati è un potente modo per migliorare l’usabilità degli archivi digitali. Seguendo i passaggi indicati in questo tutorial, è possibile sfruttare Aspose.OCR per .NET per estrarre il testo dalle immagini e integrarlo in un formato da cercare. Ricordate di testare la vostra applicazione in modo approfondito con diversi tipi di Documenti e in varie condizioni per garantire la affidabilità. Inoltre, considerate implementare funzionalità come la valutazione della qualità OCR e la correzione automatica per aumentare ulteriormente la precisione del processo di estrazione del testo.

More in this category