Scaned Docs zoeken met Aspose.OCR .NET | File Format Processing Plugins for C# .NET Core

Aspose.OCR voor .NET biedt een krachtige oplossing voor dit probleem door ontwikkelaars in staat te stellen tekst uit afbeeldingen te extraheren en ze zoektochtbaar te maken. Dit blogpost zal u begeleiden door het proces van het instellen van uw ontwikkelingsomgeving, configureren herkenningsinstellingen, tekst in pakketten extrahiëren, een zoekindex bouwen of bijwerken, de zoekfunctie integreren met een archiefvisor en een robuste foutbehandeling toevoegen.

Volledige voorbeeld

Step-by-step gids

Stap 1: Stel je ontwikkelingsomgeving op

Om te beginnen met Aspose.OCR voor .NET, moet u een ontwikkelingsomgeving hebben ingesteld. Dit omvat het installeren van de nodige SDK’s en eventuele afhankelijkheden. U kunt de nieuwste versie van Asposa.ocR downloaden vanaf de officiële website en het toevoegen aan uw project via NuGet of door de DLL rechtstreeks te verwijzen.

Stap 2: Organiseren van uw archiefbestanden

Voordat u begint met het verwerken van documenten, organiseert u uw gescannelde documentbestanden in een directory-structuur die zinvol maakt voor uw werkstroom. Dit kan gebaseerd zijn op datum, documenttype, of andere relevante criteria. Zorg ervoor dat alle bestanden beschikbaar zijn vanuit uw applicatie en dat ze in het format zijn ondersteund door Aspose.OCR (zoals JPEG, PNG, TIFF, enz.).

Stap 3: Configureren van de herkenningsinstellingen

Aspose.OCR stelt u in staat om het herkenningsproces goed te tonen om aan uw specifieke behoeften te voldoen. U kunt instellingen zoals taal, lettertype en beeld voorverwerking opties configureren. Bijvoorbeeld, als u werkt met documenten in het Engels, zou u de taal instellen naar “Engels”.

// Step 2: Organize scanned document files into a directory structure
string inputDirectory = @"C:\ScannedDocuments\2023\Invoices";
string[] supportedFormats = { ".jpg", ".png", ".tiff" };

// Get all supported files from the directory
var files = Directory.GetFiles(inputDirectory)
                     .Where(f => supportedFormats.Contains(Path.GetExtension(f), StringComparer.OrdinalIgnoreCase))
                     .ToArray();

Stap 4: Het extraheren van tekst in batch

Zodra uw instellingen zijn geconfigureerd, kunt u beginnen met het extraheren van tekst uit uw documenten. Aspose.OCR ondersteunt batchverwerking, wat betekent dat u meerdere bestanden tegelijkertijd kunt verwerken. Dit is bijzonder nuttig voor grote archieven van gescannuleerde documents.

// Step 3: Configuring Recognition Settings
ocrEngine.SetLanguage(Language.English);
ocrEngine.SetImagePreprocessing(ImagePreprocessingOptions.Denoising);
ocrEngine.SetResolution(300); // Set DPI for better text detection

Stap 5: Het opbouwen of bijwerken van een zoekindex

Na het extraheren van tekst uit uw documenten, moet u een zoekindex opbouwen of bijwerken die gebruikers in staat stelt om snel relevante onderwerpen te vinden op basis van zoekwoorden.

// Step 4: Extract text in batch from a directory of images
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\results";

ocrEngine.RecognizeMultiple(inputDirectory, outputDirectory);

Stap 6: Het integreren van zoekopdrachten met een Archive Viewer

Om uw zoekdocumenten toegankelijk te maken voor eindgebruikers, moet u de zoekfunctie integreren in een archiefvisor-app. Dit kan een webgebaseerde interface of een desktop-applicatie zijn. De visor moet gebruikers toelaten om te zoeken via de geïndexeerde tekst en de overeenkomstige gescandeerde documenten te bekijken.

// Step 5: Building or Updating a Search Index
// Store extracted text in a searchable format (e.g., database or inverted index file)
string extractedText = ocrEngine.RecognizePage("scannedDocument.png").CodeText;
File.WriteAllText("searchIndex.txt", extractedText);

Stap 7: Toegevoegde foutbehandeling

Ten slotte is het belangrijk om robuste foutbehandeling toe te voegen aan uw applicatie om ervoor te zorgen dat het onvoorspelbare problemen zoals corrupte bestanden of netwerkfouten goed kan beheren. Dit omvat logging fouten voor debugging doeleinden en het verstrekken van gebruiksvriendelijke foutberichten wanneer nodig.

Beste praktijken

Het maken van gescannelde documenten zoektochtbaar is een krachtige manier om de gebruiksbaarheid van digitale archieven te verbeteren. Door de stappen die in deze tutorial worden beschreven te volgen, kunt u Aspose.OCR voor .NET gebruiken om tekst uit beelden te extraheren en te integreren in een zoekbare formaat. Vergeet niet om uw applicatie grondig te testen met verschillende soorten documents en onder verschillende omstandigheden om betrouwbaar te zijn.

Volledige voorbeeld#

Step-by-step gids#

Stap 1: Stel je ontwikkelingsomgeving op#

Stap 2: Organiseren van uw archiefbestanden#

Stap 3: Configureren van de herkenningsinstellingen#

Stap 4: Het extraheren van tekst in batch#

Stap 5: Het opbouwen of bijwerken van een zoekindex#

Stap 6: Het integreren van zoekopdrachten met een Archive Viewer#

Stap 7: Toegevoegde foutbehandeling#

Beste praktijken#

More in this category