Aspose.OCR för .NET erbjuder en kraftfull lösning på detta problem genom att tillåta utvecklare att extrahera text från bilder och göra dem sökbara. Denna bloggpost kommer att leda dig genom processen att ställa in din utvecklingsmiljö, konfigurera erkännandeinställningar, extraherar text i batch, bygga eller uppdatera en sökindex, integrera sökfunktionalitet med en arkivsökare, och lägga till robust felhantering. Vid slutet av denna tutorial, kommer du att ha en omfattande förståelse för hur man gör scannade dokument sökbar med hjälp av Aspos.OCR för.NET.

Fullständigt exempel

Steg för steg guide

Steg 1: Ställ upp ditt utvecklingsmiljö

För att börja med Aspose.OCR för .NET måste du ha en utvecklingsmiljö installerad. Detta inkluderar att installera de nödvändiga SDK och eventuella beroenden. Du kan ladda ner den senaste versionen av Asposa.ocR från den officiella hemsidan och lägga till den till ditt projekt via NuGet eller genom att hänvisa till DLL direkt.

Steg 2: Organisera dina arkivfiler

Innan du börjar behandla dokument organiserar du dina skannade dokumentfiler i en katalogstruktur som gör mening för din arbetsflöde. Detta kan baseras på datum, dokumenttyp eller andra relevanta kriterier. Se till att alla filer är tillgängliga från din ansökan och att de är i ett format som stöds av Aspose.OCR (som JPEG, PNG, TIFF, etc.).

Steg 3: Konfigurera identifieringsinställningar

Aspose.OCR gör att du kan finjustera processen för att passa dina specifika behov. Du kan konfigurera inställningar som språk, font typ och bild förbehandling alternativ. Till exempel, om du arbetar med dokument på engelska, du skulle ställa in språket till “Engelska”.

// Step 2: Organize scanned document files into a directory structure
string inputDirectory = @"C:\ScannedDocuments\2023\Invoices";
string[] supportedFormats = { ".jpg", ".png", ".tiff" };

// Get all supported files from the directory
var files = Directory.GetFiles(inputDirectory)
                     .Where(f => supportedFormats.Contains(Path.GetExtension(f), StringComparer.OrdinalIgnoreCase))
                     .ToArray();

Steg 4: Att extrahera text i batch

När dina inställningar är konfigurerade kan du börja extrahera text från dina dokument. Aspose.OCR stöder batchbehandling, vilket innebär att du kan behandla flera filer på en gång. Detta är särskilt användbart för stora arkiv av skannade handlingar.

// Step 3: Configuring Recognition Settings
ocrEngine.SetLanguage(Language.English);
ocrEngine.SetImagePreprocessing(ImagePreprocessingOptions.Denoising);
ocrEngine.SetResolution(300); // Set DPI for better text detection

Steg 5: Bygg eller uppdatera en sökindex

Efter att du har extraherat text från dina dokument måste du bygga eller uppdatera en sökindex som gör det möjligt för användare att snabbt hitta relevanta dokument baserat på sökord.

// Step 4: Extract text in batch from a directory of images
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\results";

ocrEngine.RecognizeMultiple(inputDirectory, outputDirectory);

Steg 6: Integrera sökning med en arkivseverantör

För att göra dina sökbara dokument tillgängliga för slutanvändare måste du integrera sökfunktionaliteten i en arkivvisarapplikation. Detta kan vara ett webbaserat gränssnitt eller en skrivbordsapp. Visaren bör tillåta användare att söka genom indexerad text och visa motsvarande scannade dokument.

// Step 5: Building or Updating a Search Index
// Store extracted text in a searchable format (e.g., database or inverted index file)
string extractedText = ocrEngine.RecognizePage("scannedDocument.png").CodeText;
File.WriteAllText("searchIndex.txt", extractedText);

Steg 7: Lägga till felhantering

Slutligen är det viktigt att lägga till robust felhantering till din applikation för att säkerställa att det kan vänligt hantera oväntade problem som korrupta filer eller nätverksfel. Detta inkluderar loggfel för debugging syften och tillhandahålla användarvänliga felmeddelanden när det behövs.

Bästa praxis

Att göra scannade dokument sökbara är ett kraftfullt sätt att förbättra användbarheten av digitala arkiv. Genom att följa de steg som anges i denna tutorial, kan du använda Aspose.OCR för .NET för att extrahera text från bilder och integrera det i ett sökbart format. Kom ihåg att testa din ansökan noggrant med olika typer av dokument och under olika förhållanden att säkerställa tillförlitlighet. Dessutom, överväga genomförandet av funktioner som OCR-kvalitetsbedömning och automatisk korrigering för ytterligare förbättring av korrektheten i textutvinningsprocessen.

More in this category