Aby skanowane dokumenty były wyszukiwane za pomocą Aspose.OCR .NET | File Format Processing Plugins for C# .NET Core

Aspose.OCR dla .NET oferuje potężne rozwiązanie tego problemu poprzez umożliwienie deweloperom ekstrakcji tekstu z obrazów i uczynienie ich wyszukiwalnymi. Ten post na blogu poprowadzi Cię przez proces ustawienia środowiska rozwojowego, konfiguracji ustawień rozpoznawania, wydobywania tekstu w zestawie, budowania lub aktualizacji indeksu wyszukującego, integracji funkcji poszukiwania z przeglądarką archiwum i dodania solidnego zarządzania błędem.

Pełny przykład

Przewodnik krok po kroku

Krok 1: Tworzenie środowiska rozwoju

Aby zacząć z Aspose.OCR dla .NET, musisz mieć ustawione środowisko rozwojowe. to obejmuje instalację niezbędnych SDK i wszelkich uzależnień. można pobrać najnowszą wersję Asposa.ocR z oficjalnej strony internetowej i dodać go do projektu za pośrednictwem NuGet lub poprzez odniesienie do DLL bezpośrednio.

Krok 2: Zorganizuj swoje pliki archiwum

Zanim zaczniesz przetwarzać dokumenty, zorganizuj skanowane pliki dokumentów w strukturę katalogu, która ma sens dla twojego przepływu pracy. To może być oparte na datie, rodzaju dokumentu lub jakichkolwiek innych istotnych kryteriów. Upewnij się, że wszystkie pliky są dostępne z aplikacji i że są one w formacie wspieranym przez Aspose.OCR (takich jak JPEG, PNG, TIFF itp.).

Krok 3: Konfiguracja ustawień rozpoznawania

Aspose.OCR pozwala sprawdzić proces rozpoznawania, aby dopasować się do Twoich konkretnych potrzeb. Możesz skonfigurować ustawienia, takie jak język, typ czcionki i opcje wstępnego przetwarzania obrazu. Na przykład, jeśli pracujesz z dokumentami w języku angielskim, ustawiasz języek na “Angielski”.

// Step 2: Organize scanned document files into a directory structure
string inputDirectory = @"C:\ScannedDocuments\2023\Invoices";
string[] supportedFormats = { ".jpg", ".png", ".tiff" };

// Get all supported files from the directory
var files = Directory.GetFiles(inputDirectory)
                     .Where(f => supportedFormats.Contains(Path.GetExtension(f), StringComparer.OrdinalIgnoreCase))
                     .ToArray();

Krok 4: Ekstrakcja tekstu w zestawie

Po skonfigurowaniu ustawień możesz rozpocząć ekstrakcję tekstu z dokumentów. Aspose.OCR obsługuje przetwarzanie zestawów, co oznacza, że możesz przetwarzać wiele plików naraz. Jest to szczególnie przydatne dla dużych archiwów skanowanych materiałów.

// Step 3: Configuring Recognition Settings
ocrEngine.SetLanguage(Language.English);
ocrEngine.SetImagePreprocessing(ImagePreprocessingOptions.Denoising);
ocrEngine.SetResolution(300); // Set DPI for better text detection

Krok 5: Budowanie lub aktualizacja indeksu wyszukiwania

Po wyciągnięciu tekstu z dokumentów musisz zbudować lub zaktualizować indeks wyszukiwania, który pozwala użytkownikom szybko znaleźć odpowiednie dokumenty w oparciu o badania słów kluczowych.

// Step 4: Extract text in batch from a directory of images
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\results";

ocrEngine.RecognizeMultiple(inputDirectory, outputDirectory);

Krok 6: Integracja wyszukiwania z przeglądarką archiwów

Aby Twoje dokumenty do wyszukiwania były dostępne dla użytkowników końcowych, musisz zintegrować funkcję wyszukania w aplikacji przeglądarki archiwum. Może to być interfejs internetowy lub aplikacja na pulpicie.

// Step 5: Building or Updating a Search Index
// Store extracted text in a searchable format (e.g., database or inverted index file)
string extractedText = ocrEngine.RecognizePage("scannedDocument.png").CodeText;
File.WriteAllText("searchIndex.txt", extractedText);

Krok 7: Dodawanie błędów

Wreszcie, ważne jest, aby dodać solidną obsługę błędów do aplikacji w celu zapewnienia, że może łaskawie radzić sobie z nieoczekiwanymi problemami, takimi jak skorumpowane pliki lub błędy sieciowe.

Najlepsze praktyki

Uczynienie skanowanych dokumentów do wyszukiwania jest potężnym sposobem na poprawę użyteczności archiwów cyfrowych. Postępując zgodnie z krokami przedstawionymi w tym instrukcji, można wykorzystać Aspose.OCR dla .NET do ekstrakcji tekstu z obrazów i zintegrować go do formatu poszukiwanego. Pamiętaj, aby dokładnie przetestować aplikację z różnymi rodzajami dokumentu i w różnych warunkach w celu zapewnienia wiarygodności. Dodatkowo, rozważyć wdrażanie funkcji takich jak ocena jakości OCR i automatyczna korekcja dalszej poprawy dokładności procesu wyciągania tekstu.

Pełny przykład#

Przewodnik krok po kroku#

Krok 1: Tworzenie środowiska rozwoju#

Krok 2: Zorganizuj swoje pliki archiwum#

Krok 3: Konfiguracja ustawień rozpoznawania#

Krok 4: Ekstrakcja tekstu w zestawie#

Krok 5: Budowanie lub aktualizacja indeksu wyszukiwania#

Krok 6: Integracja wyszukiwania z przeglądarką archiwów#

Krok 7: Dodawanie błędów#

Najlepsze praktyki#

More in this category