Aspose.OCR dla .NET oferuje potężne rozwiązanie tego problemu poprzez umożliwienie deweloperom ekstrakcji tekstu z obrazów i uczynienie ich wyszukiwalnymi. Ten post na blogu poprowadzi Cię przez proces ustawienia środowiska rozwojowego, konfiguracji ustawień rozpoznawania, wydobywania tekstu w zestawie, budowania lub aktualizacji indeksu wyszukującego, integracji funkcji poszukiwania z przeglądarką archiwum i dodania solidnego zarządzania błędem.
Pełny przykład
Przewodnik krok po kroku
Krok 1: Tworzenie środowiska rozwoju
Aby zacząć z Aspose.OCR dla .NET, musisz mieć ustawione środowisko rozwojowe. to obejmuje instalację niezbędnych SDK i wszelkich uzależnień. można pobrać najnowszą wersję Asposa.ocR z oficjalnej strony internetowej i dodać go do projektu za pośrednictwem NuGet lub poprzez odniesienie do DLL bezpośrednio.
Krok 2: Zorganizuj swoje pliki archiwum
Zanim zaczniesz przetwarzać dokumenty, zorganizuj skanowane pliki dokumentów w strukturę katalogu, która ma sens dla twojego przepływu pracy. To może być oparte na datie, rodzaju dokumentu lub jakichkolwiek innych istotnych kryteriów. Upewnij się, że wszystkie pliky są dostępne z aplikacji i że są one w formacie wspieranym przez Aspose.OCR (takich jak JPEG, PNG, TIFF itp.).
Krok 3: Konfiguracja ustawień rozpoznawania
Aspose.OCR pozwala sprawdzić proces rozpoznawania, aby dopasować się do Twoich konkretnych potrzeb. Możesz skonfigurować ustawienia, takie jak język, typ czcionki i opcje wstępnego przetwarzania obrazu. Na przykład, jeśli pracujesz z dokumentami w języku angielskim, ustawiasz języek na “Angielski”.
// Step 2: Organize scanned document files into a directory structure
string inputDirectory = @"C:\ScannedDocuments\2023\Invoices";
string[] supportedFormats = { ".jpg", ".png", ".tiff" };
// Get all supported files from the directory
var files = Directory.GetFiles(inputDirectory)
.Where(f => supportedFormats.Contains(Path.GetExtension(f), StringComparer.OrdinalIgnoreCase))
.ToArray();
Krok 4: Ekstrakcja tekstu w zestawie
Po skonfigurowaniu ustawień możesz rozpocząć ekstrakcję tekstu z dokumentów. Aspose.OCR obsługuje przetwarzanie zestawów, co oznacza, że możesz przetwarzać wiele plików naraz. Jest to szczególnie przydatne dla dużych archiwów skanowanych materiałów.
// Step 3: Configuring Recognition Settings
ocrEngine.SetLanguage(Language.English);
ocrEngine.SetImagePreprocessing(ImagePreprocessingOptions.Denoising);
ocrEngine.SetResolution(300); // Set DPI for better text detection
Krok 5: Budowanie lub aktualizacja indeksu wyszukiwania
Po wyciągnięciu tekstu z dokumentów musisz zbudować lub zaktualizować indeks wyszukiwania, który pozwala użytkownikom szybko znaleźć odpowiednie dokumenty w oparciu o badania słów kluczowych.
// Step 4: Extract text in batch from a directory of images
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\results";
ocrEngine.RecognizeMultiple(inputDirectory, outputDirectory);
Krok 6: Integracja wyszukiwania z przeglądarką archiwów
Aby Twoje dokumenty do wyszukiwania były dostępne dla użytkowników końcowych, musisz zintegrować funkcję wyszukania w aplikacji przeglądarki archiwum. Może to być interfejs internetowy lub aplikacja na pulpicie.
// Step 5: Building or Updating a Search Index
// Store extracted text in a searchable format (e.g., database or inverted index file)
string extractedText = ocrEngine.RecognizePage("scannedDocument.png").CodeText;
File.WriteAllText("searchIndex.txt", extractedText);
Krok 7: Dodawanie błędów
Wreszcie, ważne jest, aby dodać solidną obsługę błędów do aplikacji w celu zapewnienia, że może łaskawie radzić sobie z nieoczekiwanymi problemami, takimi jak skorumpowane pliki lub błędy sieciowe.
Najlepsze praktyki
Uczynienie skanowanych dokumentów do wyszukiwania jest potężnym sposobem na poprawę użyteczności archiwów cyfrowych. Postępując zgodnie z krokami przedstawionymi w tym instrukcji, można wykorzystać Aspose.OCR dla .NET do ekstrakcji tekstu z obrazów i zintegrować go do formatu poszukiwanego. Pamiętaj, aby dokładnie przetestować aplikację z różnymi rodzajami dokumentu i w różnych warunkach w celu zapewnienia wiarygodności. Dodatkowo, rozważyć wdrażanie funkcji takich jak ocena jakości OCR i automatyczna korekcja dalszej poprawy dokładności procesu wyciągania tekstu.