
Dokumenty PDF są integralną częścią różnych procesów biznesowych, często wymagając programatycznego dostępu do ich zeskanowanej zawartości. Ekstrakcja tekstu z zeskanowanych plików PDF może być skomplikowanym zadaniem, co podkreśla potrzebę skutecznych narzędzi. W tym poradniku zgłębimy jak przeprowadzić OCR na dokumentach PDF i wyodrębnić tekst z PDF w C# przy użyciu niezawodnego Aspose.OCR dla .NET API, wiodącej biblioteki C# do ekstrakcji OCR PDF dostępnej do bezpłatnej oceny.
Czego się nauczysz
W tym artykule omówimy następujące tematy:
- Przegląd Aspose.OCR dla .NET API
- Kroki do OCR PDF i Ekstrakcji Tekstu
- Jak przeprowadzić OCR na PDF i zapisać tekst
- Konwersja OCR PDF do Word
- Konwersja OCR PDF do JSON
Przegląd Aspose.OCR dla .NET API
Wykorzystamy Aspose.OCR dla .NET API, solidne .NET PDF OCR API zaprojektowane do rozpoznawania tekstu z zeskanowanych obrazów, zdjęć z telefonu komórkowego i zrzutów ekranu, zwracając wyniki w różnych formatach dokumentów. To API nie tylko konwertuje obrazy na tekst, ale także tworzy przeszukiwalne PDF-y z zeskanowanych dokumentów i poprawia wszelkie błędy ortograficzne w rozpoznanym tekście, co czyni je jednym z najszybszych rozwiązań C# PDF OCR dostępnych za jedyne 99 USD.
API zawiera klasę AsposeOcr, która oferuje wiele metod do operacji OCR. Szczególnie istotna jest metoda RecognizePdf(string, DocumentRecognitionSettings), która jest kluczowa do wyodrębnienia tekstu z określonego dokumentu PDF. Klasa DocumentRecognitionSettings pozwala na dostosowanie procesu rozpoznawania, podczas gdy klasa RecognitionResult kapsułkuje wyniki rozpoznawania.
Możesz pobrać DLL API lub zainstalować je za pomocą NuGet:
PM> Install-Package Aspose.OCR
Kroki do OCR PDF i Ekstrakcji Tekstu w C#
Aby przeprowadzić OCR na dokumentach PDF i wyodrębnić rozpoznany tekst, wykonaj następujące kroki:
- Utwórz instancję klasy AsposeOcr.
- Zainicjalizuj obiekt klasy DocumentRecognitionSettings.
- Określ język dla OCR.
- Uzyskaj RecognitionResult, wywołując metodę RecognizePdf(), przekazując ścieżkę do obrazu i obiekt DocumentRecognitionSettings.
- Przeiteruj przez listę RecognitionResult, aby wyświetlić zidentyfikowany tekst.
Oto przykład ilustrujący jak przeprowadzić OCR na dokumentach PDF i wyodrębnić rozpoznany tekst w C#:
Jak przeprowadzić OCR na PDF i zapisać tekst w C#
Aby przeprowadzić OCR na dokumentach PDF i zapisać rozpoznany tekst, wykonaj następujące kroki:
- Utwórz instancję klasy AsposeOcr.
- Zainicjalizuj obiekt klasy DocumentRecognitionSettings.
- Określ język dla OCR.
- Wywołaj metodę RecognizePdf(), aby uzyskać RecognitionResult.
- Zapisz tekst za pomocą metody SaveMultipageDocument(), która wymaga ścieżki do pliku wyjściowego, SaveFormat i obiektu RecognitionResult.
Oto przykład demonstrujący jak przeprowadzić OCR na dokumentach PDF i zapisać rozpoznany tekst w C#:
Konwersja OCR PDF do Word w C#
Aby przekonwertować zeskanowane dokumenty PDF na Word, wykonaj te same kroki, co wcześniej, ale w ostatnim kroku określ SaveFormat.Docx.
Oto przykład ilustrujący jak przeprowadzić OCR na PDF i zapisać rozpoznany tekst jako dokument Word w C#:
Konwersja OCR PDF do JSON w C#
Aby zapisać rozpoznany tekst z dokumentów PDF w pliku JSON, wykonaj poprzednie kroki, zmieniając jedynie określenie SaveFormat.Json w ostatnim kroku.
Oto przykład demonstrujący jak przeprowadzić OCR na PDF i zapisać rozpoznany tekst jako plik JSON w C#:
Uzyskaj bezpłatną licencję oceny
Możesz uzyskać bezpłatną tymczasową licencję, aby ocenić Aspose.OCR dla .NET API bez żadnych ograniczeń.
Podsumowanie
W tym poradniku nauczyliśmy się, jak przeprowadzić OCR na dokumentach PDF i wyodrębnić tekst z PDF w C#. Zbadaliśmy również, jak zapisać rozpoznany tekst jako plik TXT, DOCX i JSON. Aby uzyskać więcej informacji na temat Aspose.OCR dla .NET API, zapoznaj się z jego dokumentacją. Jeśli masz jakiekolwiek pytania, skontaktuj się z nami na naszym forum.
Zobacz także
- Konwertuj zrzut ekranu na tekst z OCR w C#
- OCR obraz na tekst i korekcja ortograficzna w C#
- Konwertuj zeskanowany PDF na przeszukiwalny PDF z OCR w C#
Wykorzystując Aspose.OCR dla .NET API, możesz wdrożyć wysoką dokładność OCR PDF w C# dla różnych aplikacji, w tym przetwarzania faktur i obsługi formularzy. To przystępne rozwiązanie .NET PDF OCR jest idealne dla programistów, którzy chcą efektywnie zintegrować funkcje OCR PDF w swoich aplikacjach.