Dokumenty PDF są integralną częścią różnych procesów biznesowych, często wymagając programatycznego dostępu do ich zeskanowanej zawartości. Ekstrakcja tekstu z zeskanowanych plików PDF może być skomplikowanym zadaniem, co podkreśla potrzebę skutecznych narzędzi. W tym poradniku zgłębimy jak przeprowadzić OCR na dokumentach PDF i wyodrębnić tekst z PDF w C# przy użyciu niezawodnego Aspose.OCR dla .NET API, wiodącej biblioteki C# do ekstrakcji OCR PDF dostępnej do bezpłatnej oceny.

Czego się nauczysz

W tym artykule omówimy następujące tematy:

  1. Przegląd Aspose.OCR dla .NET API
  2. Kroki do OCR PDF i Ekstrakcji Tekstu
  3. Jak przeprowadzić OCR na PDF i zapisać tekst
  4. Konwersja OCR PDF do Word
  5. Konwersja OCR PDF do JSON

Przegląd Aspose.OCR dla .NET API

Wykorzystamy Aspose.OCR dla .NET API, solidne .NET PDF OCR API zaprojektowane do rozpoznawania tekstu z zeskanowanych obrazów, zdjęć z telefonu komórkowego i zrzutów ekranu, zwracając wyniki w różnych formatach dokumentów. To API nie tylko konwertuje obrazy na tekst, ale także tworzy przeszukiwalne PDF-y z zeskanowanych dokumentów i poprawia wszelkie błędy ortograficzne w rozpoznanym tekście, co czyni je jednym z najszybszych rozwiązań C# PDF OCR dostępnych za jedyne 99 USD.

API zawiera klasę AsposeOcr, która oferuje wiele metod do operacji OCR. Szczególnie istotna jest metoda RecognizePdf(string, DocumentRecognitionSettings), która jest kluczowa do wyodrębnienia tekstu z określonego dokumentu PDF. Klasa DocumentRecognitionSettings pozwala na dostosowanie procesu rozpoznawania, podczas gdy klasa RecognitionResult kapsułkuje wyniki rozpoznawania.

Możesz pobrać DLL API lub zainstalować je za pomocą NuGet:

PM> Install-Package Aspose.OCR

Kroki do OCR PDF i Ekstrakcji Tekstu w C#

Aby przeprowadzić OCR na dokumentach PDF i wyodrębnić rozpoznany tekst, wykonaj następujące kroki:

  1. Utwórz instancję klasy AsposeOcr.
  2. Zainicjalizuj obiekt klasy DocumentRecognitionSettings.
  3. Określ język dla OCR.
  4. Uzyskaj RecognitionResult, wywołując metodę RecognizePdf(), przekazując ścieżkę do obrazu i obiekt DocumentRecognitionSettings.
  5. Przeiteruj przez listę RecognitionResult, aby wyświetlić zidentyfikowany tekst.

Oto przykład ilustrujący jak przeprowadzić OCR na dokumentach PDF i wyodrębnić rozpoznany tekst w C#:

OCR PDF i Ekstrakcja Tekstu z PDF w C#

Jak przeprowadzić OCR na PDF i zapisać tekst w C#

Aby przeprowadzić OCR na dokumentach PDF i zapisać rozpoznany tekst, wykonaj następujące kroki:

  1. Utwórz instancję klasy AsposeOcr.
  2. Zainicjalizuj obiekt klasy DocumentRecognitionSettings.
  3. Określ język dla OCR.
  4. Wywołaj metodę RecognizePdf(), aby uzyskać RecognitionResult.
  5. Zapisz tekst za pomocą metody SaveMultipageDocument(), która wymaga ścieżki do pliku wyjściowego, SaveFormat i obiektu RecognitionResult.

Oto przykład demonstrujący jak przeprowadzić OCR na dokumentach PDF i zapisać rozpoznany tekst w C#:

Wykonaj OCR na PDF i Zapisz Tekst w C#

Konwersja OCR PDF do Word w C#

Aby przekonwertować zeskanowane dokumenty PDF na Word, wykonaj te same kroki, co wcześniej, ale w ostatnim kroku określ SaveFormat.Docx.

Oto przykład ilustrujący jak przeprowadzić OCR na PDF i zapisać rozpoznany tekst jako dokument Word w C#:

OCR PDF i Konwersja Zeskanowanego PDF do Word w C#

Konwersja OCR PDF do JSON w C#

Aby zapisać rozpoznany tekst z dokumentów PDF w pliku JSON, wykonaj poprzednie kroki, zmieniając jedynie określenie SaveFormat.Json w ostatnim kroku.

Oto przykład demonstrujący jak przeprowadzić OCR na PDF i zapisać rozpoznany tekst jako plik JSON w C#:

Uzyskaj bezpłatną licencję oceny

Możesz uzyskać bezpłatną tymczasową licencję, aby ocenić Aspose.OCR dla .NET API bez żadnych ograniczeń.

Podsumowanie

W tym poradniku nauczyliśmy się, jak przeprowadzić OCR na dokumentach PDF i wyodrębnić tekst z PDF w C#. Zbadaliśmy również, jak zapisać rozpoznany tekst jako plik TXT, DOCX i JSON. Aby uzyskać więcej informacji na temat Aspose.OCR dla .NET API, zapoznaj się z jego dokumentacją. Jeśli masz jakiekolwiek pytania, skontaktuj się z nami na naszym forum.

Zobacz także

Wykorzystując Aspose.OCR dla .NET API, możesz wdrożyć wysoką dokładność OCR PDF w C# dla różnych aplikacji, w tym przetwarzania faktur i obsługi formularzy. To przystępne rozwiązanie .NET PDF OCR jest idealne dla programistów, którzy chcą efektywnie zintegrować funkcje OCR PDF w swoich aplikacjach.