PDF-документы являются важной частью многих бизнес-процессов, часто требуя программного доступа к их отсканированному содержимому. Извлечение текста из отсканированных PDF-файлов может быть сложной задачей, что подчеркивает необходимость эффективных инструментов. В этом учебном пособии мы изучим как выполнять OCR PDF-документы и извлекать текст из PDF на C# с использованием надежного Aspose.OCR для .NET API, ведущей библиотеки C# для извлечения текста из PDF с помощью OCR, доступной для бесплатной оценки.

Что вы узнаете

В этой статье мы рассмотрим следующие темы:

  1. Обзор Aspose.OCR для .NET API
  2. Шаги для OCR PDF и извлечения текста
  3. Как выполнить OCR на PDF и сохранить текст
  4. Конвертация OCR PDF в Word
  5. Конвертация OCR PDF в JSON

Обзор Aspose.OCR для .NET API

Мы будем использовать Aspose.OCR для .NET API, мощный .NET PDF OCR API, предназначенный для распознавания текста из отсканированных изображений, фотографий со смартфонов и скриншотов, возвращая результаты в различных форматах документов. Этот API не только конвертирует изображения в текст, но также создает поисковые PDF из сканов и исправляет любые орфографические ошибки в распознанном тексте, что делает его одним из самых быстрых C# PDF OCR решений, доступных всего за 99 долларов.

API включает класс AsposeOcr, который предоставляет несколько методов для операций OCR. Особенно важен метод RecognizePdf(string, DocumentRecognitionSettings) для извлечения текста из указанного PDF-документа. Класс DocumentRecognitionSettings позволяет настроить процесс распознавания, в то время как класс RecognitionResult инкапсулирует результаты распознавания.

Вы можете скачать DLL API или установить его через NuGet:

PM> Install-Package Aspose.OCR

Шаги для OCR PDF и извлечения текста на C#

Чтобы выполнить OCR на PDF-документах и извлечь распознанный текст, выполните следующие шаги:

  1. Создайте экземпляр класса AsposeOcr.
  2. Инициализируйте объект класса DocumentRecognitionSettings.
  3. Укажите язык для OCR.
  4. Получите RecognitionResult, вызвав метод RecognizePdf(), передав путь к изображению и объект DocumentRecognitionSettings.
  5. Пройдите по списку RecognitionResult, чтобы отобразить распознанный текст.

Вот пример, иллюстрирующий как выполнять OCR PDF-документы и извлекать распознанный текст на C#:

OCR PDF и извлечение текста из PDF на C#

Как выполнить OCR на PDF и сохранить текст на C#

Чтобы выполнить OCR на PDF-документах и сохранить распознанный текст, выполните следующие шаги:

  1. Создайте экземпляр класса AsposeOcr.
  2. Инициализируйте объект класса DocumentRecognitionSettings.
  3. Укажите язык для OCR.
  4. Вызовите метод RecognizePdf(), чтобы получить RecognitionResult.
  5. Сохраните текст, используя метод SaveMultipageDocument(), который требует путь к выходному файлу, SaveFormat и объект RecognitionResult.

Вот пример, демонстрирующий как выполнять OCR PDF-документы и сохранять распознанный текст на C#:

Выполнение OCR на PDF и сохранение текста на C#

Конвертация OCR PDF в Word на C#

Чтобы конвертировать отсканированные PDF-документы в Word, выполните те же шаги, как описано ранее, но укажите SaveFormat.Docx на последнем шаге.

Вот пример, иллюстрирующий как выполнять OCR PDF и сохранять распознанный текст как документ Word на C#:

OCR PDF и конвертация отсканированного PDF в Word на C#

Конвертация OCR PDF в JSON на C#

Чтобы сохранить распознанный текст из PDF-документов в файл JSON, выполните предыдущие шаги с единственным изменением — укажите SaveFormat.Json на последнем шаге.

Вот пример, демонстрирующий как выполнять OCR PDF и сохранять распознанный текст как файл JSON на C#:

Получите бесплатную лицензию на оценку

Вы можете получить бесплатную временную лицензию для оценки Aspose.OCR для .NET API без каких-либо ограничений.

Заключение

В этом учебном пособии мы узнали, как выполнять OCR на PDF-документах и извлекать текст из PDF на C#. Мы также изучили, как сохранить распознанный текст в файлы TXT, DOCX и JSON. Для получения дополнительной информации об Aspose.OCR для .NET API, ознакомьтесь с его документацией. Если у вас есть какие-либо вопросы, не стесняйтесь обращаться к нам на нашем форуме.

См. также

Используя Aspose.OCR для .NET API, вы можете реализовать высокую точность PDF OCR на C# для различных приложений, включая обработку счетов и работу с формами. Это доступное .NET PDF OCR решение идеально подходит для разработчиков, стремящихся эффективно интегрировать возможности OCR PDF в свои приложения. С помощью C# библиотеки для PDF OCR и извлечения текста вы можете обеспечить точные результаты в ваших проектах.