
PDF-документы являются неотъемлемой частью многих бизнес-процессов, часто требуя программного доступа к их отсканированному содержимому. Извлечение текста из отсканированных PDF-файлов может быть сложным, что делает эффективные инструменты необходимыми. В этом руководстве мы рассмотрим как выполнять OCR на PDF-документах и извлекать текст из PDF на C#, используя мощный Aspose.OCR для .NET API, ведущую библиотеку для извлечения текста из PDF на C#, доступную для бесплатной оценки.
Что вы узнаете
В этой статье мы рассмотрим следующие темы:
- Обзор Aspose.OCR для .NET API
- Шаги для OCR PDF и извлечения текста
- Как выполнить OCR на PDF и сохранить текст
- Конвертирование OCR PDF в Word
- Конвертирование OCR PDF в JSON
Обзор Aspose.OCR для .NET API
Мы будем использовать Aspose.OCR для .NET API, надежное решение для OCR PDF на .NET Core. Этот API специально разработан для распознавания текста с отсканированных изображений, фотографий со смартфонов и скриншотов, возвращая результаты в различных форматах документов. Он не только преобразует изображения в текст, но и создает поисковые PDF-документы из сканов и исправляет любые орфографические ошибки в распознанном тексте, что делает его одним из самых быстрых решений OCR PDF на C# всего за 99 долларов.
API включает класс AsposeOcr, который предлагает несколько методов для операций OCR. В частности, метод RecognizePdf(string, DocumentRecognitionSettings) является основным для извлечения текста из указанного PDF-документа. Класс DocumentRecognitionSettings позволяет настраивать процесс распознавания, в то время как класс RecognitionResult инкапсулирует результаты распознавания.
Вы можете скачать DLL API или установить его через NuGet:
PM> Install-Package Aspose.OCR
Шаги для OCR PDF и извлечения текста на C#
Чтобы выполнить OCR на PDF-документах и извлечь распознанный текст, выполните следующие шаги:
- Создайте экземпляр класса AsposeOcr.
- Инициализируйте объект класса DocumentRecognitionSettings.
- Укажите язык для OCR.
- Получите RecognitionResult, вызвав метод RecognizePdf(), передав путь к изображению и объект DocumentRecognitionSettings.
- Пройдите по списку RecognitionResult, чтобы отобразить распознанный текст.
Вот пример, иллюстрирующий как выполнять OCR на PDF-документах и извлекать распознанный текст на C#:

OCR PDF и Извлечение текста из PDF на C#
Как выполнить OCR на PDF и сохранить текст на C#
Чтобы выполнить OCR на PDF-документах и сохранить распознанный текст, выполните следующие шаги:
- Создайте экземпляр класса AsposeOcr.
- Инициализируйте объект класса DocumentRecognitionSettings.
- Укажите язык для OCR.
- Вызовите метод RecognizePdf(), чтобы получить RecognitionResult.
- Сохраните текст, используя метод SaveMultipageDocument(), который требует путь к выходному файлу, SaveFormat и объект RecognitionResult.
Вот пример, демонстрирующий как выполнять OCR на PDF-документах и сохранять распознанный текст на C#:

Выполнение OCR на PDF и Сохранение текста на C#
Конвертирование OCR PDF в Word на C#
Чтобы конвертировать отсканированные PDF-документы в Word, выполните те же шаги, что и ранее, но укажите SaveFormat.Docx на последнем шаге.
Вот пример, иллюстрирующий как выполнять OCR на PDF и сохранять распознанный текст в виде документа Word на C#:

OCR PDF и Конвертация отсканированного PDF в Word на C#
Конвертирование OCR PDF в JSON на C#
Чтобы сохранить распознанный текст из PDF-документов в файл JSON, выполните предыдущие шаги, изменив только последний шаг, указав SaveFormat.Json.
Вот пример, демонстрирующий как выполнять OCR на PDF и сохранять распознанный текст в виде файла JSON на C#:
Получите бесплатную лицензию для оценки
Вы можете получить бесплатную временную лицензию для оценки Aspose.OCR для .NET API без каких-либо ограничений.
Заключение
В этом руководстве мы узнали, как выполнять OCR на PDF-документах и извлекать текст из PDF на C#. Мы также рассмотрели, как сохранить распознанный текст в файлы TXT, DOCX и JSON. Для получения дополнительной информации об Aspose.OCR для .NET API ознакомьтесь с его документацией. Если у вас есть какие-либо вопросы, не стесняйтесь обращаться к нам на нашем форуме.