
PDF-документы являются важной частью многих бизнес-процессов, часто требуя программного доступа к их отсканированному содержимому. Извлечение текста из отсканированных PDF-файлов может быть сложной задачей, что подчеркивает необходимость эффективных инструментов. В этом учебном пособии мы изучим как выполнять OCR PDF-документы и извлекать текст из PDF на C# с использованием надежного Aspose.OCR для .NET API, ведущей библиотеки C# для извлечения текста из PDF с помощью OCR, доступной для бесплатной оценки.
Что вы узнаете
В этой статье мы рассмотрим следующие темы:
- Обзор Aspose.OCR для .NET API
- Шаги для OCR PDF и извлечения текста
- Как выполнить OCR на PDF и сохранить текст
- Конвертация OCR PDF в Word
- Конвертация OCR PDF в JSON
Обзор Aspose.OCR для .NET API
Мы будем использовать Aspose.OCR для .NET API, мощный .NET PDF OCR API, предназначенный для распознавания текста из отсканированных изображений, фотографий со смартфонов и скриншотов, возвращая результаты в различных форматах документов. Этот API не только конвертирует изображения в текст, но также создает поисковые PDF из сканов и исправляет любые орфографические ошибки в распознанном тексте, что делает его одним из самых быстрых C# PDF OCR решений, доступных всего за 99 долларов.
API включает класс AsposeOcr, который предоставляет несколько методов для операций OCR. Особенно важен метод RecognizePdf(string, DocumentRecognitionSettings) для извлечения текста из указанного PDF-документа. Класс DocumentRecognitionSettings позволяет настроить процесс распознавания, в то время как класс RecognitionResult инкапсулирует результаты распознавания.
Вы можете скачать DLL API или установить его через NuGet:
PM> Install-Package Aspose.OCR
Шаги для OCR PDF и извлечения текста на C#
Чтобы выполнить OCR на PDF-документах и извлечь распознанный текст, выполните следующие шаги:
- Создайте экземпляр класса AsposeOcr.
- Инициализируйте объект класса DocumentRecognitionSettings.
- Укажите язык для OCR.
- Получите RecognitionResult, вызвав метод RecognizePdf(), передав путь к изображению и объект DocumentRecognitionSettings.
- Пройдите по списку RecognitionResult, чтобы отобразить распознанный текст.
Вот пример, иллюстрирующий как выполнять OCR PDF-документы и извлекать распознанный текст на C#:
Как выполнить OCR на PDF и сохранить текст на C#
Чтобы выполнить OCR на PDF-документах и сохранить распознанный текст, выполните следующие шаги:
- Создайте экземпляр класса AsposeOcr.
- Инициализируйте объект класса DocumentRecognitionSettings.
- Укажите язык для OCR.
- Вызовите метод RecognizePdf(), чтобы получить RecognitionResult.
- Сохраните текст, используя метод SaveMultipageDocument(), который требует путь к выходному файлу, SaveFormat и объект RecognitionResult.
Вот пример, демонстрирующий как выполнять OCR PDF-документы и сохранять распознанный текст на C#:
Конвертация OCR PDF в Word на C#
Чтобы конвертировать отсканированные PDF-документы в Word, выполните те же шаги, как описано ранее, но укажите SaveFormat.Docx на последнем шаге.
Вот пример, иллюстрирующий как выполнять OCR PDF и сохранять распознанный текст как документ Word на C#:
Конвертация OCR PDF в JSON на C#
Чтобы сохранить распознанный текст из PDF-документов в файл JSON, выполните предыдущие шаги с единственным изменением — укажите SaveFormat.Json на последнем шаге.
Вот пример, демонстрирующий как выполнять OCR PDF и сохранять распознанный текст как файл JSON на C#:
Получите бесплатную лицензию на оценку
Вы можете получить бесплатную временную лицензию для оценки Aspose.OCR для .NET API без каких-либо ограничений.
Заключение
В этом учебном пособии мы узнали, как выполнять OCR на PDF-документах и извлекать текст из PDF на C#. Мы также изучили, как сохранить распознанный текст в файлы TXT, DOCX и JSON. Для получения дополнительной информации об Aspose.OCR для .NET API, ознакомьтесь с его документацией. Если у вас есть какие-либо вопросы, не стесняйтесь обращаться к нам на нашем форуме.
См. также
- Конвертация скриншота в текст с помощью OCR на C#
- OCR изображения в текст и исправление орфографии на C#
- Конвертация отсканированного PDF в поисковый PDF с помощью OCR на C#
Используя Aspose.OCR для .NET API, вы можете реализовать высокую точность PDF OCR на C# для различных приложений, включая обработку счетов и работу с формами. Это доступное .NET PDF OCR решение идеально подходит для разработчиков, стремящихся эффективно интегрировать возможности OCR PDF в свои приложения. С помощью C# библиотеки для PDF OCR и извлечения текста вы можете обеспечить точные результаты в ваших проектах.