
PDF-документы являются неотъемлемой частью различных бизнес-процессов, часто требуя программного доступа к их отсканированному содержимому. Извлечение текста из отсканированных PDF-файлов может быть сложной задачей, подчеркивающей необходимость эффективных инструментов. В этом руководстве мы рассмотрим как выполнять OCR PDF-документы и извлекать текст из PDF в C#, используя надежный Aspose.OCR для .NET API, ведущую библиотеку C# для извлечения текста из PDF с помощью OCR, доступную для бесплатной оценки.
Что вы узнаете
В этой статье мы рассмотрим следующие темы:
- Обзор Aspose.OCR для .NET API
- Шаги для OCR PDF и извлечения текста
- Как выполнять OCR на PDF и сохранять текст
- Конвертация OCR PDF в Word
- Конвертация OCR PDF в JSON
Обзор Aspose.OCR для .NET API
Мы будем использовать Aspose.OCR для .NET API, мощный .NET PDF OCR API, предназначенный для распознавания текста из отсканированных изображений, фотографий со смартфонов и скриншотов, возвращая результаты в различных форматах документов. Этот API не только преобразует изображения в текст, но и создает поисковые PDF из сканов и исправляет любые орфографические ошибки в распознанном тексте, что делает его одним из самых быстрых C# PDF OCR решений, доступных всего за 99 долларов.
API включает класс AsposeOcr, который предоставляет несколько методов для операций OCR. Особенно важен метод RecognizePdf(string, DocumentRecognitionSettings) для извлечения текста из указанного PDF-документа. Класс DocumentRecognitionSettings позволяет настраивать процесс распознавания, в то время как класс RecognitionResult инкапсулирует результаты распознавания.
Вы можете скачать DLL API или установить его через NuGet:
PM> Install-Package Aspose.OCR
Шаги для OCR PDF и извлечения текста в C#
Чтобы выполнить OCR на PDF-документах и извлечь распознанный текст, выполните следующие шаги:
- Создайте экземпляр класса AsposeOcr.
- Инициализируйте объект класса DocumentRecognitionSettings.
- Укажите язык для OCR.
- Получите RecognitionResult, вызвав метод RecognizePdf(), передав путь к изображению и объект DocumentRecognitionSettings.
- Пройдите по списку RecognitionResult, чтобы отобразить распознанный текст.
Вот пример, иллюстрирующий как выполнять OCR PDF-документы и извлекать распознанный текст в C#:
Как выполнять OCR на PDF и сохранять текст в C#
Чтобы выполнить OCR на PDF-документах и сохранить распознанный текст, выполните следующие шаги:
- Создайте экземпляр класса AsposeOcr.
- Инициализируйте объект класса DocumentRecognitionSettings.
- Укажите язык для OCR.
- Вызовите метод RecognizePdf(), чтобы получить RecognitionResult.
- Сохраните текст с помощью метода SaveMultipageDocument(), который требует путь к выходному файлу, SaveFormat и объект RecognitionResult.
Вот пример, демонстрирующий как выполнять OCR PDF-документы и сохранять распознанный текст в C#:
Конвертация OCR PDF в Word в C#
Чтобы конвертировать отсканированные PDF-документы в Word, выполните те же шаги, что и ранее, но укажите SaveFormat.Docx на последнем шаге.
Вот пример, иллюстрирующий как выполнять OCR PDF и сохранять распознанный текст в виде документа Word в C#:
Конвертация OCR PDF в JSON в C#
Чтобы сохранить распознанный текст из PDF-документов в JSON-файл, выполните предыдущие шаги с единственным изменением — укажите SaveFormat.Json на последнем шаге.
Вот пример, демонстрирующий как выполнять OCR PDF и сохранять распознанный текст в виде JSON-файла в C#:
Получите бесплатную лицензию на оценку
Вы можете получить бесплатную временную лицензию, чтобы оценить Aspose.OCR для .NET API без каких-либо ограничений.
Заключение
В этом руководстве мы узнали, как выполнять OCR на PDF-документах и извлекать текст из PDF в C#. Мы также изучили, как сохранить распознанный текст в файлы TXT, DOCX и JSON. Для получения дополнительной информации о Aspose.OCR для .NET API ознакомьтесь с его документацией. Если у вас есть какие-либо вопросы, не стесняйтесь обращаться к нам на нашем форуме.
См. также
- Конвертация скриншота в текст с помощью OCR в C#
- OCR изображения в текст и исправление орфографии в C#
- Конвертация отсканированного PDF в поисковый PDF с помощью OCR в C#
Используя Aspose.OCR для .NET API, вы можете реализовать высокую точность OCR PDF в C# для различных приложений, включая обработку счетов и работу с формами. Это доступное решение .NET PDF OCR идеально подходит для разработчиков, стремящихся эффективно интегрировать возможности OCR PDF в свои приложения.