
Введение
Отсканированные PDF-файлы часто хранят текст в виде изображений, что делает невозможным выделение, редактирование или копирование содержимого. Если вам нужно конвертировать отсканированные PDF в редактируемые документы Word, технология оптического распознавания символов (OCR) предоставляет эффективный способ извлечения текста с сохранением оригинального форматирования. В этой статье вы узнаете, как программно конвертировать отсканированные PDF в Word (DOCX или DOC) с помощью C# и библиотек Aspose.OCR для .NET и Aspose.Words для .NET.
Почему конвертировать отсканированные PDF в Word?
Существует несколько убедительных причин для конвертации отсканированных PDF в документы Word:
- Легкое редактирование отсканированных документов: Изменяйте текст без необходимости вручную перепечатывать.
- Извлечение текста для дальнейшей обработки: Используйте извлеченный текст для анализа или других приложений.
- Сохранение макета и форматирования: Сохраняйте структуру оригинального документа, делая его редактируемым.
- Автоматизация обработки документов на основе OCR: Бесшовно интегрируйте эту функциональность в ваши C# приложения.
Содержание
- Настройка API OCR для конвертации отсканированного PDF в Word
- Конвертация отсканированного PDF в редактируемый документ Word
- Сохранение форматирования при конвертации OCR
- Обработка нескольких страниц в отсканированных PDF
- Лицензия для полной точности OCR
- Заключение и дополнительные ресурсы
1. Настройка API OCR для конвертации отсканированного PDF в Word
Чтобы извлечь текст из отсканированных PDF и конвертировать их в документы Word, мы будем использовать:
- Aspose.OCR для .NET – Мощный инструмент, который распознает текст из отсканированных изображений.
- Aspose.Words для .NET – Эта библиотека конвертирует извлеченный текст в формат Word.
Установка
Вы можете легко установить эти API через NuGet с помощью следующих команд:
PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words
В качестве альтернативы вы можете загрузить DLL с страницы загрузки Aspose.
2. Конвертация отсканированного PDF в редактируемый документ Word
Следуйте этим шагам, чтобы конвертировать отсканированные PDF-файлы в Word (DOCX или DOC) на C#:
- Инициализируйте OCR с помощью
AsposeOcr
. - Извлеките текст с помощью
DocumentRecognitionSettings
. - Сохраните распознанный текст в
StringBuilder
. - Создайте документ Word с помощью
Aspose.Words
. - Примените форматирование и сохраните как DOCX или DOC.
Пример кода
Вот пример на C#, демонстрирующий конвертацию отсканированного PDF в Word:
3. Сохранение форматирования при конвертации OCR
Хотя извлечение текста с помощью OCR мощное, оно не всегда сохраняет оригинальное форматирование, шрифты и стили. Чтобы обеспечить точное форматирование, рассмотрите следующие советы:
- Используйте стили абзацев Aspose.Words для применения последовательного текстового форматирования.
- Установите свойства шрифта, такие как размер, жирный, курсив и выравнивание.
- Отрегулируйте поля страницы и макет для улучшения вывода документа Word.
4. Обработка нескольких страниц в отсканированных PDF
Для многостраничных отсканированных PDF важно обрабатывать и объединять текст со всех страниц в один документ Word. Для достижения этого:
- Перебирайте каждую страницу в отсканированном PDF.
- Распознавайте текст на каждой странице и сохраняйте его в
StringBuilder
. - Добавляйте распознанный текст в документ Word.
Этот подход обеспечивает бесшовную конвертацию многостраничного PDF в Word.
5. Лицензия для полной точности OCR
По умолчанию Aspose.OCR работает в режиме оценки, который может ограничивать точность распознавания текста. Чтобы разблокировать полный потенциал API:
🔹 Запросите бесплатную временную лицензию для целей оценки.
6. Заключение и дополнительные ресурсы
Резюме
В этом руководстве мы рассмотрели:
✅ Настройка Aspose.OCR для обработки отсканированных PDF
✅ Извлечение текста из отсканированных PDF на C#
✅ Конвертация распознанного текста в форматированный документ Word
✅ Обработка конвертации многостраничного отсканированного PDF в Word
Используя Aspose.OCR и Aspose.Words, вы можете без усилий конвертировать PDF на основе изображений в редактируемые файлы Word. Начните создавать свой конвертер PDF в Word на основе OCR в .NET сегодня всего за 99 долларов! 🚀