Конвертация отсканированного PDF в Word на C#

Введение

Отсканированные PDF-файлы часто хранят текст в виде изображений, что делает невозможным выделение, редактирование или копирование содержимого. Если вам нужно конвертировать отсканированные PDF в редактируемые документы Word, технология оптического распознавания символов (OCR) предоставляет эффективный способ извлечения текста с сохранением оригинального форматирования. В этой статье вы узнаете, как программно конвертировать отсканированные PDF в Word (DOCX или DOC) с помощью C# и библиотек Aspose.OCR для .NET и Aspose.Words для .NET.

Почему конвертировать отсканированные PDF в Word?

Существует несколько убедительных причин для конвертации отсканированных PDF в документы Word:

  • Легкое редактирование отсканированных документов: Изменяйте текст без необходимости вручную перепечатывать.
  • Извлечение текста для дальнейшей обработки: Используйте извлеченный текст для анализа или других приложений.
  • Сохранение макета и форматирования: Сохраняйте структуру оригинального документа, делая его редактируемым.
  • Автоматизация обработки документов на основе OCR: Бесшовно интегрируйте эту функциональность в ваши C# приложения.

Содержание

  1. Настройка API OCR для конвертации отсканированного PDF в Word
  2. Конвертация отсканированного PDF в редактируемый документ Word
  3. Сохранение форматирования при конвертации OCR
  4. Обработка нескольких страниц в отсканированных PDF
  5. Лицензия для полной точности OCR
  6. Заключение и дополнительные ресурсы

1. Настройка API OCR для конвертации отсканированного PDF в Word

Чтобы извлечь текст из отсканированных PDF и конвертировать их в документы Word, мы будем использовать:

  • Aspose.OCR для .NET – Мощный инструмент, который распознает текст из отсканированных изображений.
  • Aspose.Words для .NET – Эта библиотека конвертирует извлеченный текст в формат Word.

Установка

Вы можете легко установить эти API через NuGet с помощью следующих команд:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

В качестве альтернативы вы можете загрузить DLL с страницы загрузки Aspose.


2. Конвертация отсканированного PDF в редактируемый документ Word

Следуйте этим шагам, чтобы конвертировать отсканированные PDF-файлы в Word (DOCX или DOC) на C#:

  1. Инициализируйте OCR с помощью AsposeOcr.
  2. Извлеките текст с помощью DocumentRecognitionSettings.
  3. Сохраните распознанный текст в StringBuilder.
  4. Создайте документ Word с помощью Aspose.Words.
  5. Примените форматирование и сохраните как DOCX или DOC.

Пример кода

Вот пример на C#, демонстрирующий конвертацию отсканированного PDF в Word:


3. Сохранение форматирования при конвертации OCR

Хотя извлечение текста с помощью OCR мощное, оно не всегда сохраняет оригинальное форматирование, шрифты и стили. Чтобы обеспечить точное форматирование, рассмотрите следующие советы:

  • Используйте стили абзацев Aspose.Words для применения последовательного текстового форматирования.
  • Установите свойства шрифта, такие как размер, жирный, курсив и выравнивание.
  • Отрегулируйте поля страницы и макет для улучшения вывода документа Word.

4. Обработка нескольких страниц в отсканированных PDF

Для многостраничных отсканированных PDF важно обрабатывать и объединять текст со всех страниц в один документ Word. Для достижения этого:

  • Перебирайте каждую страницу в отсканированном PDF.
  • Распознавайте текст на каждой странице и сохраняйте его в StringBuilder.
  • Добавляйте распознанный текст в документ Word.

Этот подход обеспечивает бесшовную конвертацию многостраничного PDF в Word.


5. Лицензия для полной точности OCR

По умолчанию Aspose.OCR работает в режиме оценки, который может ограничивать точность распознавания текста. Чтобы разблокировать полный потенциал API:

🔹 Запросите бесплатную временную лицензию для целей оценки.


6. Заключение и дополнительные ресурсы

Резюме

В этом руководстве мы рассмотрели:

✅ Настройка Aspose.OCR для обработки отсканированных PDF
✅ Извлечение текста из отсканированных PDF на C#
✅ Конвертация распознанного текста в форматированный документ Word
✅ Обработка конвертации многостраничного отсканированного PDF в Word


Используя Aspose.OCR и Aspose.Words, вы можете без усилий конвертировать PDF на основе изображений в редактируемые файлы Word. Начните создавать свой конвертер PDF в Word на основе OCR в .NET сегодня всего за 99 долларов! 🚀