Конвертация отсканированного PDF в Word на C#

Введение

Отсканированные PDF-файлы часто содержат текст в виде изображений, что делает невозможным выбор, редактирование или копирование содержимого. Если вам нужно конвертировать отсканированные PDF в редактируемые документы Word, технология оптического распознавания символов (OCR) предлагает эффективный способ извлечения текста при сохранении оригинального форматирования. В этой статье вы узнаете, как программно конвертировать отсканированные PDF в Word (DOCX или DOC) с использованием C# с библиотеками Aspose.OCR для .NET и Aspose.Words для .NET.

Почему стоит конвертировать отсканированные PDF в Word?

Существует несколько убедительных причин для конвертации отсканированных PDF в документы Word:

  • Легкое редактирование отсканированных документов: Изменяйте текст без необходимости вручную перепечатывать.
  • Извлечение текста для дальнейшей обработки: Используйте извлеченный текст для анализа или интеграции в другие приложения.
  • Сохранение макета и форматирования: Сохраняйте структуру оригинального документа, делая его редактируемым.
  • Автоматизация обработки документов на основе OCR: Бесшовно интегрируйте эту функциональность в ваши C# приложения.

Содержание

  1. Настройка API OCR для конвертации отсканированного PDF в Word
  2. Конвертация отсканированного PDF в редактируемый документ Word
  3. Сохранение форматирования при конвертации OCR
  4. Обработка нескольких страниц в отсканированных PDF
  5. Лицензия для полной точности OCR
  6. Заключение и дополнительные ресурсы

1. Настройка API OCR для конвертации отсканированного PDF в Word

Чтобы извлечь текст из отсканированных PDF и конвертировать их в документы Word, мы будем использовать:

  • Aspose.OCR для .NET – мощный инструмент, который распознает текст из отсканированных изображений.
  • Aspose.Words для .NET – эта библиотека конвертирует извлеченный текст в формат Word.

Установка

Вы можете легко установить эти API через NuGet с помощью следующих команд:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

В качестве альтернативы, вы можете скачать DLL с страницы загрузок Aspose.


2. Конвертация отсканированного PDF в редактируемый документ Word

Следуйте этим шагам, чтобы конвертировать отсканированные PDF-файлы в Word (DOCX или DOC) на C#:

  1. Инициализируйте OCR с помощью AsposeOcr.
  2. Извлеките текст с использованием DocumentRecognitionSettings.
  3. Сохраните распознанный текст в StringBuilder.
  4. Создайте документ Word с использованием Aspose.Words.
  5. Примените форматирование и сохраните как DOCX или DOC.

Пример кода

Вот пример на C#, демонстрирующий конвертацию отсканированного PDF в Word:


3. Сохранение форматирования при конвертации OCR

Хотя извлечение текста с помощью OCR мощное, оно не всегда сохраняет оригинальное форматирование, шрифты и стили. Чтобы обеспечить точное форматирование, рассмотрите следующие советы:

  • Используйте стили абзацев Aspose.Words для применения согласованного текстового форматирования.
  • Установите свойства шрифта, такие как размер, жирный, курсив и выравнивание.
  • Отрегулируйте поля страницы и макет для улучшенного вывода документа Word.

4. Обработка нескольких страниц в отсканированных PDF

Для многостраничных отсканированных PDF важно обрабатывать и объединять текст со всех страниц в один документ Word. Для достижения этого:

  • Перебирайте каждую страницу в отсканированном PDF.
  • Распознавайте текст на каждой странице и сохраняйте его в StringBuilder.
  • Добавляйте распознанный текст в документ Word.

Этот подход обеспечивает бесшовную конвертацию многостраничного PDF в Word.


5. Лицензия для полной точности OCR

По умолчанию Aspose.OCR работает в режиме оценки, который может ограничивать точность распознавания текста. Чтобы разблокировать полный потенциал API:

🔹 Запросите Бесплатную временную лицензию для оценки.


6. Заключение и дополнительные ресурсы

Резюме

В этом руководстве мы рассмотрели:

✅ Настройка Aspose.OCR для обработки отсканированных PDF
✅ Извлечение текста из отсканированных PDF на C#
✅ Конвертация распознанного текста в отформатированный документ Word
✅ Обработка конвертации многостраничного отсканированного PDF в Word


Используя Aspose.OCR и Aspose.Words, вы можете без усилий конвертировать PDF на основе изображений в редактируемые файлы Word. Начните создавать свой OCR-ориентированный конвертер PDF в Word в .NET сегодня всего за $99! 🚀