Convert Scanned PDF to Word in C#

Введение

Сканированные PDF-файлы часто содержат текст как изображения, что делает невозможным выбрать, редактировать или копировать контент. Если вам нужно конвертировать сканированные PDF-файлы в редактируемые Word-документы, технология Оптического распознавания персонажей (OCR) предлагает эффективный способ извлечения текста при сохранении оригинального форматирования. В этой статье вы узнаете, как программатически конвертировать сканированные PDF-файлы в Word (DOCX или DOC) с помощью C# с Aspose.OCR для .NET и Aspose.Words для .NET библиотеки.

Почему переводить сканированные PDF-файлы в Word?

Существует несколько обязательных причин конвертировать сканированные PDF-файлы в Word-документы:

  • Легко редактировать сканированные документы: изменять текст без ручного ретипирования.
  • Экстракт текста для дальнейшей обработки: Используйте извлеченный текст для анализа или интеграции в другие приложения.
  • Удерживайте расписание и форматирование: сохраняйте структуру оригинального документа, делая его редактируемым.
  • Автоматическая обработка документов на базе OCR: Интегрируйте эту функциональность беспрепятственно в приложения C#.

Таблица контента

Настройка API OCR для сканированной конверсии PDF в Word

Чтобы извлечь текст из сканированных PDF-файлов и конвертировать их в Word-документы, мы используем:

  • Aspose.OCR для .NET – мощный инструмент, который распознает текст с сканированных изображений.
  • Aspose.Words for .NET – Эта библиотека конвертирует извлеченный текст в формат Word.

Инсталляция

Вы можете легко установить эти АПИ через NuGet с следующими командами:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

В качестве альтернативы, вы можете скачать DLL с Скачать Aspose Downloads.

Конвертировать сканированный PDF в редактируемый документ слова

Следуйте следующим шагом, чтобы конвертировать сканированные PDF-файлы в Word (DOCX или DOC) в C#:

  • Инициативы OCR с AsposeOcr.
  • Экстракт текста с использованием DocumentRecognitionSettings.
  • Сторой признанного текста в A StringBuilder.
  • Создайте документ Word с помощью Aspose.Words.
  • Применяйте форматирование и сохраните как DOCX или DOC.

Код образца

Вот пример C#, демонстрирующий сканированную конверсию PDF в Word:

Сохранение форматирования в OCR конверсии

В то время как экстракция текста OCR мощна, она не всегда может сохранять оригинальный формат, шрифты и стили. Чтобы обеспечить точный формат, обратите внимание на следующие советы:

  • Используйте Aspose.Words Paragraph Styles для применения последовательного текстового форматирования.
  • Настройка свойств шрифта, таких как размер, смелость, итальянство и корректировка.
  • Регулировать маргины страницы и расположение для улучшения результата Word-документа.

Управление множественными страницами в сканированных PDF-файлах

Для скенированных PDF-файлов с множеством страниц важно обрабатывать и сливать текст со всех страниц в единый документ Word.

  • Пройдите через каждую страницу в сканированном PDF.
  • Идентифицировать текст по странице и хранить его в StringBuilder.
  • Добавьте признанный текст к документу Word.

Этот подход обеспечивает безопасную многостраничную конверсию PDF в Word.

Лицензия на полную точность OCR

По умолчанию Aspose.OCR работает в режиме оценки, который может ограничить точность распознавания текста.

Пожалуйста, обратитесь за Свободная временная лицензия для целей оценки.

Заключение и дополнительные ресурсы

Совокупность

В этом руководстве мы охватываем:

  • Настройка Aspose.OCR для сканированной обработки PDF
  • Извлечение текста из сканированных PDF-файлов в C#
  • Конвертирование идентифицированного текста в форматированный документ Word
  • Обработка многостраничный сканированный PDF в Word конверсия

Используя Aspose.OCR и Aspose.Words, вы можете без труда конвертировать PDF-файлы, основанные на изображении, в редактируемые файлы Word. Начните строить свой OCR-модифицированный PDF в Word конвертер в .NET сегодня за всего лишь $99!

Дополнительные советы для сканированной конверсии PDF

Если вы ищете способы улучшения вашего рабочего потока, подумайте о том, чтобы использовать C# OCR PDF в текст возможности или C# PDF во DOCX решения для более продвинутой обработки. Независимо от того, нужно ли конвертировать скенированный PDF на Word для редактирования, или просто хотите конвертить скандированную PDF-документ в Word, эти методы предоставляют неоценимую поддержку. Для тех, кто спрашивает, как я преобразую скульптурный pdf в word? упомянутые инструменты будут без труда направлять вас через процесс.

Сканирование PDF в Word Conversion

Наконец, для более персонализированных решений, изучайте, как конвертировать скенированный PDF-файл в Word или использовать C# Text Recognition Library для улучшения ваших возможностей обработки документов. Эти ресурсы окажутся полезными для любого, кто регулярно справляется с с сканируемыми документами. Вы также можете использовать инструменты ** C# PDF до DOCX**, чтобы облегчить конверсии или полагаться на c# OCR PDF в Text метод для упрощения рабочего потока извлечения текста из изображений.

More in this category