
Введение
Сканированные PDF-файлы часто содержат текст как изображения, что делает невозможным выбрать, редактировать или копировать контент. Если вам нужно конвертировать сканированные PDF-файлы в редактируемые Word-документы, технология Оптического распознавания персонажей (OCR) предлагает эффективный способ извлечения текста при сохранении оригинального форматирования. В этой статье вы узнаете, как программатически конвертировать сканированные PDF-файлы в Word (DOCX или DOC) с помощью C# с Aspose.OCR для .NET и Aspose.Words для .NET библиотеки.
Почему переводить сканированные PDF-файлы в Word?
Существует несколько обязательных причин конвертировать сканированные PDF-файлы в Word-документы:
- Легко редактировать сканированные документы: изменять текст без ручного ретипирования.
- Экстракт текста для дальнейшей обработки: Используйте извлеченный текст для анализа или интеграции в другие приложения.
- Удерживайте расписание и форматирование: сохраняйте структуру оригинального документа, делая его редактируемым.
- Автоматическая обработка документов на базе OCR: Интегрируйте эту функциональность беспрепятственно в приложения C#.
Таблица контента
- Настройка API OCR для сканированной конверсии PDF в Word
- Конвертировать сканированный PDF в редактируемый документ слова
- Сохранение форматирования в OCR конверсии
- Управление множественными страницами в сканированных PDF-файлах
- Лицензия на полную точность OCR
- Заключение и дополнительные ресурсы
Настройка API OCR для сканированной конверсии PDF в Word
Чтобы извлечь текст из сканированных PDF-файлов и конвертировать их в Word-документы, мы используем:
- Aspose.OCR для .NET – мощный инструмент, который распознает текст с сканированных изображений.
- Aspose.Words for .NET – Эта библиотека конвертирует извлеченный текст в формат Word.
Инсталляция
Вы можете легко установить эти АПИ через NuGet с следующими командами:
PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words
В качестве альтернативы, вы можете скачать DLL с Скачать Aspose Downloads.
Конвертировать сканированный PDF в редактируемый документ слова
Следуйте следующим шагом, чтобы конвертировать сканированные PDF-файлы в Word (DOCX или DOC) в C#:
- Инициативы OCR с
AsposeOcr
. - Экстракт текста с использованием
DocumentRecognitionSettings
. - Сторой признанного текста в A
StringBuilder
. - Создайте документ Word с помощью
Aspose.Words
. - Применяйте форматирование и сохраните как DOCX или DOC.
Код образца
Вот пример C#, демонстрирующий сканированную конверсию PDF в Word:
Сохранение форматирования в OCR конверсии
В то время как экстракция текста OCR мощна, она не всегда может сохранять оригинальный формат, шрифты и стили. Чтобы обеспечить точный формат, обратите внимание на следующие советы:
- Используйте Aspose.Words Paragraph Styles для применения последовательного текстового форматирования.
- Настройка свойств шрифта, таких как размер, смелость, итальянство и корректировка.
- Регулировать маргины страницы и расположение для улучшения результата Word-документа.
Управление множественными страницами в сканированных PDF-файлах
Для скенированных PDF-файлов с множеством страниц важно обрабатывать и сливать текст со всех страниц в единый документ Word.
- Пройдите через каждую страницу в сканированном PDF.
- Идентифицировать текст по странице и хранить его в
StringBuilder
. - Добавьте признанный текст к документу Word.
Этот подход обеспечивает безопасную многостраничную конверсию PDF в Word.
Лицензия на полную точность OCR
По умолчанию Aspose.OCR работает в режиме оценки, который может ограничить точность распознавания текста.
Пожалуйста, обратитесь за Свободная временная лицензия для целей оценки.
Заключение и дополнительные ресурсы
Совокупность
В этом руководстве мы охватываем:
- Настройка Aspose.OCR для сканированной обработки PDF
- Извлечение текста из сканированных PDF-файлов в C#
- Конвертирование идентифицированного текста в форматированный документ Word
- Обработка многостраничный сканированный PDF в Word конверсия
Используя Aspose.OCR и Aspose.Words, вы можете без труда конвертировать PDF-файлы, основанные на изображении, в редактируемые файлы Word. Начните строить свой OCR-модифицированный PDF в Word конвертер в .NET сегодня за всего лишь $99!
Дополнительные советы для сканированной конверсии PDF
Если вы ищете способы улучшения вашего рабочего потока, подумайте о том, чтобы использовать C# OCR PDF в текст возможности или C# PDF во DOCX решения для более продвинутой обработки. Независимо от того, нужно ли конвертировать скенированный PDF на Word для редактирования, или просто хотите конвертить скандированную PDF-документ в Word, эти методы предоставляют неоценимую поддержку. Для тех, кто спрашивает, как я преобразую скульптурный pdf в word? упомянутые инструменты будут без труда направлять вас через процесс.
Сканирование PDF в Word Conversion
Наконец, для более персонализированных решений, изучайте, как конвертировать скенированный PDF-файл в Word или использовать C# Text Recognition Library для улучшения ваших возможностей обработки документов. Эти ресурсы окажутся полезными для любого, кто регулярно справляется с с сканируемыми документами. Вы также можете использовать инструменты ** C# PDF до DOCX**, чтобы облегчить конверсии или полагаться на c# OCR PDF в Text метод для упрощения рабочего потока извлечения текста из изображений.
More in this category
- Доступный OCR: Платные плагины Aspose.OCR для .NET
- Поиск текста из изображений в C#
- OCR PDF и извлечение текста из PDF на C# с использованием Aspose.OCR для .NET API
- Преобразуйте скриншот в текст с помощью плагина Aspose.OCR за $99 в C#
- Преобразование изображения в searchable PDF с использованием OCR на C#