
Введення
Скановані PDF-файли часто містять текст як зображення, що робить неможливим вибрати, редагувати або копіювати вміст. Якщо вам потрібно конвертувати скановані PDF-файли в редагувальні Word-документи, технологія оптичного розпізнавання персонажів (OCR) пропонує ефективний спосіб екстрактувати текст при збереженні оригінального форматування. У цій статті ви дізнаєтеся, як програматично конвертувати скановані PDF-файли в Word (DOCX або DOC) за допомогою C# з Aspose.OCR для .NET і Aspose.Words для .NET бібліотеки.
Чому перетворювати скановані PDF-файли на Word?
Існує кілька примусових причин для конвертації сканованих PDF-файлів в Word-документи:
- Легко редагувати скановані документи: змінювати текст без ручного ретипіювання.
- Витяг тексту для подальшого обробки: Використовуйте витягнутий текст для аналізу або інтеграції в інші додатки.
- Зберегти розташування та форматизацію: Зберегти структуру оригінального документа, а також зробити його редагувальним.
- Автоматична обробка документів на основі OCR: інтегруйте цю функцію безперервно в свої програми C#.
Таблиця контенту
- Налаштування OCR API для сканування PDF в Word Conversion
- Конвертувати сканований PDF в редагуючий документ слова
- Збереження форматування в OCR конверсії
- Використання кількох сторінок в сканованих PDF-файлах
- Ліцензія на повну точність OCR
- Висновки та додаткові ресурси
Налаштування OCR API для сканування PDF в Word Conversion
Щоб витягти текст з сканованих PDF-файлів і конвертувати їх в Word-документи, ми будемо використовувати:
- Aspose.OCR для .NET – потужний інструмент, який розпізнає текст з сканованих зображень.
- Aspose.Words for .NET – Ця бібліотека конвертує витягнутий текст у формат Word.
Встановлення
Ви можете легко встановити ці АПІ через NuGet з наступними командами:
PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words
В іншому випадку, ви можете завантажити DLL з Завантажити сторінку.
Конвертувати сканований PDF в редагуючий документ слова
Слідкуйте за цими кроками, щоб перетворити скановані PDF-файли в Word (DOCX або DOC) в C#:
- Ініціалізація OCR з
AsposeOcr
. - Використання тексту
DocumentRecognitionSettings
. - Передача визнаного тексту в
StringBuilder
. - Створіть документ Word за допомогою
Aspose.Words
. - Завантажити форматинг і зберегти як DOCX або DOC.
Код зразка
Ось приклад C#, що демонструє сканований PDF в Word конвертація:
Збереження форматування в OCR конверсії
Хоча екстракція тексту OCR є потужною, вона не завжди може зберегти оригінальний формат, шрифти і стилі. Щоб забезпечити точний формат, розгляньте наступні поради:
- Використовуйте Aspose.Words Paragraph Styles для застосування константного текстового форматування.
- Налаштуйте властивості шрифту, такі як розмір, сміливість, італіка і збігання.
- Налаштування маргінів сторінки та розташування для поліпшення результатів Word-документу.
Розробка декількох сторінок в сканованих ПДФ
Для багатосторонніх сканованих PDF-файлів важливо обробляти і поєднувати текст з усіх сторінок в один документ Word.
- Перейти через кожну сторінку в сканованому PDF.
- Визначте текст за сторінкою і зберігайте його в
StringBuilder
. - Додайте визнаний текст до документу Word.
Цей підхід забезпечує безперервну багатосторінкову конверсію PDF в Word.
Ліцензія на повну точність OCR
За замовчуванням Aspose.OCR працює в режимі оцінки, який може обмежити точність розпізнавання тексту.
Запрошуємо на безкоштовну тимчасову ліцензію (https://purchase.aspose.com/temporary-license) для цілей оцінки.
Висновки та додаткові ресурси
резюме
У цьому інструкції ми охоплюємо:
- Налаштування Aspose.OCR для сканованого обробки PDF
- Витяг тексту з сканованих PDF-файлів в C#
- Конвертувати визначений текст у форматирований документ Word
- Використання багатосторінкового сканування PDF в Word конвертації
Використовуючи Aspose.OCR і Aspose.Words, ви можете без зусиль конвертувати PDF-файли на основі зображення в редагувальні файли Word. Почніть будувати свій OCR-збалансований PDF-конвертер Word в .NET сьогодні за тільки $99!
Додаткові поради для сканованої конверсії PDF
Якщо ви шукаєте способи поліпшення вашого робочого потоку, розгляньте можливість використання C# OCR PDF до тексту можливостей або C# pdf до DOCX рішень для більш передового обробки. Незалежно від того, чи потрібно конвертувати сканований PDF в Word для редагування, або просто хочете конвертувати сканутий PDF-документ до Word , ці методи надають безцінну підтримку. Для тих, хто запитує, як я перетворю сканований PDF на Word?, зазначені інструменти без зусиль направлять вас через процес.
Сканування PDF в Word Conversion
Нарешті, для більш персоналізованих рішень, дізнайтеся, як конвертувати сканований PDF-файл в Word або використовувати C# Text Recognition Library для поліпшення можливостей обробки документів. Ці ресурси будуть корисними для будь-якого, хто регулярно справляється з скануваними документами. Ви також можете використовувати інструменти ** C# PDF до DOCX**, щоб полегшити конверсії або покладатися на c# OCR PDF в Text метод для спрощення робочого потоку екстракції тексту з зображень.
More in this category
- Доступний OCR: Плагіни Aspose.OCR з оплатою за використання для .NET
- Пошук тексту з зображень у C#
- OCR PDF та витягування тексту з PDF у C# за допомогою Aspose.OCR для .NET API
- Конвертуйте скріншот у текст за допомогою плагіна Aspose.OCR за $99 у C#
- Конвертувати зображення в searchable PDF з OCR за допомогою C#