Convert Scanned PDF to Word in C#

Введення

Скановані PDF-файли часто містять текст як зображення, що робить неможливим вибрати, редагувати або копіювати вміст. Якщо вам потрібно конвертувати скановані PDF-файли в редагувальні Word-документи, технологія оптичного розпізнавання персонажів (OCR) пропонує ефективний спосіб екстрактувати текст при збереженні оригінального форматування. У цій статті ви дізнаєтеся, як програматично конвертувати скановані PDF-файли в Word (DOCX або DOC) за допомогою C# з Aspose.OCR для .NET і Aspose.Words для .NET бібліотеки.

Чому перетворювати скановані PDF-файли на Word?

Існує кілька примусових причин для конвертації сканованих PDF-файлів в Word-документи:

  • Легко редагувати скановані документи: змінювати текст без ручного ретипіювання.
  • Витяг тексту для подальшого обробки: Використовуйте витягнутий текст для аналізу або інтеграції в інші додатки.
  • Зберегти розташування та форматизацію: Зберегти структуру оригінального документа, а також зробити його редагувальним.
  • Автоматична обробка документів на основі OCR: інтегруйте цю функцію безперервно в свої програми C#.

Таблиця контенту

Налаштування OCR API для сканування PDF в Word Conversion

Щоб витягти текст з сканованих PDF-файлів і конвертувати їх в Word-документи, ми будемо використовувати:

  • Aspose.OCR для .NET – потужний інструмент, який розпізнає текст з сканованих зображень.
  • Aspose.Words for .NET – Ця бібліотека конвертує витягнутий текст у формат Word.

Встановлення

Ви можете легко встановити ці АПІ через NuGet з наступними командами:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

В іншому випадку, ви можете завантажити DLL з Завантажити сторінку.

Конвертувати сканований PDF в редагуючий документ слова

Слідкуйте за цими кроками, щоб перетворити скановані PDF-файли в Word (DOCX або DOC) в C#:

  • Ініціалізація OCR з AsposeOcr.
  • Використання тексту DocumentRecognitionSettings.
  • Передача визнаного тексту в StringBuilder.
  • Створіть документ Word за допомогою Aspose.Words.
  • Завантажити форматинг і зберегти як DOCX або DOC.

Код зразка

Ось приклад C#, що демонструє сканований PDF в Word конвертація:

Збереження форматування в OCR конверсії

Хоча екстракція тексту OCR є потужною, вона не завжди може зберегти оригінальний формат, шрифти і стилі. Щоб забезпечити точний формат, розгляньте наступні поради:

  • Використовуйте Aspose.Words Paragraph Styles для застосування константного текстового форматування.
  • Налаштуйте властивості шрифту, такі як розмір, сміливість, італіка і збігання.
  • Налаштування маргінів сторінки та розташування для поліпшення результатів Word-документу.

Розробка декількох сторінок в сканованих ПДФ

Для багатосторонніх сканованих PDF-файлів важливо обробляти і поєднувати текст з усіх сторінок в один документ Word.

  • Перейти через кожну сторінку в сканованому PDF.
  • Визначте текст за сторінкою і зберігайте його в StringBuilder.
  • Додайте визнаний текст до документу Word.

Цей підхід забезпечує безперервну багатосторінкову конверсію PDF в Word.

Ліцензія на повну точність OCR

За замовчуванням Aspose.OCR працює в режимі оцінки, який може обмежити точність розпізнавання тексту.

Запрошуємо на безкоштовну тимчасову ліцензію (https://purchase.aspose.com/temporary-license) для цілей оцінки.

Висновки та додаткові ресурси

резюме

У цьому інструкції ми охоплюємо:

  • Налаштування Aspose.OCR для сканованого обробки PDF
  • Витяг тексту з сканованих PDF-файлів в C#
  • Конвертувати визначений текст у форматирований документ Word
  • Використання багатосторінкового сканування PDF в Word конвертації

Використовуючи Aspose.OCR і Aspose.Words, ви можете без зусиль конвертувати PDF-файли на основі зображення в редагувальні файли Word. Почніть будувати свій OCR-збалансований PDF-конвертер Word в .NET сьогодні за тільки $99!

Додаткові поради для сканованої конверсії PDF

Якщо ви шукаєте способи поліпшення вашого робочого потоку, розгляньте можливість використання C# OCR PDF до тексту можливостей або C# pdf до DOCX рішень для більш передового обробки. Незалежно від того, чи потрібно конвертувати сканований PDF в Word для редагування, або просто хочете конвертувати сканутий PDF-документ до Word , ці методи надають безцінну підтримку. Для тих, хто запитує, як я перетворю сканований PDF на Word?, зазначені інструменти без зусиль направлять вас через процес.

Сканування PDF в Word Conversion

Нарешті, для більш персоналізованих рішень, дізнайтеся, як конвертувати сканований PDF-файл в Word або використовувати C# Text Recognition Library для поліпшення можливостей обробки документів. Ці ресурси будуть корисними для будь-якого, хто регулярно справляється з скануваними документами. Ви також можете використовувати інструменти ** C# PDF до DOCX**, щоб полегшити конверсії або покладатися на c# OCR PDF в Text метод для спрощення робочого потоку екстракції тексту з зображень.

More in this category