Перетворення відсканованого PDF в Word на C#

Вступ

Відскановані PDF-файли часто зберігають текст у вигляді зображень, що ускладнює вибір, редагування або копіювання вмісту. Якщо вам потрібно перетворити відскановані PDF у редаговані документи Word, технологія оптичного розпізнавання символів (OCR) забезпечує ефективний спосіб витягнення тексту збереженням оригінального форматування. У цій статті ви дізнаєтеся, як програмно перетворити відскановані PDF у Word (DOCX або DOC) за допомогою C# з бібліотеками Aspose.OCR для .NET та Aspose.Words для .NET.

Чому варто перетворювати відскановані PDF у Word?

Існує кілька переконливих причин для перетворення відсканованих PDF у документи Word:

  • Легке редагування відсканованих документів: змінюйте текст без необхідності ручного повторного введення.
  • Витягування тексту для подальшої обробки: використовуйте витягнутий текст для аналізу або інших застосувань.
  • Збереження макету та форматування: зберігайте структуру оригінального документа, роблячи його редагованим.
  • Автоматизація обробки документів на основі OCR: безшовно інтегруйте цю функціональність у свої C# програми.

Зміст

  1. Налаштування OCR API для перетворення відсканованого PDF у Word
  2. Перетворення відсканованого PDF у редагований документ Word
  3. Збереження форматування під час конвертації OCR
  4. Обробка кількох сторінок у відсканованих PDF
  5. Ліцензія для повної точності OCR
  6. Висновок та додаткові ресурси

1. Налаштування OCR API для перетворення відсканованого PDF у Word

Для витягнення тексту з відсканованих PDF та перетворення їх у документи Word ми будемо використовувати:

  • Aspose.OCR для .NET – потужний інструмент, який розпізнає текст з відсканованих зображень.
  • Aspose.Words для .NET – ця бібліотека перетворює витягнутий текст у формат Word.

Встановлення

Ви можете легко встановити ці API через NuGet за допомогою наступних команд:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

Альтернативно, ви можете завантажити DLL з Сторінки завантажень Aspose.


2. Перетворення відсканованого PDF у редагований документ Word

Виконайте ці кроки, щоб перетворити відскановані PDF-файли у Word (DOCX або DOC) на C#:

  1. Ініціалізуйте OCR з AsposeOcr.
  2. Витягніть текст за допомогою DocumentRecognitionSettings.
  3. Збережіть розпізнаний текст у StringBuilder.
  4. Створіть документ Word за допомогою Aspose.Words.
  5. Застосуйте форматування та збережіть як DOCX або DOC.

Приклад коду

Ось приклад на C#, що демонструє перетворення відсканованого PDF у Word:


3. Збереження форматування під час конвертації OCR

Хоча витягнення тексту за допомогою OCR є потужним, воно не завжди зберігає оригінальне форматування, шрифти та стилі. Щоб забезпечити точне форматування, розгляньте наступні поради:

  • Використовуйте стилі абзаців Aspose.Words для застосування послідовного форматування тексту.
  • Встановіть властивості шрифтів, такі як розмір, жирний, курсив та вирівнювання.
  • Налаштуйте поля сторінки та макет для покращення виходу документа Word.

4. Обробка кількох сторінок у відсканованих PDF

Для багатосторінкових відсканованих PDF важливо обробити та об’єднати текст з усіх сторінок в один документ Word. Щоб досягти цього:

  • Проходьте через кожну сторінку у відсканованому PDF.
  • Розпізнайте текст на кожній сторінці та збережіть його у StringBuilder.
  • Додайте розпізнаний текст до документа Word.

Цей підхід забезпечує безшовне перетворення багатосторінкового PDF у Word.


5. Ліцензія для повної точності OCR

За замовчуванням Aspose.OCR працює в режимі оцінки, що може обмежити точність розпізнавання тексту. Щоб розблокувати повний потенціал API:

🔹 Запросіть Безкоштовну тимчасову ліцензію для оцінки.


6. Висновок та додаткові ресурси

Резюме

У цьому посібнику ми розглянули:

✅ Налаштування Aspose.OCR для обробки відсканованих PDF
✅ Витягування тексту з відсканованих PDF на C#
✅ Перетворення розпізнаного тексту у форматований документ Word
✅ Обробка багатосторінкового відсканованого PDF у Word


Завдяки Aspose.OCR та Aspose.Words ви можете без зусиль перетворити PDF на основі зображень у редаговані файли Word. Розпочніть створення свого конвертера PDF у Word на основі OCR у .NET сьогодні всього за 99 доларів! 🚀