
Вступ
Відскановані PDF-файли часто зберігають текст у вигляді зображень, що ускладнює вибір, редагування або копіювання вмісту. Якщо вам потрібно перетворити відскановані PDF у редаговані документи Word, технологія оптичного розпізнавання символів (OCR) забезпечує ефективний спосіб витягнення тексту збереженням оригінального форматування. У цій статті ви дізнаєтеся, як програмно перетворити відскановані PDF у Word (DOCX або DOC) за допомогою C# з бібліотеками Aspose.OCR для .NET та Aspose.Words для .NET.
Чому варто перетворювати відскановані PDF у Word?
Існує кілька переконливих причин для перетворення відсканованих PDF у документи Word:
- Легке редагування відсканованих документів: змінюйте текст без необхідності ручного повторного введення.
- Витягування тексту для подальшої обробки: використовуйте витягнутий текст для аналізу або інших застосувань.
- Збереження макету та форматування: зберігайте структуру оригінального документа, роблячи його редагованим.
- Автоматизація обробки документів на основі OCR: безшовно інтегруйте цю функціональність у свої C# програми.
Зміст
- Налаштування OCR API для перетворення відсканованого PDF у Word
- Перетворення відсканованого PDF у редагований документ Word
- Збереження форматування під час конвертації OCR
- Обробка кількох сторінок у відсканованих PDF
- Ліцензія для повної точності OCR
- Висновок та додаткові ресурси
1. Налаштування OCR API для перетворення відсканованого PDF у Word
Для витягнення тексту з відсканованих PDF та перетворення їх у документи Word ми будемо використовувати:
- Aspose.OCR для .NET – потужний інструмент, який розпізнає текст з відсканованих зображень.
- Aspose.Words для .NET – ця бібліотека перетворює витягнутий текст у формат Word.
Встановлення
Ви можете легко встановити ці API через NuGet за допомогою наступних команд:
PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words
Альтернативно, ви можете завантажити DLL з Сторінки завантажень Aspose.
2. Перетворення відсканованого PDF у редагований документ Word
Виконайте ці кроки, щоб перетворити відскановані PDF-файли у Word (DOCX або DOC) на C#:
- Ініціалізуйте OCR з
AsposeOcr
. - Витягніть текст за допомогою
DocumentRecognitionSettings
. - Збережіть розпізнаний текст у
StringBuilder
. - Створіть документ Word за допомогою
Aspose.Words
. - Застосуйте форматування та збережіть як DOCX або DOC.
Приклад коду
Ось приклад на C#, що демонструє перетворення відсканованого PDF у Word:
3. Збереження форматування під час конвертації OCR
Хоча витягнення тексту за допомогою OCR є потужним, воно не завжди зберігає оригінальне форматування, шрифти та стилі. Щоб забезпечити точне форматування, розгляньте наступні поради:
- Використовуйте стилі абзаців Aspose.Words для застосування послідовного форматування тексту.
- Встановіть властивості шрифтів, такі як розмір, жирний, курсив та вирівнювання.
- Налаштуйте поля сторінки та макет для покращення виходу документа Word.
4. Обробка кількох сторінок у відсканованих PDF
Для багатосторінкових відсканованих PDF важливо обробити та об’єднати текст з усіх сторінок в один документ Word. Щоб досягти цього:
- Проходьте через кожну сторінку у відсканованому PDF.
- Розпізнайте текст на кожній сторінці та збережіть його у
StringBuilder
. - Додайте розпізнаний текст до документа Word.
Цей підхід забезпечує безшовне перетворення багатосторінкового PDF у Word.
5. Ліцензія для повної точності OCR
За замовчуванням Aspose.OCR працює в режимі оцінки, що може обмежити точність розпізнавання тексту. Щоб розблокувати повний потенціал API:
🔹 Запросіть Безкоштовну тимчасову ліцензію для оцінки.
6. Висновок та додаткові ресурси
Резюме
У цьому посібнику ми розглянули:
✅ Налаштування Aspose.OCR для обробки відсканованих PDF
✅ Витягування тексту з відсканованих PDF на C#
✅ Перетворення розпізнаного тексту у форматований документ Word
✅ Обробка багатосторінкового відсканованого PDF у Word
Завдяки Aspose.OCR та Aspose.Words ви можете без зусиль перетворити PDF на основі зображень у редаговані файли Word. Розпочніть створення свого конвертера PDF у Word на основі OCR у .NET сьогодні всього за 99 доларів! 🚀