
Як програміст, часто вам доведеться витягувати вміст з PDF-файлів як прямий текст для подальшого обробки, наприклад, аналізу та інформаційного витягування. обробка PDF-файлів і конвертація цілого PDF-файлів у форматі TXT є проблематичною задачею, коли у вас немає правильних інструментів#.
C# Бібліотека для PDF в TXT Конвертація
[Aspose.Words для .NET][1] є дивовижною API обробки документів, яка дозволяє розробникам працювати з Word-документами, а також різними іншими форматами, включаючи PDF. Завдяки своєму широкому набору функцій, Aspose.Words упрощає завдання обробки документів, конвертації та генерації.
Ви можете встановити бібліотеку з [НуГет][5] за допомогою наступного наказу. або завантажити її DLL з розділу [Редагувати][6.
PM> Install-Package Aspose.Words
Конвертуйте PDF в TXT в C#
Aspose.Words для .NET приховує всі складні операції екстракції тексту з PDF-файлів і дозволяє виконувати конвертацію PDF-на TXT в декількох кроках, як зазначено нижче.
- Завантажити файл PDF.
- Конвертуйте PDF у форматі TXT за допомогою одного функційного дзвінка.
Таким чином, з декількома рядками коду, ви можете конвертувати вміст у PDF-файлі в яскравий текст, незважаючи на те, наскільки великим є джерело PDF#.
- Перш за все, завантажуйте PDF за допомогою класу Документ.
- Потім зберегти документ як файл TXT за допомогою методу Document.Save(filePath.
Наступний снайпт коду C# конвертує PDF у форматі TXT.
Отримайте безкоштовну ліцензію API
Ви можете отримати [безкоштовну тимчасову ліцензію][2] для конвертації PDF-файлів у форматі TXT без обмежень оцінки.
Заключення
У цьому блозі ми вивчали, як конвертувати PDF в TXT в C# за допомогою бібліотеки Aspose.Words для .NET. Слідкуючи за інструкціями і за допомогою коду, ви можете легко обробляти великі PDF-файли і конвертувати їх в яскравий текст. Aspose.Words спрощує завдання обробки документів, роблячи його цінним інструментом для розробників, які працюють з різними форматами документів у своїх додатках. Ви можете відвідати [документацію][3] цієї бібліотеки обробки слів .NET, щоб дослідити її дивовижні функції].
Підготовка середовища та встановлення Aspose.PDF for .NET
Для роботи з PDF‑файлами в C# рекомендується використовувати Aspose.PDF for .NET – це повнофункціональна бібліотека, що підтримує витяг тексту, конвертацію, редагування та багато іншого. Щоб розпочати, додайте пакет через NuGet:
Після інсталяції бібліотеки у вашому проекті з’являються простори імен, зокрема Aspose.Pdf і Aspose.Pdf.Text. Не забудьте підключити ліцензійний файл, якщо ви працюєте з повною версією. Тимчасову безкоштовну ліцензію можна отримати на офіційному сайті Aspose – достатньо вказати шлях до файлу перед будь‑яким викликом API:
Пакет NuGet та ліцензія
- NuGet – найзручніший спосіб оновлювати бібліотеку та її залежності.
- Ліцензія – дозволяє працювати без водяних знаків і обмежень на кількість сторінок.
Приклад коду: Конвертація PDF у TXT за допомогою Aspose.PDF
Нижче наведено мінімальний приклад, який відкриває PDF‑документ, витягує весь текст і зберігає його у файл .txt.
Ключові моменти коду:
Document– головний клас для роботи з PDF.TextAbsorber– спеціальний об’єкт, який «поглинає» текст з усіх сторінок.Pages.Accept– метод, який проходить по всіх сторінках і передає їх уTextAbsorber.File.WriteAllText– стандартний .NET‑метод для запису рядка у файл.
Завантаження PDF і витяг тексту
Якщо потрібно обробляти лише окремі сторінки, можна вказати діапазон у TextAbsorber:
textAbsorber.StartPage = 1;
textAbsorber.EndPage = 5;
Таким чином можна зменшити використання пам’яті при роботі з великими документами.
Поширені питання та рекомендації
Як обробляти великі PDF‑файли?
Для файлів розміром понад 100 МБ рекомендується обробляти їх порціями – наприклад, читати по 10‑20 сторінок, зберігати проміжний результат у тимчасовий файл і лише після завершення об’єднувати їх. Крім того, варто увімкнути MemoryManagementSettings у PdfLoadOptions, щоб зменшити навантаження на ОЗП.
Чи можна зберегти форматування?
Aspose.PDF дозволяє зберігати просте форматування (розриви рядків, абзаци) під час екстракції. Якщо потрібне більш складне структурування (таблиці, колонки), слід використовувати TextFragmentAbsorber з налаштуванням FragmentArea або розбирати PDF у HTML, а вже з HTML отримувати чистий текст.
Чи підтримується багатомовний текст?
Так, бібліотека коректно працює з Unicode‑текстом, включаючи кирилицю, арабську та азійські скрипти. Після екстракції просто зберігайте файл у кодуванні UTF‑8 (за замовчуванням File.WriteAllText використовує UTF‑8).
Застосовуючи наведені рекомендації, ви зможете швидко та надійно конвертувати будь‑які PDF‑документи у чистий текст, використовуючи лише Aspose.PDF for .NET без додаткових зовнішніх залежностей.