Convert PDF to TXT in C#

Як програміст, часто вам доведеться витягувати вміст з PDF-файлів як прямий текст для подальшого обробки, наприклад, аналізу та інформаційного витягування. обробка PDF-файлів і конвертація цілого PDF-файлів у форматі TXT є проблематичною задачею, коли у вас немає правильних інструментів#.

C# Бібліотека для PDF в TXT Конвертація

[Aspose.Words для .NET][1] є дивовижною API обробки документів, яка дозволяє розробникам працювати з Word-документами, а також різними іншими форматами, включаючи PDF. Завдяки своєму широкому набору функцій, Aspose.Words упрощає завдання обробки документів, конвертації та генерації.

Ви можете встановити бібліотеку з [НуГет][5] за допомогою наступного наказу. або завантажити її DLL з розділу [Редагувати][6.

PM> Install-Package Aspose.Words 

Конвертуйте PDF в TXT в C#

Aspose.Words для .NET приховує всі складні операції екстракції тексту з PDF-файлів і дозволяє виконувати конвертацію PDF-на TXT в декількох кроках, як зазначено нижче.

  • Завантажити файл PDF.
  • Конвертуйте PDF у форматі TXT за допомогою одного функційного дзвінка.

Таким чином, з декількома рядками коду, ви можете конвертувати вміст у PDF-файлі в яскравий текст, незважаючи на те, наскільки великим є джерело PDF#.

  • Перш за все, завантажуйте PDF за допомогою класу Документ.
  • Потім зберегти документ як файл TXT за допомогою методу Document.Save(filePath.

Наступний снайпт коду C# конвертує PDF у форматі TXT.

Отримайте безкоштовну ліцензію API

Ви можете отримати [безкоштовну тимчасову ліцензію][2] для конвертації PDF-файлів у форматі TXT без обмежень оцінки.

Заключення

У цьому блозі ми вивчали, як конвертувати PDF в TXT в C# за допомогою бібліотеки Aspose.Words для .NET. Слідкуючи за інструкціями і за допомогою коду, ви можете легко обробляти великі PDF-файли і конвертувати їх в яскравий текст. Aspose.Words спрощує завдання обробки документів, роблячи його цінним інструментом для розробників, які працюють з різними форматами документів у своїх додатках. Ви можете відвідати [документацію][3] цієї бібліотеки обробки слів .NET, щоб дослідити її дивовижні функції].

Підготовка середовища та встановлення Aspose.PDF for .NET

Для роботи з PDF‑файлами в C# рекомендується використовувати Aspose.PDF for .NET – це повнофункціональна бібліотека, що підтримує витяг тексту, конвертацію, редагування та багато іншого. Щоб розпочати, додайте пакет через NuGet:

Після інсталяції бібліотеки у вашому проекті з’являються простори імен, зокрема Aspose.Pdf і Aspose.Pdf.Text. Не забудьте підключити ліцензійний файл, якщо ви працюєте з повною версією. Тимчасову безкоштовну ліцензію можна отримати на офіційному сайті Aspose – достатньо вказати шлях до файлу перед будь‑яким викликом API:

Пакет NuGet та ліцензія

  • NuGet – найзручніший спосіб оновлювати бібліотеку та її залежності.
  • Ліцензія – дозволяє працювати без водяних знаків і обмежень на кількість сторінок.

Приклад коду: Конвертація PDF у TXT за допомогою Aspose.PDF

Нижче наведено мінімальний приклад, який відкриває PDF‑документ, витягує весь текст і зберігає його у файл .txt.

Ключові моменти коду:

  • Document – головний клас для роботи з PDF.
  • TextAbsorber – спеціальний об’єкт, який «поглинає» текст з усіх сторінок.
  • Pages.Accept – метод, який проходить по всіх сторінках і передає їх у TextAbsorber.
  • File.WriteAllText – стандартний .NET‑метод для запису рядка у файл.

Завантаження PDF і витяг тексту

Якщо потрібно обробляти лише окремі сторінки, можна вказати діапазон у TextAbsorber:

textAbsorber.StartPage = 1;
textAbsorber.EndPage = 5;

Таким чином можна зменшити використання пам’яті при роботі з великими документами.

Поширені питання та рекомендації

Як обробляти великі PDF‑файли?

Для файлів розміром понад 100 МБ рекомендується обробляти їх порціями – наприклад, читати по 10‑20 сторінок, зберігати проміжний результат у тимчасовий файл і лише після завершення об’єднувати їх. Крім того, варто увімкнути MemoryManagementSettings у PdfLoadOptions, щоб зменшити навантаження на ОЗП.

Чи можна зберегти форматування?

Aspose.PDF дозволяє зберігати просте форматування (розриви рядків, абзаци) під час екстракції. Якщо потрібне більш складне структурування (таблиці, колонки), слід використовувати TextFragmentAbsorber з налаштуванням FragmentArea або розбирати PDF у HTML, а вже з HTML отримувати чистий текст.

Чи підтримується багатомовний текст?

Так, бібліотека коректно працює з Unicode‑текстом, включаючи кирилицю, арабську та азійські скрипти. Після екстракції просто зберігайте файл у кодуванні UTF‑8 (за замовчуванням File.WriteAllText використовує UTF‑8).


Застосовуючи наведені рекомендації, ви зможете швидко та надійно конвертувати будь‑які PDF‑документи у чистий текст, використовуючи лише Aspose.PDF for .NET без додаткових зовнішніх залежностей.

More in this category