
Витягування тексту з PDF-файлів є поширеною вимогою в завданнях обробки документів. Ця стаття надає детальну інструкцію щодо використання Плагіна для витягування тексту Aspose.PDF для ефективного та універсального витягування тексту в C#. Незалежно від того, чи потрібно витягти текст з усього документа, конкретних сторінок або визначених ділянок, плагін Aspose забезпечує високопродуктивне витягування тексту з PDF з мінімальними зусиллями.
Охоплені функції
- Витягти текст з цілого PDF
- Витягти текст з конкретних сторінок
- Витягти текст з конкретної ділянки
- Шукати та витягувати текст за допомогою Regex
- Витягти дані таблиці як текст
- Витягти виділений текст
- Оптимізувати витягування тексту з низьким використанням пам’яті
Огляд плагіна для витягування тексту Aspose.PDF
Плагін для витягування тексту Aspose.PDF для .NET є надійним рішенням для витягування тексту з PDF-документів. Він спеціально розроблений для розробників, які працюють з .NET-додатками, підтримуючи як .NET Framework, так і .NET Core для витягування тексту з PDF. Плагін пропонує три режими роботи:
- Чистий режим: Витягує текст, зберігаючи оригінальне форматування та структуру.
- Сирий режим: Витягує текст без форматування.
- Звичайний режим: Витягує текст і видаляє форматування та спеціальні символи.
Переваги
- Підтримує пакетну обробку для кількох PDF.
- Пропонує налаштовувані параметри витягування для задоволення конкретних вимог.
- Пряма інтеграція з .NET-додатками забезпечує безперебійну роботу.
- Оптимізовано для високошвидкісного, точного витягування тексту з мінімальним використанням ресурсів.
Бібліотека для витягування тексту з PDF на C#
Бібліотека Aspose.PDF для .NET є всебічним інструментом для розробників .NET, які шукають високопродуктивне витягування тексту з PDF на C#. Ви можете легко встановити її через NuGet:
PM> Install-Package Aspose.PDF
Альтернативно, ви можете завантажити DLL, щоб інтегрувати її безпосередньо у свій проект, надаючи надійне рішення для витягування тексту з PDF на C#.
Витягти текст з цілого PDF у C#
Щоб витягти весь текст з PDF, виконайте ці кроки:
- Завантажте PDF, використовуючи клас Document.
- Створіть об’єкт TextAbsorber.
- Застосуйте абсорбер до всіх сторінок.
- Збережіть витягнутий текст у файл.
Приклад коду
Витягти текст з конкретних сторінок у PDF
Щоб витягти текст з однієї сторінки:
- Завантажте PDF.
- Створіть TextAbsorber.
- Застосуйте абсорбер до потрібної сторінки.
- Збережіть витягнутий текст.
Приклад коду
Витягти текст з конкретних ділянок у PDF
Витягнення тексту з конкретних областей сторінки передбачає визначення прямокутних координат. Кроки включають:
- Завантажте PDF.
- Налаштуйте TextSearchOptions для визначеної ділянки.
- Застосуйте TextAbsorber до ділянки.
- Збережіть витягнутий текст.
Приклад коду
Шукати та витягувати текст за допомогою Regex
Щоб витягти текст, що відповідає певному шаблону за допомогою регулярних виразів:
- Завантажте PDF.
- Визначте шаблон regex.
- Застосуйте шаблон за допомогою TextAbsorber.
- Витягніть відповідні фрагменти тексту.
Приклад коду
Витягти дані таблиці як текст у C#
Щоб витягти вміст таблиці:
- Завантажте PDF.
- Використовуйте TableAbsorber для навігації через структури таблиць.
- Витягніть текст по клітинках.
Приклад коду
Витягти виділений текст у PDF
Щоб витягти виділений текст:
- Перегляньте анотації.
- Відфільтруйте TextMarkupAnnotation.
- Отримайте та збережіть виділені фрагменти.
Приклад коду
Оптимізувати витягування тексту з низьким використанням пам’яті
i) Використовуючи Reset() та FreeMemory():
- Викликайте
absorber.Reset()
після обробки кожної сторінки. - Вивільніть пам’ять, що утримується сторінками, використовуючи
page.FreeMemory()
.
ii) Використовуючи режим MemorySaving:
Встановіть TextExtractionOptions.TextFormattingMode
, щоб оптимізувати використання пам’яті під час витягування тексту з PDF.
Приклад коду
Безкоштовна бібліотека для витягування тексту з PDF на C#
Отримайте безкоштовну тимчасову ліцензію для необмеженого доступу до Aspose.PDF для .NET та розблокуйте його повний потенціал для ефективного витягування тексту з PDF на C#.
Висновок
Плагін для витягування тексту Aspose.PDF для .NET пропонує універсальне та ефективне рішення для надійних завдань витягування тексту. Від цілого документа до конкретних сторінок або ділянок, він спрощує процес з точністю та швидкістю, роблячи його однією з найкращих бібліотек для витягування тексту з PDF на C#. Спробуйте його сьогодні, щоб спростити свої робочі процеси витягування тексту з PDF лише за $99!