Extract Text from PDF C#

Витягування тексту з PDF-файлів є поширеною вимогою в завданнях обробки документів. Ця стаття надає детальну інструкцію щодо використання Плагіна для витягування тексту Aspose.PDF для ефективного та універсального витягування тексту в C#. Незалежно від того, чи потрібно витягти текст з усього документа, конкретних сторінок або визначених ділянок, плагін Aspose забезпечує високопродуктивне витягування тексту з PDF з мінімальними зусиллями.


Охоплені функції


Огляд плагіна для витягування тексту Aspose.PDF

Плагін для витягування тексту Aspose.PDF для .NET є надійним рішенням для витягування тексту з PDF-документів. Він спеціально розроблений для розробників, які працюють з .NET-додатками, підтримуючи як .NET Framework, так і .NET Core для витягування тексту з PDF. Плагін пропонує три режими роботи:

  1. Чистий режим: Витягує текст, зберігаючи оригінальне форматування та структуру.
  2. Сирий режим: Витягує текст без форматування.
  3. Звичайний режим: Витягує текст і видаляє форматування та спеціальні символи.

Переваги

  • Підтримує пакетну обробку для кількох PDF.
  • Пропонує налаштовувані параметри витягування для задоволення конкретних вимог.
  • Пряма інтеграція з .NET-додатками забезпечує безперебійну роботу.
  • Оптимізовано для високошвидкісного, точного витягування тексту з мінімальним використанням ресурсів.

Бібліотека для витягування тексту з PDF на C#

Бібліотека Aspose.PDF для .NET є всебічним інструментом для розробників .NET, які шукають високопродуктивне витягування тексту з PDF на C#. Ви можете легко встановити її через NuGet:

PM> Install-Package Aspose.PDF

Альтернативно, ви можете завантажити DLL, щоб інтегрувати її безпосередньо у свій проект, надаючи надійне рішення для витягування тексту з PDF на C#.


Витягти текст з цілого PDF у C#

Щоб витягти весь текст з PDF, виконайте ці кроки:

  1. Завантажте PDF, використовуючи клас Document.
  2. Створіть об’єкт TextAbsorber.
  3. Застосуйте абсорбер до всіх сторінок.
  4. Збережіть витягнутий текст у файл.

Приклад коду


Витягти текст з конкретних сторінок у PDF

Щоб витягти текст з однієї сторінки:

  1. Завантажте PDF.
  2. Створіть TextAbsorber.
  3. Застосуйте абсорбер до потрібної сторінки.
  4. Збережіть витягнутий текст.

Приклад коду


Витягти текст з конкретних ділянок у PDF

Витягнення тексту з конкретних областей сторінки передбачає визначення прямокутних координат. Кроки включають:

  1. Завантажте PDF.
  2. Налаштуйте TextSearchOptions для визначеної ділянки.
  3. Застосуйте TextAbsorber до ділянки.
  4. Збережіть витягнутий текст.

Приклад коду


Шукати та витягувати текст за допомогою Regex

Щоб витягти текст, що відповідає певному шаблону за допомогою регулярних виразів:

  1. Завантажте PDF.
  2. Визначте шаблон regex.
  3. Застосуйте шаблон за допомогою TextAbsorber.
  4. Витягніть відповідні фрагменти тексту.

Приклад коду


Витягти дані таблиці як текст у C#

Щоб витягти вміст таблиці:

  1. Завантажте PDF.
  2. Використовуйте TableAbsorber для навігації через структури таблиць.
  3. Витягніть текст по клітинках.

Приклад коду


Витягти виділений текст у PDF

Щоб витягти виділений текст:

  1. Перегляньте анотації.
  2. Відфільтруйте TextMarkupAnnotation.
  3. Отримайте та збережіть виділені фрагменти.

Приклад коду


Оптимізувати витягування тексту з низьким використанням пам’яті

i) Використовуючи Reset() та FreeMemory():

  1. Викликайте absorber.Reset() після обробки кожної сторінки.
  2. Вивільніть пам’ять, що утримується сторінками, використовуючи page.FreeMemory().

ii) Використовуючи режим MemorySaving:

Встановіть TextExtractionOptions.TextFormattingMode, щоб оптимізувати використання пам’яті під час витягування тексту з PDF.

Приклад коду


Безкоштовна бібліотека для витягування тексту з PDF на C#

Отримайте безкоштовну тимчасову ліцензію для необмеженого доступу до Aspose.PDF для .NET та розблокуйте його повний потенціал для ефективного витягування тексту з PDF на C#.


Висновок

Плагін для витягування тексту Aspose.PDF для .NET пропонує універсальне та ефективне рішення для надійних завдань витягування тексту. Від цілого документа до конкретних сторінок або ділянок, він спрощує процес з точністю та швидкістю, роблячи його однією з найкращих бібліотек для витягування тексту з PDF на C#. Спробуйте його сьогодні, щоб спростити свої робочі процеси витягування тексту з PDF лише за $99!