Extract Text from PDF C#

Витяг тексту з PDF-файлів є загальним вимогою у справах обробки документів. Ця стаття надає глибокий посібник щодо використання Aspose.PDF’s Text Extractor Plugin для ефективного і різноманітного витягу тексту в C#. Незалежно від того, чи потрібно витягувати текст з цілого документа, конкретних сторінок або визначених регіонів, Aspose Plugin сприяє високопродуктивному витягу тексту PDF з мінімальними зусиллями.

Ключові функції Aspose.PDF Text Extractor Plugin

Докладніше: Aspose.PDF’s Text Extractor Plugin

Aspose.PDF’s Text Extractor Plugin for .NET є міцним рішенням для екстракції тексту з PDF-документів. Він спеціально розроблений для розробників, які працюють з .NET-прикладами, підтримуючи як .NET Framework, так і .NET Core для екстракції тексту PDF:

  • Чистий режим: витягує текст, зберігаючи оригінальний формат і структуру.
  • Raw Mode: Витягує текст без будь-якого форматування.
  • Plain Mode: Витягує текст і видаляє всі формати та спеціальні символи.

Переваги використання Aspose.PDF

  • Batch Processing: обробка кількох файлів PDF одночасно.
  • Налаштування налаштування налаштування налаштування налаштування налаштування налаштування налаштування налаштування налаштування налаштування налаштування налаштування налаштування налаштування налаштування.
  • Безкоштовна інтеграція: безпосередньо інтегрується з додатками .NET для плавних робочих потоків.
  • Високошвидкісна продуктивність: Оптимізована для швидкого, точного видобутку тексту з мінімальним споживанням ресурсів.

Починаючи з C# PDF Text Extraction

Того ж Aspose.PDF для .NET Бібліотека є всеосяжним інструментом для розробників .NET, які шукають високопродуктивні C# PDF Extract рішення:

PM> Install-Package Aspose.PDF

В іншому випадку, ви можете Завантажити DLL Для того, щоб інтегрувати його безпосередньо в ваш проект, надаючи надійне C# PDF to Text рішення.

Витяг тексту з цілого PDF в C#

Щоб витягти весь текст з PDF, слідкуйте за цими кроками:

  • Завантажити PDF за допомогою Документ У класі.
  • Створення A TextAbsorber Об’єкт.
  • Використовуйте абсорбтор на всіх сторінках.
  • Зберегти витягнутий текст в файл.

Код прикладу

Витяг тексту з конкретних сторінок в PDF

Щоб витягти текст з однієї сторінки за допомогою C#, виконайте наступні кроки:

  • Завантажити PDF.
  • Створення A TextAbsorber.
  • Нанесіть абсорбтор на бажану сторінку.
  • Зберегти витягнутий текст.

Код прикладу

Витяг тексту з конкретних регіонів у PDF

Для екстракції тексту з конкретних областей сторінки визначайте прямокутні координати:

  • Завантажити PDF.
  • Конфігурація TextSearchOptions для визначеного регіону.
  • Використовуйте The TextAbsorber до регіону.
  • Зберегти витягнутий текст.

Код прикладу

Пошук та екстракція тексту за допомогою Regex}

Для екстракції тексту, що відповідає конкретному зразку за допомогою регулярних виразів:

  • Завантажити PDF.
  • Визначте регексний зразк.
  • Використовуйте шаблон TextAbsorber.
  • Витяг відповідних текстових фрагментів.

Код прикладу

Витяг табличних даних як тексту в C#

Щоб витягти вміст з таблиць, використовуйте наступні кроки:

  • Завантажити PDF.
  • Користувати TableAbsorber Навігація через таблиць.
  • Витяг тексту за клітиною.

Код прикладу

Витяг підкреслюваного тексту в PDF

Для витягування підкреслюваного тексту:

  • Завантажити через анотації.
  • Фільтр TextMarkupAnnotation.
  • Зберегти і зберегти підкреслені фрагменти.

Код прикладу

Оптимізація тексту з використанням низької пам’яті

1) Використання **** і ****:

  • Зателефонуйте absorber.Reset() після обробки кожної сторінки.
  • Безкоштовна пам’ять, що зберігається сторінками page.FreeMemory().

2) Використання MemorySaving У моді:

Стіл TextExtractionOptions.TextFormattingMode для оптимізації використання пам’яті під час екстракції тексту PDF.

Код прикладу

Безкоштовний C# PDF Бібліотека екстракції тексту

Знайдіть A Безкоштовна тимчасова ліцензія для безмежного доступу до Aspose.PDF для .NET і розблокувати свій повний потенціал для ефективних C# PDF Text Extraction рішень. Ви також можете досліджувати такі варіанти, як ** C# Конвертувати PDF в текст** і ** Ц# Читати текст з PDF** для персоналізованих рішень, в тому числі ** С# Екстракти тексту з pdf** та ** ЧИтати PDF Текст безкоштовно**.

Заключення

Aspose.PDF’s Text Extractor Plugin for .NET пропонує різноманітне і ефективне рішення для надійних завдань з видобутку тексту. Від вилучення тексту з цілих документів до конкретних сторінок або регіонів, він ускладнює процес з точністю і швидкістю. Це робить його однією з кращих C# PDF Extract Text бібліотек доступних. Спробуйте сьогодні спростити робочі потоки з екстракції тексту PDF за тільки $99!

More in this category