Извлечение текста из PDF C#

Извлечение текста из PDF-файлов является распространенной задачей в обработке документов. Эта статья предоставляет подробное руководство по использованию Плагина извлечения текста Aspose.PDF для эффективного и универсального извлечения текста на C#. Независимо от того, нужно ли вам извлечь текст из всего документа, определенных страниц или заданных областей, плагин Aspose обеспечивает высокопроизводительное извлечение текста из PDF с минимальными усилиями.


Ключевые функции плагина извлечения текста Aspose.PDF


Обзор плагина извлечения текста Aspose.PDF

Плагин извлечения текста Aspose.PDF для .NET является надежным решением для извлечения текста из PDF-документов. Он специально разработан для разработчиков, работающих с .NET-приложениями, поддерживая как .NET Framework, так и .NET Core для извлечения текста из PDF. Плагин предлагает три режима работы:

  1. Чистый режим: Извлекает текст, сохраняя оригинальное форматирование и структуру.
  2. Сырой режим: Извлекает текст без какого-либо форматирования.
  3. Простой режим: Извлекает текст и удаляет все форматирование и специальные символы.

Преимущества использования Aspose.PDF

  • Пакетная обработка: Обработка нескольких PDF одновременно.
  • Настраиваемые параметры: Настройка параметров извлечения в соответствии с вашими конкретными потребностями.
  • Бесшовная интеграция: Прямая интеграция с .NET-приложениями для плавных рабочих процессов.
  • Высокая скорость работы: Оптимизировано для быстрого и точного извлечения текста с минимальным потреблением ресурсов.

Начало работы с извлечением текста из PDF на C#

Библиотека Aspose.PDF для .NET является комплексным инструментом для разработчиков .NET, стремящихся к высокопроизводительному извлечению текста из PDF на C#. Вы можете легко установить ее через NuGet:

PM> Install-Package Aspose.PDF

В качестве альтернативы, вы можете скачать DLL, чтобы интегрировать его непосредственно в ваш проект, предоставляя надежное решение для извлечения текста из PDF на C#.


Извлечение текста из всего PDF на C#

Чтобы извлечь весь текст из PDF, выполните следующие шаги:

  1. Загрузите PDF с помощью класса Document.
  2. Создайте объект TextAbsorber.
  3. Примените абсорбер ко всем страницам.
  4. Сохраните извлеченный текст в файл.

Пример кода


Извлечение текста из определенных страниц в PDF

Чтобы извлечь текст с одной страницы:

  1. Загрузите PDF.
  2. Создайте TextAbsorber.
  3. Примените абсорбер к нужной странице.
  4. Сохраните извлеченный текст.

Пример кода


Извлечение текста из определенных областей в PDF

Для извлечения текста из определенных областей страницы определите прямоугольные координаты. Выполните следующие шаги:

  1. Загрузите PDF.
  2. Настройте TextSearchOptions для заданной области.
  3. Примените TextAbsorber к области.
  4. Сохраните извлеченный текст.

Пример кода


Поиск и извлечение текста с помощью регулярных выражений

Чтобы извлечь текст, соответствующий определенному шаблону с помощью регулярных выражений:

  1. Загрузите PDF.
  2. Определите шаблон регулярного выражения.
  3. Примените шаблон с помощью TextAbsorber.
  4. Извлеките фрагменты текста, соответствующие шаблону.

Пример кода


Извлечение данных таблицы в виде текста на C#

Чтобы извлечь содержимое из таблиц:

  1. Загрузите PDF.
  2. Используйте TableAbsorber для навигации по структурам таблиц.
  3. Извлекайте текст ячейка за ячейкой.

Пример кода


Извлечение выделенного текста в PDF

Чтобы извлечь выделенный текст:

  1. Переберите аннотации.
  2. Отфильтруйте TextMarkupAnnotation.
  3. Извлеките и сохраните выделенные фрагменты.

Пример кода


Оптимизация извлечения текста с низким потреблением памяти

i) Использование Reset() и FreeMemory():

  1. Вызовите absorber.Reset() после обработки каждой страницы.
  2. Освободите память, занимаемую страницами, с помощью page.FreeMemory().

ii) Использование режима MemorySaving:

Установите TextExtractionOptions.TextFormattingMode, чтобы оптимизировать использование памяти во время извлечения текста из PDF.

Пример кода


Бесплатная библиотека для извлечения текста из PDF на C#

Получите бесплатную временную лицензию для неограниченного доступа к Aspose.PDF для .NET и раскройте его полный потенциал для эффективного извлечения текста из PDF на C#.


Заключение

Плагин извлечения текста Aspose.PDF для .NET предлагает универсальное и эффективное решение для надежных задач извлечения текста. От извлечения текста из целых документов до определенных страниц или областей, он упрощает процесс с точностью и скоростью. Это делает его одной из лучших библиотек для извлечения текста из PDF на C#. Попробуйте его сегодня, чтобы упростить ваши рабочие процессы извлечения текста из PDF всего за $99!