Extract Text from PDF C#

Экстракция текста из PDF-файлов является общим требованием в задачах обработки документов. Эта статья предоставляет углубленный руководство по использованию Aspose.PDF Text Extractor Plugin для эффективного и разнообразного текстового экстракции в C#. Независимо от того, нужно ли экстрактировать текст из всего документа, конкретных страниц или определенных регионов, Aspose Plugin облегчает высокопроизводительную экстракцию текста PDF с минимальными усилиями.

Ключевые особенности Aspose.PDF Text Extractor Plugin

Обзор Aspose.PDF Text Extractor Plugin

Aspose.PDF Text Extractor Plugin for .NET является прочным решением для экстракции текста из PDF-документов. Он специально разработан для разработчиков, работающих с приложениями .NET, поддерживающих как .NET Framework, так и .NET Core для экстракции текста PDF:

  • Чистый режим: Экстрактирует текст при сохранении оригинального форматирования и структуры.
  • Raw Mode: Экстрактирует текст без форматирования.
  • Планный режим: выводит текст и удаляет все форматирование и специальные символы.

Преимущества использования Aspose.PDF

  • Batch Processing: обработка нескольких PDF-файлов одновременно.
  • Настройки, которые можно настроить: Настройки экстракции настройки, чтобы соответствовать вашим конкретным потребностям.
  • Seamless Integration: напрямую интегрируется с приложениями .NET для гладких рабочих потоков.
  • Высокая скорость производительности: Оптимизирован для быстрого, точного текстового извлечения с минимальным потреблением ресурсов.

Начинать с C# PDF Text Extraction

И в Aspose.PDF для .NET Библиотека является всесторонним инструментом для разработчиков .NET, которые ищут высокопроизводительные C# PDF Extract решения:

PM> Install-Package Aspose.PDF

В качестве альтернативы, вы можете Скачать DLL чтобы интегрировать его непосредственно в ваш проект, предоставляя надежное C# PDF to Text решение.

Экстракция текста из полного PDF в C#

Чтобы извлечь весь текст из PDF, следуйте следующим шагам:

  • Загрузите PDF с помощью Документ Класс.
  • Создайте A TextAbsorber Объект.
  • Нанесете апсорбтор на все страницы.
  • Сохраните извлеченный текст в файл.

Примерный код

Экстракция текста из конкретных страниц в PDF

Чтобы вывести текст из одной страницы с помощью C#, следуйте следующим шагам:

  • Загрузите PDF.
  • Создайте A TextAbsorber.
  • Нанесете апсорбтор на желаемую страницу.
  • Сохраните извлеченный текст.

Примерный код

Извлечение текста из конкретных регионов в PDF

Для извлечения текста из конкретных областей страницы, определите прямоугольные координаты:

  • Загрузите PDF.
  • Конфигурировать TextSearchOptions для определенного региона.
  • Используйте The TextAbsorber к региону.
  • Сохраните извлеченный текст.

Примерный код

Поиск и экстракция текста с помощью Regex

Для экстракции текста, соответствующего конкретному шаблону, используя регулярные выражения:

  • Загрузите PDF.
  • Определите регексную модель.
  • Используйте шаблон, используя TextAbsorber.
  • Экстракт соответствующих текстовых фрагментов.

Примерный код

Экстракция табличных данных в виде текста в C#

Чтобы извлечь контент из таблиц, используйте следующие шаги:

  • Загрузите PDF.
  • Использование TableAbsorber Навигация через табличные структуры.
  • Экстракт текстовой клетки по клетке.

Примерный код

Экстракция подчеркнутого текста в PDF

Чтобы выделить подчеркнутый текст:

  • Итерат через анотации.
  • Фильтр TextMarkupAnnotation.
  • Отстраивать и сохранять подчеркнутые фрагменты.

Примерный код

Оптимизация экстракции текста с низким уровнем памяти

i) Использование **** и ****:

  • Звонок absorber.Reset() После обработки каждой страницы.
  • Бесплатная память, содержащаяся на страницах, использующих page.FreeMemory().

2) Использование MemorySaving Мода:

Сет TextExtractionOptions.TextFormattingMode Для оптимизации использования памяти во время PDF-текстовой экстракции.

Примерный код

Бесплатная C# PDF Text Extraction Library {#Свободная лицензия}

Получите A Бесплатная временная лицензия для неограниченного доступа к Aspose.PDF для .NET и открытия полного потенциала для эффективных C# PDF Text Extraction решений. Вы также можете исследовать варианты, такие как ** C# Конвертировать PDF в текст** и ** Ц# Читать текст из PDF** для персонализированных решения, в том числе ** С# Экстрактировать Текст из ПДФ** или ** ЧИтать PDF Текст бесплатно**.

Заключение

Aspose.PDF’s Text Extractor Plugin for .NET предлагает всестороннее и эффективное решение для надежных заданий по экстракции текста. От выделения текста из целых документов на конкретные страницы или регионы, он упрощает процесс с точностью и скоростью. Это делает его одной из лучших C# PDF Extract Text библиотеки доступны. Попробуйте сегодня, чтобы опростить ваши рабочие потоки PDF-текста за всего $99!

More in this category