PDF Файлы популярны, потому что они поддерживают текст, изображения, анимации, видео и различные анотации. Тем не менее, для многих документов текст является наиболее решающей частью. Эта статья объясняет, как конвертировать PDF-файлов в файлы TXT и, наоборот, файлов TXT в PDF с использованием C# .NET. Этот перевод особенно полезен, когда вам нужно экстрактировать или сосредоточиться исключительно на текстовом содержании документа PDF, например, при выполнении текстового анализа или подготовке контента для реформы.

Темы, охватываемые в этом руководстве, включают:

Тайп: Вы также можете быть заинтересованы в бесплатной Использование GIF Converter Это позволяет генерировать анимированные GIF из текста.

C# TXT в PDF или PDF в TXT Converter

Конвертирование между форматами PDF и TXT необходимо, когда ваш главный интерес лежит в текстовых данных в рамках документа. Независимо от того, нужно ли вы удалить все форматирование для простого текстового анализа или сохранять некоторое структурированное расположение, процесс может быть завершен с помощью нескольких простых шагов, используя Aspose.PDF для .NET Этот API является универсальным и поддерживает C# и VB.NET, что делает его легким для интеграции в ваши приложения .NET.

Чтобы установить API в вашем приложении, вы можете либо загрузить файлы DLL из Скачать или используют НУГЕТ Например, установить его через консоль Package Manager:

PM> Install-Package Aspose.PDF

После установки API вы можете начать процесс конверсии несколькими подходами, адаптированными к различным потребностям.

C# Конвертировать PDF в TXT без форматирования

Иногда нужен только суровый текст из PDF-документа без дополнительного форматирования. Этот метод извлекает текст точно так, как он появляется в документе, без сохранения шрифтов, пространств или стилей. Особенно полезен для анализа текста, индексации поиска или когда расположение не имеет значения.

Шаги для экстракции сырого текста

  • Загрузите вводный PDF-документ: Используйте API для загрузки PDF-файла в объект документа.

  • Инициативуйте StringBuilder: Создайте пример для StringBuilder Класс для эффективного накопления текстовых данных.

  • Истраживать через каждую страницу PDF: Пройдите через все страницы в документе. для каждой страницы:

  • Использование TextDevice Исключить текст.

  • Используйте The Равный режим Для обеспечения того, чтобы форматирование не применялось.

  • Сохранить текст выхода: Напишите накопленный текст в файл TXT.

Ниже приведенный код иллюстрирует, как конвертировать PDF-файл в файл TXT с помощью метода Raw Extraction:

Дополнительные инспективы

  • Производство и простота: Изображение сырого текста, как правило, быстрее, потому что он не пытается разрывать или применять правила форматирования.
  • Используемые случаи: Идеально подходит для экстракции журналов, индексации поиска или сценариев, где требуется только текстовое содержание.

Конвертировать PDF-файл в TXT с форматированием рутин с помощью C# или VB.NET

В других сценариях, сохранение форматирования текста (например, параграфов, колонн и колонн) имеет решающее значение. Этот метод применяется для форматирования рутин, чтобы отразить расположение документа в полученном файле TXT.

Шаги для экстракции текста с форматированием

  • Загрузить Источник PDF-файл: Как и раньше, загружайте PDF-документ в вашу заявку.

  • Инициируйте переменную строку: Подготовьте строку для сбора форматированного текстового выхода.

  • Экстракт текста с использованием режима форматирования: Для каждой страницы используйте Описание TextFormattingMode.Pure Этот режим пытается как можно ближе воспроизвести оригинальный формат.

  • Сохранить форматированный текст: Выведите собранный текст в TXT-файл, который сохраняет структурированное форматирование, например, линейные перерывы, выделения и пространство на клавиатуре.

Следующий пример кода показывает, как конвертировать PDF-файл в TXT-файл с текстовым форматированием с помощью C#:

Визуальное сравнение RAW и Pure Extraction

На нижнем изображении представлено визуальное сравнение двух режимов экстракции.На левом, текст PDF появляется с его оригинальным форматированием (чистый режим), в то время как справа показывает сырой текст без какой-либо форматирования.

Convert PDF TXT csharp

Конвертировать файл TXT в PDF Программируя с помощью C# или VB.NET

Конвертирование файла TXT обратно в PDF полезно, когда вам нужно производить полированный документ из плоского текстового контента. Этот процесс включает в себя чтение текста, а затем применение форматирования PDF для создания документа, который визуально привлекателен и готов к распределению.

Шаги для конверсии TXT в PDF

  • Создание текстового редактора: Используйте TextReader → Класс для чтения контента из файла TXT.

  • Иницијализуйте новый PDF-документ и добавьте белую страницу: Создайте пример для Документ Класс и добавьте новую страницу.

  • Настройка объекта TextBuilder: Используйте TextBuilder для создания текстовых параграфов с желаемым форматированием, таких как шрифт, размер и цвет.

  • Прочитайте и добавьте каждую линию текста: Пройдите через строки в файле TXT, приклеивая каждую строку к объекту TextBuilder.

  • Спасите выход PDF: Используйте Документ .Save(String) Метод написания финального PDF-файла на диск.

Ниже приведенный код показывает, как конвертировать файл TXT в PDF-документ с помощью C#:

Рассмотрим, когда конвертировать TXT в PDF

  • Дизайн и стиль: Вам может понадобиться корректировать маргины, пространство линии и другие текстовые свойства, чтобы убедиться, что PDF хорошо форматирован и читается.
  • Ошибка обработки: Введение проверки ошибок во время чтения файлов и написания операций для решения сценариев, таких как проблемы с доступом к файлам или кодирование ошибок.

Заключение

В этой статье мы продемонстрировали методы конвертирования PDF-файлов в файлы TXT и ТXT в PDF с использованием C# или VB.NET в .NET Framework. независимо от того, вы выбираете экстракцию сырого текста для скорости и простоты или требуете форматированного текста, чтобы сохранить расположение документа, Aspose.PDF для .NET API предлагает надежные и гибкие решения. Эти методы конверсии недостоверны для обработки данных, архивирования документов и восстановления контента.

Если у вас есть какие-либо вопросы или требуется дополнительная помощь, пожалуйста, посетите наш сайт. Форум бесплатной поддержки или пересмотреть Документация продукта.

Смотреть также

More in this category