PDF Файлы популярны, потому что они поддерживают текст, изображения, анимации, видео и различные анотации. Тем не менее, для многих документов текст является наиболее решающей частью. Эта статья объясняет, как конвертировать PDF-файлов в файлы TXT и, наоборот, файлов TXT в PDF с использованием C# .NET. Этот перевод особенно полезен, когда вам нужно экстрактировать или сосредоточиться исключительно на текстовом содержании документа PDF, например, при выполнении текстового анализа или подготовке контента для реформы.
Темы, охватываемые в этом руководстве, включают:
- C# TXT в PDF или PDF в TXT Converter API
- C# Конвертировать PDF в TXT без форматирования
- Конвертируйте PDF-файл в TXT с использованием C# или VB.NET
- Конвертировать файл TXT в PDF Программируя с помощью C# или VB.NET
Тайп: Вы также можете быть заинтересованы в бесплатной Использование GIF Converter Это позволяет генерировать анимированные GIF из текста.
C# TXT в PDF или PDF в TXT Converter
Конвертирование между форматами PDF и TXT необходимо, когда ваш главный интерес лежит в текстовых данных в рамках документа. Независимо от того, нужно ли вы удалить все форматирование для простого текстового анализа или сохранять некоторое структурированное расположение, процесс может быть завершен с помощью нескольких простых шагов, используя Aspose.PDF для .NET Этот API является универсальным и поддерживает C# и VB.NET, что делает его легким для интеграции в ваши приложения .NET.
Чтобы установить API в вашем приложении, вы можете либо загрузить файлы DLL из Скачать или используют НУГЕТ Например, установить его через консоль Package Manager:
PM> Install-Package Aspose.PDF
После установки API вы можете начать процесс конверсии несколькими подходами, адаптированными к различным потребностям.
C# Конвертировать PDF в TXT без форматирования
Иногда нужен только суровый текст из PDF-документа без дополнительного форматирования. Этот метод извлекает текст точно так, как он появляется в документе, без сохранения шрифтов, пространств или стилей. Особенно полезен для анализа текста, индексации поиска или когда расположение не имеет значения.
Шаги для экстракции сырого текста
Загрузите вводный PDF-документ: Используйте API для загрузки PDF-файла в объект документа.
Инициативуйте StringBuilder: Создайте пример для StringBuilder Класс для эффективного накопления текстовых данных.
Истраживать через каждую страницу PDF: Пройдите через все страницы в документе. для каждой страницы:
Использование TextDevice Исключить текст.
Используйте The Равный режим Для обеспечения того, чтобы форматирование не применялось.
Сохранить текст выхода: Напишите накопленный текст в файл TXT.
Ниже приведенный код иллюстрирует, как конвертировать PDF-файл в файл TXT с помощью метода Raw Extraction:
Дополнительные инспективы
- Производство и простота: Изображение сырого текста, как правило, быстрее, потому что он не пытается разрывать или применять правила форматирования.
- Используемые случаи: Идеально подходит для экстракции журналов, индексации поиска или сценариев, где требуется только текстовое содержание.
Конвертировать PDF-файл в TXT с форматированием рутин с помощью C# или VB.NET
В других сценариях, сохранение форматирования текста (например, параграфов, колонн и колонн) имеет решающее значение. Этот метод применяется для форматирования рутин, чтобы отразить расположение документа в полученном файле TXT.
Шаги для экстракции текста с форматированием
Загрузить Источник PDF-файл: Как и раньше, загружайте PDF-документ в вашу заявку.
Инициируйте переменную строку: Подготовьте строку для сбора форматированного текстового выхода.
Экстракт текста с использованием режима форматирования: Для каждой страницы используйте Описание TextFormattingMode.Pure Этот режим пытается как можно ближе воспроизвести оригинальный формат.
Сохранить форматированный текст: Выведите собранный текст в TXT-файл, который сохраняет структурированное форматирование, например, линейные перерывы, выделения и пространство на клавиатуре.
Следующий пример кода показывает, как конвертировать PDF-файл в TXT-файл с текстовым форматированием с помощью C#:
Визуальное сравнение RAW и Pure Extraction
На нижнем изображении представлено визуальное сравнение двух режимов экстракции.На левом, текст PDF появляется с его оригинальным форматированием (чистый режим), в то время как справа показывает сырой текст без какой-либо форматирования.

Конвертировать файл TXT в PDF Программируя с помощью C# или VB.NET
Конвертирование файла TXT обратно в PDF полезно, когда вам нужно производить полированный документ из плоского текстового контента. Этот процесс включает в себя чтение текста, а затем применение форматирования PDF для создания документа, который визуально привлекателен и готов к распределению.
Шаги для конверсии TXT в PDF
Создание текстового редактора: Используйте TextReader → Класс для чтения контента из файла TXT.
Иницијализуйте новый PDF-документ и добавьте белую страницу: Создайте пример для Документ Класс и добавьте новую страницу.
Настройка объекта TextBuilder: Используйте TextBuilder для создания текстовых параграфов с желаемым форматированием, таких как шрифт, размер и цвет.
Прочитайте и добавьте каждую линию текста: Пройдите через строки в файле TXT, приклеивая каждую строку к объекту TextBuilder.
Спасите выход PDF: Используйте Документ .Save(String) Метод написания финального PDF-файла на диск.
Ниже приведенный код показывает, как конвертировать файл TXT в PDF-документ с помощью C#:
Рассмотрим, когда конвертировать TXT в PDF
- Дизайн и стиль: Вам может понадобиться корректировать маргины, пространство линии и другие текстовые свойства, чтобы убедиться, что PDF хорошо форматирован и читается.
- Ошибка обработки: Введение проверки ошибок во время чтения файлов и написания операций для решения сценариев, таких как проблемы с доступом к файлам или кодирование ошибок.
Заключение
В этой статье мы продемонстрировали методы конвертирования PDF-файлов в файлы TXT и ТXT в PDF с использованием C# или VB.NET в .NET Framework. независимо от того, вы выбираете экстракцию сырого текста для скорости и простоты или требуете форматированного текста, чтобы сохранить расположение документа, Aspose.PDF для .NET API предлагает надежные и гибкие решения. Эти методы конверсии недостоверны для обработки данных, архивирования документов и восстановления контента.
Если у вас есть какие-либо вопросы или требуется дополнительная помощь, пожалуйста, посетите наш сайт. Форум бесплатной поддержки или пересмотреть Документация продукта.