ПДФ Файловете са популярни, защото поддържат текст, изображения, анимации, видеоклипове и различни бележки. обаче, за много документи, текстът е най-критичната част. Тази статия обяснява как да конвертирате PDF файлове в TXT файл и, обратното, TX файл в PDF с помощта на C# .NET. Този превод е особено полезен, когато трябва да се извлече или фокусирате единствено върху текстовото съдържание на PDF документ, като например при извършване на текстови анализи или при подготовката на съдържанието за реформиране.

Темите, обхванати в този ръководство включват:

Съвет: Може да се интересувате и от безплатен Изтегляне на GIF Converter Това ви позволява да генерирате анимирани GIF от текста.

C# TXT в PDF или PDF в TXT Converter

Конвертирането между PDF и TXT формати е от съществено значение, когато основният ви интерес се намира в текстовите данни в рамките на документ. Независимо дали трябва да изтриете всички формати за прост текст анализ или да запазите някои структурирани оформления, процесът може да бъде завършен с няколко прости стъпки, като използвате Изтегляне.pdf за .NET Този API е многофункционален и поддържа както C#, така и VB.NET, което го прави лесен за интегриране в вашите .NET приложения.

За да инсталирате API в приложението си, можете да изтеглите файловете DLL от Изтегляне Или използвайте НУГЕТ Например, инсталирайте го чрез конзола за мениджър на пакетите:

PM> Install-Package Aspose.PDF

След като API е инсталиран, можете да започнете процеса на конверсия с няколко подхода, адаптирани към различни нужди.

C# Конвертирайте PDF в TXT без форматиране

Понякога се нуждаете само от суров текст от PDF документ без допълнително форматиране. Този метод извлича текста точно така, както се появява в документа, без запазване на шрифтове, пространства или стилове. Това е особено полезно за анализ на текста, индексиране на търсенето, или когато оформлението е нерелевантно.

Стъпки за извличане на суров текст

  • Изтеглете входния PDF документ: API, за да изтеглите PDF.

  • Инициативата на StringBuilder: Създаване на инстанция от Строител Класа за ефективно натрупване на текстови данни.

  • Изтегляне през всяка PDF страница: Преминава през всички страници в документа.За всяка страница:

  • Използване Текстовете за извличане на текст.

  • Наемане на Ръв режим да се гарантира, че форматирането не се прилага.

  • Запазете изходния текст: Напишете натрупания текст в TXT файл.

PDF в TXT файл с помощта на метода на Raw:

Допълнителни инспекти

  • Изпълнение и простота: Суровото извличане на текст обикновено е по-бързо, тъй като не се опитва да разваля или прилага никакви правила за форматиране.
  • Използвани случаи: Идеален за екстракция на дневници, индексиране на търсенето или сценарии, където се изисква само текстово съдържание.

PDF към TXT файл с форматиране на рутините с помощта на C# или VB.NET

В други сценарии, запазването на форматирането на текста (като параграфи, обобщения и колони) е от решаващо значение. Този метод се прилага за формат рутините за огледало на оформлението на документа в резултат TXT файл.

Стъпки за извличане на текст с форматиране

  • Изтегляне на PDF файл източник: Както и преди, изтеглите PDF документа в приложението си.

  • Започнете с променлива лента: Подгответе лента за събиране на форматирани текстови изходи.

  • Изтегляне на текст чрез форматиране: За всяка страница използвайте ИзтеглянеMode.Pure Този режим се опитва да възпроизведе оригиналния формат възможно най-близо.

  • Съхранявайте форматирания текст: Изтеглете събрания текст в TXT файл, който запазва структуриран форматиране като линии прекъсвания, инденти, и таб пространство.

PDF в TXT файл с текстово форматиране с помощта на C#:

Визуално сравнение на RAW и Pure Extraction

Снимката по-долу дава визуално сравнение на двата режима на извличане.На лявата страна, текстът на PDF се появява с оригиналния му форматиране (чист режим), докато дясната показва суров текст без никакъв формат.

Convert PDF TXT csharp

TXT файла в PDF Програматично с помощта на C# или VB.NET

TXT файл обратно в PDF е полезно, когато трябва да произвеждате полиран документ от плоско текстово съдържание. Този процес включва четене на текста и след това прилагане на PDF.

Стъпки за преобразуване на TXT в PDF

  • Създаване на инстанция TextReader:* Използвайте Текстови читатели Класа за четене на съдържанието от TXT файла.

  • Започнете нов PDF документ и добавете бяла страница: Създаване на инстанция от Документ Урок и добавете нова страница.

  • Инсталирайте обекта на TextBuilder: Използвайте Текстови строители за изграждане на текстови параграфи с желаното форматиране, като например шрифт, размер и цвят.

  • Прочетете и добавете всяка линия на текст: TXT файла, като прикрепите всяка линия към обекта на TextBuilder.

  • Запазете изхода на PDF: Използвайте Save(String) Методът за записване на финалния PDF файл на диска.

TXT файл в PDF документ с помощта на C#:

Преобразуване на TXT в PDF

  • Дизайн и стил: Може да се наложи да коригирате маргините, линиите и други текстови свойства, за да сте сигурни, че PDF е добре форматиран и честен.
  • Използване на грешки: Извършване на проверка на грешките по време на четене на файлове и писане операции за справяне с сценарии като проблеми с достъпа до файл или кодиране на несъответствия.

заключение

В тази статия, ние демонстрираме техниките за конвертиране на PDF файлове в TXT и TXT файл в PDF с помощта на C# или VB.NET в .NET Framework. Независимо дали избирате суров текст екстракция за скорост и простота или се изисква форматиран текст, за да се запази оформлението на документа, Изтегляне.pdf за .NET API предлага надеждни и гъвкави решения.Тези методи за конвертиране са безценни за обработка на данни, архивиране на документи и пренасочване на съдържание.

Ако имате някакви въпроси или се нуждаете от допълнителна помощ, моля, посетете нашата Безплатен форум за поддръжка или преразглеждане на Документация за продукта.

Вижте също

More in this category