Convert PDF to TXT in C#

PDF файлове като плосък текст за по-нататъшна обработка, като например анализ и извличане на информация. Обработването на PDF файлове и конвертирането на цял PDF във формат TXT#.

C# Библиотека за PDF към TXT Конверсия

[Aspose.Words за .NET][1] е невероятна API за обработка на документи, която позволява на разработчиците да работят с документи на Word, както и различни други формати, включително PDF. С обширния си набор от функции, Aspose.Words.

NuGet][5], като използвате следната команда. или да изтеглите DLL от раздела [Releases][6.

PM> Install-Package Aspose.Words 

PDF към TXT в C#

Aspose.Words за .NET скрива всички сложни операции на извличане на текст от PDF файлове и ви позволява да извършите конвертиране на PDF към TXT.

  • Изтеглете PDF файла.
  • PDF във формат TXT.

PDF файл в чист текст, без значение колко голям е източникът на PDF#.

  • Първо, изтеглете PDF с помощта на Document клас.
  • След това съхранявайте документа като TXT файл, като използвате метода Document.Save(filePath.

C# код snippet конвертира PDF в TXT.

API лиценз

2] за конвертиране на PDF файлове в TXT.

заключение

PDF към TXT в C# с помощта на Aspose.Words за .NET библиотека. Следвайки насоките и използвайки кода на отпечатък, можете лесно да обработвате големи PDF файлове и да ги конвертирате в чист текст. Aspose.Words опростява задачите за обработка на документи, което го прави ценно средство за разработчиците, работещи с различни формати на документи в техните приложения. Можете да посетите [документация][3] на тази .NET].

Подробен преглед на API‑то за извличане на текст

Използване на TextAbsorber за извличане на текст

За извличане на цялото съдържание от PDF файл в Aspose.PDF за .NET се използва класът TextAbsorber. Този клас обхваща всички текстови елементи, включително тези в таблици, колони и странични бележки. Примерният код по-долу показва как се създава Document обект, как се прилага TextAbsorber и как се получава резултатният стринг.

Този подход е бърз и надежден, като запазва редовете и параграфите в оригиналната им последователност.

Записване на текста с кодиране UTF-8

След извличането е важно да запишете текста в файл с правилно кодиране, за да се запазят специалните знаци (например български букви). Използвайте System.IO.File.WriteAllText с указание за Encoding.UTF8.

Това гарантира, че получените данни са четливи в почти всяка текстова среда.

Оптимизация при работа с големи PDF документи

Странично обработване (paged processing)

Когато PDF‑тата са много големи (стотици или хиляди страници), е по‑ефективно да обработвате по една страница наведнъж. TextAbsorber може да се приложи към конкретна страница чрез pdfDoc.Pages[i].Accept(absorber). Това намалява консумацията на RAM и ускорява процеса.

Този метод позволява постепенно записване в изходния TXT файл, без да се натрупва целият текст в паметта.

Памет и производителност

  • Използвайте using блокове за автоматично освобождаване на ресурси.
  • Деактивирайте ненужни функции като DocumentInfo ако не са ви необходими.
  • При конвертиране в партиди, избягвайте многократно отваряне и затваряне на един и същ файл – отворете го един път и добавяйте към него.

Тези практики осигуряват стабилна работа и предотвратяват изчерпване на памет при обработка на масивни документи.

Чести въпроси (FAQ)

Въпрос: Как да конвертирам PDF с защитена парола? Отговор: При създаване на Document обекта предайте LoadOptions с парола.

Document protectedPdf = new Document("protected.pdf", "myPassword");

Въпрос: Мога ли да извлека само текст от определена област? Отговор: Да – задайте Rectangle в TextAbsorber чрез свойството TextSearchOptions.Rectangle.

Въпрос: Как да конвертирам PDF към TXT без да загубя форматирането на таблици? Отговор: Текстовото извличане запазва редовете, но за сложни таблици се препоръчва да използвате TableAbsorber (част от Aspose.PDF) и след това да форматирате изхода ръчно.

Тези отговори покриват най‑често срещаните сценарии при конвертиране на PDF към TXT с Aspose.PDF за .NET.

More in this category