
PDF файлове като плосък текст за по-нататъшна обработка, като например анализ и извличане на информация. Обработването на PDF файлове и конвертирането на цял PDF във формат TXT#.
C# Библиотека за PDF към TXT Конверсия
[Aspose.Words за .NET][1] е невероятна API за обработка на документи, която позволява на разработчиците да работят с документи на Word, както и различни други формати, включително PDF. С обширния си набор от функции, Aspose.Words.
NuGet][5], като използвате следната команда. или да изтеглите DLL от раздела [Releases][6.
PM> Install-Package Aspose.Words
PDF към TXT в C#
Aspose.Words за .NET скрива всички сложни операции на извличане на текст от PDF файлове и ви позволява да извършите конвертиране на PDF към TXT.
- Изтеглете PDF файла.
- PDF във формат TXT.
PDF файл в чист текст, без значение колко голям е източникът на PDF#.
- Първо, изтеглете PDF с помощта на Document клас.
- След това съхранявайте документа като TXT файл, като използвате метода Document.Save(filePath.
C# код snippet конвертира PDF в TXT.
API лиценз
2] за конвертиране на PDF файлове в TXT.
заключение
PDF към TXT в C# с помощта на Aspose.Words за .NET библиотека. Следвайки насоките и използвайки кода на отпечатък, можете лесно да обработвате големи PDF файлове и да ги конвертирате в чист текст. Aspose.Words опростява задачите за обработка на документи, което го прави ценно средство за разработчиците, работещи с различни формати на документи в техните приложения. Можете да посетите [документация][3] на тази .NET].
Подробен преглед на API‑то за извличане на текст
Използване на TextAbsorber за извличане на текст
За извличане на цялото съдържание от PDF файл в Aspose.PDF за .NET се използва класът TextAbsorber. Този клас обхваща всички текстови елементи, включително тези в таблици, колони и странични бележки. Примерният код по-долу показва как се създава Document обект, как се прилага TextAbsorber и как се получава резултатният стринг.
Този подход е бърз и надежден, като запазва редовете и параграфите в оригиналната им последователност.
Записване на текста с кодиране UTF-8
След извличането е важно да запишете текста в файл с правилно кодиране, за да се запазят специалните знаци (например български букви). Използвайте System.IO.File.WriteAllText с указание за Encoding.UTF8.
Това гарантира, че получените данни са четливи в почти всяка текстова среда.
Оптимизация при работа с големи PDF документи
Странично обработване (paged processing)
Когато PDF‑тата са много големи (стотици или хиляди страници), е по‑ефективно да обработвате по една страница наведнъж. TextAbsorber може да се приложи към конкретна страница чрез pdfDoc.Pages[i].Accept(absorber). Това намалява консумацията на RAM и ускорява процеса.
Този метод позволява постепенно записване в изходния TXT файл, без да се натрупва целият текст в паметта.
Памет и производителност
- Използвайте using блокове за автоматично освобождаване на ресурси.
- Деактивирайте ненужни функции като DocumentInfo ако не са ви необходими.
- При конвертиране в партиди, избягвайте многократно отваряне и затваряне на един и същ файл – отворете го един път и добавяйте към него.
Тези практики осигуряват стабилна работа и предотвратяват изчерпване на памет при обработка на масивни документи.
Чести въпроси (FAQ)
Въпрос: Как да конвертирам PDF с защитена парола? Отговор: При създаване на Document обекта предайте LoadOptions с парола.
Document protectedPdf = new Document("protected.pdf", "myPassword");
Въпрос: Мога ли да извлека само текст от определена област? Отговор: Да – задайте Rectangle в TextAbsorber чрез свойството TextSearchOptions.Rectangle.
Въпрос: Как да конвертирам PDF към TXT без да загубя форматирането на таблици? Отговор: Текстовото извличане запазва редовете, но за сложни таблици се препоръчва да използвате TableAbsorber (част от Aspose.PDF) и след това да форматирате изхода ръчно.
Тези отговори покриват най‑често срещаните сценарии при конвертиране на PDF към TXT с Aspose.PDF за .NET.