
Kao programer, često morate izvući sadržaj iz PDF datoteka kao ravni tekst za daljnju obradu, kao što su analiza i informacijska ekstrakcija. obrađivanje PDF datoteka i pretvaranje cijelog PDF-a u format TXT je problematičan zadatak kada nemate ispravne alate#.
C# knjižnica za PDF na TXT Konverzija
[Aspose.Words za .NET][1] je nevjerojatna API za obradu dokumenata koja omogućuje razvijalcima da rade s Word dokumentima, kao i raznim drugim formatima, uključujući PDF. sa svojim obilnim nizom funkcija, Aspose.Words pojednostavljuje zadatke manipulacije dokumenata, konverzije i generacije.
Knjižnicu možete instalirati s [NuGet][5] pomoću sljedećeg zapovijedi. ili preuzeti DLL s odjeljka [Releases][6.
PM> Install-Package Aspose.Words
Konvertirati PDF na TXT u C#
Aspose.Words za .NET krije sve složene operacije ekstrakcije teksta iz PDF datoteke i omogućuje vam da izvršite konverziju PDF-a na TXT u nekoliko koraka, kao što je navedeno ispod.
- Preuzmite PDF datoteku.
- Konvertirati PDF u TXT format pomoću jednog funkcijskog poziva.
Dakle, s nekoliko redova koda, možete pretvoriti sadržaj u PDF datoteku u ravni tekst, bez obzira na to koliko je izvor PDF#.
- Prvo, preuzmite PDF pomoću Dokument razreda.
- Zatim sačuvajte dokument kao TXT datoteku pomoću metoda Document.Save(filePath.
Sljedeći C# kod snippet pretvara PDF u TXT format.
Dobijte besplatnu API licencu
Možete dobiti [slobodnu privremenu licenciju][2] kako biste pretvorili PDF datoteke u format TXT bez ograničenja ocjenjivanja.
zaključak
U ovom članku na blogu, istražili smo kako pretvoriti PDF-a u TXT u C# pomoću Aspose.Words za .NET knjižnicu. Slijedom smjernica i pomoću skripta koda, lako možete obrađivati velike PDF datoteke i pretvoriti ih u ravni tekst. Aspose.Words pojednostavljuje zadatke obrade dokumenata, čineći ga vrijednim alatom za razvijatelje koji rade s različitim formatima dokumenata u svojim aplikacijama].
Napredne opcije ekstrakcije teksta
Dok osnovna konverzija PDF → TXT zadovoljava većinu potreba, ponekad je potrebno zadržati dodatne informacije poput razmaka, zaglavlja ili podnožja. Aspose.PDF za .NET omogućuje korištenje TextAbsorber (ili ekvivalentnih metoda) kako bi se dobio tekst s očuvanim strukturalnim informacijama. Na taj način možete izraditi CSV datoteke ili indeksirati dokumente za pretraživanje.
Očuvanje strukture i razmaka
Kada radite s tabličnim podacima unutar PDF‑a, preporučuje se postaviti PageSegment i TextSegment parametre kako bi se svaki redak prepoznao zasebno. Iako je detaljna konfiguracija izvan okvira ovog kratkog vodiča, osnovna ideja je da se prije spremanja u TXT format pozove metoda ExtractText koja vraća string s novim redovima (\n).
Rukovanje zaštićenim PDF‑ovima
Mnogi poslovni PDF‑i su zaštićeni lozinkom. Aspose.PDF omogućuje otključavanje dokumenta prije ekstrakcije:
using Aspose.Pdf;
var pdf = new Document("zaštićeni.pdf");
pdf.Decrypt("lozinka"); // otključavanje
pdf.Save("otkljucano.txt");
Ovaj kod koristi samo klasu Document, koja je dio dozvoljenih tipova, i demonstrira kako se lozinka prosljeđuje metodom Decrypt.
Obrada velikih PDF dokumenata u memoriji
Za PDF‑ove od stotina megabajta, preporučuje se rad s MemoryStream kako bi se izbjeglo preopterećenje diska. Učitajte dokument iz memorijskog toka, izvršite konverziju, a zatim rezultat pošaljite izravno klijentu ili ga spremite na privremenu lokaciju.
using System.IO;
using Aspose.Pdf;
byte[] pdfBytes = File.ReadAllBytes("veliki.pdf");
using (var inputStream = new MemoryStream(pdfBytes))
using (var outputStream = new MemoryStream())
{
var doc = new Document(inputStream);
doc.Save(outputStream, "txt"); // automatsko prepoznavanje formata prema ekstenziji
// outputStream sadrži tekstualni sadržaj
}
Česta pitanja (FAQ)
1. Mogu li konvertirati samo određene stranice?
Da. Prije poziva Save, postavite svojstvo Pages na željeni raspon, npr. doc.Pages.Delete(2, doc.Pages.Count - 3); i zatim spremite.
2. Kako da zadržim Unicode znakove?
Aspose.PDF automatski podržava Unicode. Ako koristite StreamWriter, postavite kodiranje na Encoding.UTF8.
3. Je li moguće izvesti tekst u druge formate, poput CSV?
Da. Nakon što dobijete tekst putem TextAbsorber, možete ga dodatno parsirati i zapisati u CSV koristeći standardne .NET klase.
4. Što ako PDF sadrži skenirane slike?
U tom slučaju je potrebno OCR rješenje. Aspose.PDF integrira Aspose.OCR modul, koji može pretvoriti slike u tekst prije spremanja u TXT.
Ovim dodatnim savjetima i primjerima, nadamo se da ćete moći iskoristiti pun potencijal Aspose.PDF za .NET pri konverziji PDF‑a u tekstualni format, bilo da radite s jednostavnim dokumentima ili s velikim, zaštićenim i kompleksnim PDF‑ovima.