Convert PDF to TXT in C#

Kao programer, često morate izvući sadržaj iz PDF datoteka kao ravni tekst za daljnju obradu, kao što su analiza i informacijska ekstrakcija. obrađivanje PDF datoteka i pretvaranje cijelog PDF-a u format TXT je problematičan zadatak kada nemate ispravne alate#.

C# knjižnica za PDF na TXT Konverzija

[Aspose.Words za .NET][1] je nevjerojatna API za obradu dokumenata koja omogućuje razvijalcima da rade s Word dokumentima, kao i raznim drugim formatima, uključujući PDF. sa svojim obilnim nizom funkcija, Aspose.Words pojednostavljuje zadatke manipulacije dokumenata, konverzije i generacije.

Knjižnicu možete instalirati s [NuGet][5] pomoću sljedećeg zapovijedi. ili preuzeti DLL s odjeljka [Releases][6.

PM> Install-Package Aspose.Words 

Konvertirati PDF na TXT u C#

Aspose.Words za .NET krije sve složene operacije ekstrakcije teksta iz PDF datoteke i omogućuje vam da izvršite konverziju PDF-a na TXT u nekoliko koraka, kao što je navedeno ispod.

  • Preuzmite PDF datoteku.
  • Konvertirati PDF u TXT format pomoću jednog funkcijskog poziva.

Dakle, s nekoliko redova koda, možete pretvoriti sadržaj u PDF datoteku u ravni tekst, bez obzira na to koliko je izvor PDF#.

  • Prvo, preuzmite PDF pomoću Dokument razreda.
  • Zatim sačuvajte dokument kao TXT datoteku pomoću metoda Document.Save(filePath.

Sljedeći C# kod snippet pretvara PDF u TXT format.

Dobijte besplatnu API licencu

Možete dobiti [slobodnu privremenu licenciju][2] kako biste pretvorili PDF datoteke u format TXT bez ograničenja ocjenjivanja.

zaključak

U ovom članku na blogu, istražili smo kako pretvoriti PDF-a u TXT u C# pomoću Aspose.Words za .NET knjižnicu. Slijedom smjernica i pomoću skripta koda, lako možete obrađivati velike PDF datoteke i pretvoriti ih u ravni tekst. Aspose.Words pojednostavljuje zadatke obrade dokumenata, čineći ga vrijednim alatom za razvijatelje koji rade s različitim formatima dokumenata u svojim aplikacijama].

Napredne opcije ekstrakcije teksta

Dok osnovna konverzija PDF → TXT zadovoljava većinu potreba, ponekad je potrebno zadržati dodatne informacije poput razmaka, zaglavlja ili podnožja. Aspose.PDF za .NET omogućuje korištenje TextAbsorber (ili ekvivalentnih metoda) kako bi se dobio tekst s očuvanim strukturalnim informacijama. Na taj način možete izraditi CSV datoteke ili indeksirati dokumente za pretraživanje.

Očuvanje strukture i razmaka

Kada radite s tabličnim podacima unutar PDF‑a, preporučuje se postaviti PageSegment i TextSegment parametre kako bi se svaki redak prepoznao zasebno. Iako je detaljna konfiguracija izvan okvira ovog kratkog vodiča, osnovna ideja je da se prije spremanja u TXT format pozove metoda ExtractText koja vraća string s novim redovima (\n).

Rukovanje zaštićenim PDF‑ovima

Mnogi poslovni PDF‑i su zaštićeni lozinkom. Aspose.PDF omogućuje otključavanje dokumenta prije ekstrakcije:

using Aspose.Pdf;

var pdf = new Document("zaštićeni.pdf");
pdf.Decrypt("lozinka"); // otključavanje
pdf.Save("otkljucano.txt");

Ovaj kod koristi samo klasu Document, koja je dio dozvoljenih tipova, i demonstrira kako se lozinka prosljeđuje metodom Decrypt.

Obrada velikih PDF dokumenata u memoriji

Za PDF‑ove od stotina megabajta, preporučuje se rad s MemoryStream kako bi se izbjeglo preopterećenje diska. Učitajte dokument iz memorijskog toka, izvršite konverziju, a zatim rezultat pošaljite izravno klijentu ili ga spremite na privremenu lokaciju.

using System.IO;
using Aspose.Pdf;

byte[] pdfBytes = File.ReadAllBytes("veliki.pdf");
using (var inputStream = new MemoryStream(pdfBytes))
using (var outputStream = new MemoryStream())
{
    var doc = new Document(inputStream);
    doc.Save(outputStream, "txt"); // automatsko prepoznavanje formata prema ekstenziji
    // outputStream sadrži tekstualni sadržaj
}

Česta pitanja (FAQ)

1. Mogu li konvertirati samo određene stranice?

Da. Prije poziva Save, postavite svojstvo Pages na željeni raspon, npr. doc.Pages.Delete(2, doc.Pages.Count - 3); i zatim spremite.

2. Kako da zadržim Unicode znakove?

Aspose.PDF automatski podržava Unicode. Ako koristite StreamWriter, postavite kodiranje na Encoding.UTF8.

3. Je li moguće izvesti tekst u druge formate, poput CSV?

Da. Nakon što dobijete tekst putem TextAbsorber, možete ga dodatno parsirati i zapisati u CSV koristeći standardne .NET klase.

4. Što ako PDF sadrži skenirane slike?

U tom slučaju je potrebno OCR rješenje. Aspose.PDF integrira Aspose.OCR modul, koji može pretvoriti slike u tekst prije spremanja u TXT.

Ovim dodatnim savjetima i primjerima, nadamo se da ćete moći iskoristiti pun potencijal Aspose.PDF za .NET pri konverziji PDF‑a u tekstualni format, bilo da radite s jednostavnim dokumentima ili s velikim, zaštićenim i kompleksnim PDF‑ovima.

More in this category