PDF datoteke su popularne jer podupiru tekst, slike, animacije, videozapise i razne anotacije. međutim, za mnoge dokumente, tekst je najvažniji dio. Ovaj članak objašnjava kako pretvoriti PDF-ove u TXT datotekama i, obrnuto, TXT datoteve u PDF pomoću C# .NET. Ova konverzija je osobito korisna kada morate izvaditi ili usredotočiti se isključivo na tekst sadržaj PDF dokumenta, kao što je prilikom obavljanja tekstne analize ili pripreme sadržaja za reformiranje.
Teme obuhvaćene ovim vodičem uključuju:
- C# TXT u PDF ili PDF u TXT Converter API
- C# pretvoriti PDF u TXT bez formatacije
- Konvertiranje PDF-a u TXT datoteku pomoću formatacijskih rutina pomoću C# ili VB.NET
- Konvertirati TXT datoteku u PDF programski pomoću C# ili VB.NET
Tip: Također možete biti zainteresirani za besplatno Slijedeći članakGIF Converter To vam omogućuje da generirate animirane GIF-ove iz teksta.
C# TXT u PDF ili PDF u TXT Converter
Konverzija između PDF i TXT formata je neophodna kada vaš glavni interes leži u tekstualnim podacima unutar dokumenta. Bilo da morate ukloniti sve formate za jednostavnu analizu teksta ili sačuvati neku strukturiranu rasporedu, proces se može završiti s nekoliko jednostavnih koraka pomoću Sljedeći članakAspose.PDF za .NET API. ova API je sveobuhvatna i podržava C# i VB.NET, čime se lako integrira u vaše .NET aplikacije.
Da biste instalirali API u aplikaciji, možete preuzeti DLL datoteke iz Preuzimanje Ili koristite Nujet Na primjer, instalirajte ga putem konzole za upravljanje paketima:
PM> Install-Package Aspose.PDF
Nakon što je API instaliran, možete započeti proces konverzije s nekoliko pristupa prilagođenih različitim potrebama.
C# Konvertirati PDF na TXT bez formatacije
Ponekad vam je potreban samo sirov tekst iz PDF dokumenta bez ikakvog dodatnog formata.Ova metoda izvlači tekst upravo onako kako se pojavljuje u dokumentu, bez čuvanja fontova, prostora ili stila.Ovo je posebno korisno za analizu teksta, indeksiranje pretraživanja, ili kada je raspored irelevantan.
Koraki za ekstrakciju crvenog teksta
Nastavi uvodni PDF dokument: Koristite API kako biste preuzeli PDF datoteku u predmet dokumenta.
Inicializirajte StringBuilder: Stvoriti primjer za StringBuilder Klasa za učinkovito prikupljanje tekstnih podataka.
Iterate kroz svaku PDF stranicu: Prolazi kroz sve stranice u dokumentu. za svaku stranicu:
Korištenje tekstovi da izvuče tekst.
zapošljavanje na Rojski način osigurati da se formatiranje ne primjenjuje.
Save izlazni tekst: Upišite akumulirani tekst u TXT datoteku.
Snippet kodova ispod prikazuje kako pretvoriti PDF-a u TXT datoteku pomoću Raw ekstrakcijske metode:
Dodatni uvjeti
- Jednostavnost i učinkovitost: Surovo izvlačenje teksta obično je brže jer ne pokušava raspršiti ili primjenjivati pravila formatacije.
- Korisni slučajevi: Idealno za ekstrakciju dnevnika, indeksiranje pretraživanja ili scenarije gdje je potreban samo tekstovni sadržaj.
Konvertirati PDF na TXT datoteku s formatacijskim rutinama pomoću C# ili VB.NET
U drugim scenarijima, očuvanje formatacije teksta (kao što su stavci, indentacije i stolpci) je ključno. ova metoda primjenjuje formataciju rutina za odražavanje rasporeda dokumenta u rezultatnom TXT datoteku.
Koraki za ekstrakciju teksta s formatiranjem
Nastavi izvor PDF datoteke: Kao i prije, preuzmite PDF dokument u vašu aplikaciju.
Počnite s varijabilnim vijekom: Pripremite traku za prikupljanje formatiranog teksta.
Izvadite tekst pomoću načina formatacije: Za svaku stranicu, koristite Sljedeći članakMode.Pure Ovaj način nastoji što bliže reproducirati izvornu formatu.
Save formatirani tekst: Izvedite prikupljeni tekst u TXT datoteku koja zadržava strukturiranu formataciju, kao što su linije prekinuti, indenti, i tab spacing.
Sljedeći primjer koda pokazuje kako pretvoriti PDF u TXT datoteku s formatiranjem teksta pomoću C#:
Vizualna usporedba RAW-a i čiste ekstrakcije
Slika ispod pruža vizualnu usporedbu dviju načina ekstrakcije. na lijevoj strani, tekst PDF-a pojavljuje se sa svojim originalnim formatiranjem (Pure mode), dok desni prikazuje sirov tekst bez ikakvog formata.

Konvertirati TXT datoteku u PDF programski pomoću C# ili VB.NET
Konvertiranje TXT datoteke natrag u PDF je korisno kada morate proizvesti polirani dokument iz ravnog sadržaja teksta.Ovaj proces uključuje čitanje teksta, a zatim primjenu formata PDF-a kako bi se stvorio dokument koji je vizualno atraktivan i spreman za distribuciju.
Koraki za TXT u PDF konverziju
Stvorite instans za tekst čitača: Koristite ga Tekstni čitatelji razred za čitanje sadržaja iz TXT datoteke.
Inicializirajte novi PDF dokument i dodajte bijelu stranicu: Stvoriti primjer za Dokumenti razred i dodajte novu stranicu.
Istantirajte TextBuilder objekt: Koristite ga Proizvođač za izradu tekstnih stavaka s željom formatacije, kao što su font, veličina i boja.
Pročitajte i dodajte svaku liniju teksta: Prolazite kroz redove u TXT datoteci, dodajući svaku liniju objektu TextBuilder.
Save izlazak PDF: Koristite ga Slijedeći članakSave (String) Metoda za pisanje konačnog PDF datoteke na disk.
Snippet kod ispod pokazuje kako pretvoriti TXT datoteku u PDF dokument pomoću C#:
Razmatranja prilikom pretvaranja TXT-a u PDF
- Layout i stil: Moguće je da ćete morati prilagoditi margine, raspon linije i druge tekstne svojstva kako biste osigurali da je PDF dobro formatiran i čitljiv.
- Upravljanje pogreškom: Uvođenje provjere pogreške tijekom čitanja i pisanja datoteke operacije za rješavanje scenarija kao što su problemi pristupa datoteci ili kodiranje nepravilnosti.
zaključak
U ovom članku, pokazali smo tehnike za pretvaranje PDF datoteka u TXT i tXT datotekama u PDF pomoću C# ili VB.NET u .NET Framework. Bilo da odaberete sirovu ekstrakciju teksta za brzinu i jednostavnost ili zahtijevate formatirani tekst kako biste sačuvali raspored dokumenta, Sljedeći članakAspose.PDF za .NET API nudi pouzdana i fleksibilna rješenja. te su metode konverzije neprocjenjive za obradu podataka, arhiviranje dokumenata i ponovnu postavljanje sadržaja.
Ako imate bilo kakvih pitanja ili trebate dodatnu pomoć, molimo posjetite našu Forum za besplatnu potporu ili pregledati Proizvodna dokumentacija.