PDF failai yra populiarūs, nes jie palaiko tekstą, vaizdus, animacijas, filmus ir įvairius įrašus. Tačiau, daugeliui dokumentų, tekstas yra svarbiausia dalis. Šiame straipsnyje paaiškinama, kaip konvertuoti PDF failus į TXT failas ir, atvirkščiai, TXT failis į PDF naudojant C# .NET. Šis konvertavimas yra ypač naudingas, kai jums reikia ištraukti arba sutelkti dėmesį tik į teksto turinį PDF dokumente, pavyzdžiui, atliekant teksto analizę ar rengdami turinio reformuoti.
Šiame vadove apimančios temos apima:
- C# TXT į PDF arba PDF į “TXT Converter API”
- C# Konvertuoti PDF į TXT be formatavimo
- Konvertuoti PDF į TXT failą su Formatuojant Routines naudojant C# arba VB.NET
- Konvertuoti TXT failą į PDF Programuotai naudojant C# arba VB.NET
Tip: Jūs taip pat galite būti suinteresuoti nemokamai Tekstas į GIF konverterį Tai leidžia jums sukurti animacinius GIF iš teksto.
C# TXT į PDF arba PDF į TXT konvertuotojas
Konvertavimas tarp PDF ir TXT formatų yra būtinas, kai jūsų pagrindinis susidomėjimas yra teksto duomenimis dokumente. Nesvarbu, ar jums reikia ištrinti visą formatą paprastam teksto analizei ar išsaugoti tam tikrą struktūrizuotą išdėstymą, procesas gali būti baigtas keliais paprastais žingsniais naudojant Apsauga.pdf už .NET Šis API yra daugiafunkcinis ir palaiko C# ir VB.NET, todėl lengva integruotis į jūsų .NET programas.
Norėdami įdiegti API savo programoje, galite arba atsisiųsti DLL failus iš Downloads Arba naudokite NuGet Pavyzdžiui, įdiegti jį per paketų valdytojo konsolę:
PM> Install-Package Aspose.PDF
Kai įdiegta API, galite pradėti konvertavimo procesą su keliais būdais, pritaikytomis prie skirtingų poreikių.
C# Konvertuoti PDF į TXT be formatuoti
Kartais jums reikia tik žaliavos teksto iš PDF dokumento be jokių papildomų formatavimų. Šis metodas ištraukia tekstą tiksliai taip, kaip jis pasirodo dokumente, be fontų, spacing ar stilių. Tai ypač naudinga teksto analizei, paieškos indeksavimui arba kai išdėstymas yra nereikalingas.
Žingsniai žaliosios teksto ekstrakcijos
** Atsisiųskite įvesties PDF dokumentą:** Naudokite API, kad PDF failas būtų įkeltas į dokumentų objektą.
Inicializuokite StringBuilder: Sukurkite pavyzdį iš StringBuilder Klasė efektyviai kaupti tekstinius duomenis.
Iterate per kiekvieną PDF puslapį: Paspauskite visus dokumentų puslapius.Kiekvienai puslapiai:
Use TextDevice Išgauti tekstą.
Įdarbinkite Rūgščių režimas užtikrinti, kad formatavimas nebūtų taikomas.
** Išsaugokite išleidimo tekstą:** Parašykite sukauptą tekstą į TXT failą.
Žemiau pateikiamas kodo pjūvis iliustruoja, kaip konvertuoti PDF į TXT failą naudojant Raw ekstrakcijos metodą:
Papildomi įžvalgos
- ** Veiksmingumas ir paprastumas:** Žaliavos teksto ekstrakcija paprastai yra greitesnė, nes ji nesistengia sustabdyti ar taikyti bet kokių formatavimo taisyklių.
- Naudojami atvejai: Idealiai tinka log ekstrakcijai, paieškos indeksavimui ar scenarijams, kai reikalingas tik tekstinis turinys.
Konvertuoti PDF į TXT failą su formatuojant rutinas naudojant C# arba VB.NET
Kitais scenarijais tekstą (pavyzdžiui, skirsnius, indentacijas ir stulpelius) išsaugoti yra labai svarbu. Šis metodas taikomas formatuojant rutinas, kad atspindėtų dokumento išdėstymą gautame TXT faile.
Teksto ekstrakcijos žingsniai su formatu
** Atsisiųskite šaltinį PDF failas:** Kaip ir anksčiau, įkelkite PDF dokumentą į jūsų paraišką.
Įveskite kintamą juostą: Paruoškite juostą, kad surastumėte formatuotą tekstą.
Teksto ekstraktas naudojant formatavimo režimą: Kiekvienai puslapiui naudokite ŽymėsMode.Pure Šis režimas bando kuo arčiau atkurti originalų formatavimą.
** Išsaugokite formatuotą tekstą:** Išeikite surinktas tekstas į TXT failą, kuris išlaiko struktūrizuotą formatavimą, pvz., eilutės pertraukas, indentus ir langelį.
Šio kodo pavyzdys rodo, kaip konvertuoti PDF į TXT failą su teksto formatu naudojant C#:
RAW ir grynosios ekstrakcijos palyginimas
Žemiau pateikiamas vaizdas suteikia vizualų dviejų ekstrakcijos režimų palyginimą. kairėje, PDF tekstas pasirodys su savo originaliu formatu (Pure režimu), o dešinėje rodo žalią tekstą be jokios formatyvos.

Konvertuoti TXT failą į PDF Programuotai naudojant C# arba VB.NET
Konvertuojant TXT failą atgal į PDF yra naudinga, kai jums reikia gaminti poliruotą dokumentą iš plokščio teksto turinio. Šis procesas apima tekstą skaityti ir tada taikyti PDF formatavimą, kad būtų sukurtas dokumentas, kuris yra vizualiai patrauklus ir paruoštas platinimui.
TXT į PDF konvertavimo žingsniai
** Sukurkite „TextReader“ instinktą:** Naudokite jį TextReader Klasė skaityti turinį iš TXT failo.
Itizuokite naują PDF dokumentą ir pridėkite baltą puslapį: Sukurkite pavyzdį iš Document Klasė ir pridėti naują puslapį.
Nustatykite „TextBuilder“ objektą: Naudokite jį TextBuilder sukurti tekstinius skirsnius su pageidaujamu formatu, pavyzdžiui, fontą, dydį ir spalvą.
** Skaityti ir pridėti kiekvieną teksto eilutę:** Eikite per eilutes TXT failo, pridedant kiekvieną eilutę į TextBuilder objektą.
** Išsaugokite PDF ištrauką:** Naudokite jį Išsaugoti (Save String) metodas parašyti galutinį PDF failą į diską.
Žemiau pateikiamas kodas rodo, kaip konvertuoti TXT failą į PDF dokumentą naudojant C#:
Apžvalgos, kai konvertuojate TXT į PDF
- Sklypas ir stilius: Jums gali prireikti pritaikyti maržus, eilutės plotą ir kitas teksto savybes, kad PDF būtų gerai formatuotas ir skaityti.
- klaidų tvarkymas: Įdiegti klaidų tikrinimas per failų skaitymo ir rašymo operacijas, kad būtų galima spręsti scenarijus, pavyzdžiui, failus prieigos problemas ar kodavimo klaidas.
Conclusion
Šiame straipsnyje parodėme metodus, kaip konvertuoti PDF failus į TXT ir TXT failas į PDF naudojant C# arba VB.NET .NET Framework. Nesvarbu, ar pasirenkate žaliavos teksto ekstrakciją greičiui ir paprastumui arba reikės formatuoto teksto, kad dokumentas būtų išsaugotas, Apsauga.pdf už .NET API siūlo patikimus ir lanksčius sprendimus. Šie konvertavimo metodai yra neįkainojami duomenų apdorojimui, dokumentų archyvavimui ir turinio atkūrimui.
Jei turite kokių nors klausimų ar reikia papildomos pagalbos, prašome apsilankyti mūsų Nemokamos paramos forumas arba peržiūrėti Produktų dokumentacija.