PDF tiedostot ovat suosittuja, koska ne tukevat tekstiä, kuvia, animaatioita, videoita ja erilaisia merkintöjä. Kuitenkin, monille asiakirjoille, teksti on tärkein osa. Tämä artikkeli selittää, miten muuntaa PDF-tiedostoja TXT tiedostoihin ja päinvastoin, TXT tiedoston PDF käyttämällä C# .NET. tämä muuntaminen on erityisen hyödyllistä, kun sinun täytyy poistaa tai keskittyä yksinomaan tekstin sisältö PDF dokumentti, kuten kun teet tekstianalyysin tai valmistella sisältöä uudistamiseen.

Tässä oppaassa käsiteltyjä aiheita ovat:

Tyyppi: Saatat myös olla kiinnostunut ilmaisesta Teksti GIF Converterille Sen avulla voit tuottaa animoituja GIF:itä tekstistä.

C# TXT to PDF tai PDF to TXT Converter

PDF- ja TXT-muodot ovat välttämättömiä, kun pääasiallinen kiinnostus on tekstitiedoissa asiakirjan sisällä. Olitpa tarpeen poistaa kaikki muotoilu yksinkertaiselle tekstin analyysille tai säilyttää joitakin rakenteellisia järjestelyjä, prosessi voidaan suorittaa muutaman yksinkertaisen askeleen avulla ASPOSE.PDF ja .NET Tämä API on monipuolinen ja tukee sekä C# että VB.NET, joten se on helppo integroida .NET-sovelluksiin.

Jos haluat asentaa API: n sovelluksessasi, voit joko ladata DLL-tiedostoja Lataa tai käytä sitä NuGet Esimerkiksi asenna se Package Manager Consolin kautta:

PM> Install-Package Aspose.PDF

Kun API on asennettu, voit aloittaa muunnosprosessin useilla lähestymistavoilla, jotka on räätälöity eri tarpeisiin.

C# muuntaa PDF TXT ilman muotoilua

Joskus tarvitset vain raakaa tekstiä PDF-tiedostosta ilman mitään lisämuodostusta. Tämä menetelmä poistaa tekstin juuri sellaisena kuin se näkyy asiakirjassa, säilyttämättä kirjaimia, tilaa tai tyylejä. Se on erityisen hyödyllistä tekstin analysoinnissa, hakutuloksissa tai kun järjestys on merkityksetön.

Vaiheet Raw Text Extraction

  • Lata sisäänkäynti PDF-asiakirja: Käytä API:ää PDF-tiedoston lataamiseen asiakirjan kohteeseen.

  • Aloita StringBuilder: Luo esimerkki siitä, että Stringrakentaja luokka tehokkaasti kerätä tekstitietoja.

  • Kirjoita jokaisen PDF-sivun kautta: Käy läpi kaikki sivut asiakirjassa. kunkin sivun:

  • Käytä Tekstejä Tuoda tekstiä pois.

  • Työnantaja on raaka muoti varmistaa, että muotoilua ei sovelleta.

  • Tallenna lähtötekstin: Kirjoita kerätty teksti TXT-tiedostoon.

Seuraavassa olevassa koodilehdessä kuvataan, miten muuntaa PDF-tiedosto TXT-tiedostoon Raw-lähtömenetelmän avulla:

Lisätiedot Insights

  • suorituskyky ja yksinkertaisuus: Raaka tekstien poisto on yleensä nopeampaa, koska se ei yritä purkaa tai soveltaa mitään muotoilun sääntöjä.
  • Käytetyt tapaukset: Ihanteellinen arkistointiin, hakukonttamiseen tai skenaarioihin, joissa vaaditaan vain tekstin sisältöä.

Muunna PDF-tiedosto TXT-tiedostoa muotoilun rutiineilla C# tai VB.NET

Muissa skenaarioissa tekstin muotoilun säilyttäminen (kuten kappaleet, indentaatiot ja sarakkeet) on ratkaisevan tärkeää.Tämä menetelmä soveltaa muotoilun rutiineja kuvaamaan asiakirjan asetusta tuloksena olevaan TXT-tiedostoon.

Vaiheet tekstien poistoon muotoilemalla

  • Lataa lähdekoodi PDF-tiedosto: Kuten aiemmin, ladata PDF-asiakirja hakemuksesi.

  • Käynnistä tiivismuutokseen: Valmista sarja kerätäksesi muodostetun tekstituloksen.

  • Lisää tekstiä muotoilutavalla: Jokaiselle sivulle käytä TextFormattingMode.Pure Tämä tila yrittää toistaa alkuperäisen muotoilun mahdollisimman tarkasti.

  • Tallenna muotoiltu teksti: Tuoda kerätty teksti TXT-tiedostoon, joka säilyttää strukturoidun muotoilun, kuten linja-aukoja, indentejä ja taulukon tilaa.

Seuraava koodin esimerkki osoittaa, miten muuntaa PDF-tiedosto TXT-tiedostoon tekstiformaatiolla C#: n avulla:

RAW:n ja Pure Extractionin vertailu

Alla olevassa kuvassa on visuaalinen vertailua kahdesta tuotantomuodosta. vasemmalla puolella PDF-tekstillä on alkuperäinen muotoilu (Pure mode), kun taas oikealla näytetään raaka teksti ilman muotoilua. Tämä vertailu voi auttaa sinua päättämään, mikä menetelmä sopii parhaiten tarpeisiisi.

Convert PDF TXT csharp

TXT-tiedoston muuntaminen PDF:ään Ohjelmistolla C# tai VB.NET

TXT-tiedoston muuntaminen takaisin PDF-tiedostoon on hyödyllistä, kun sinun täytyy tuottaa polistetun asiakirjan tasaisesta tekstin sisällöstä. Tämä prosessi sisältää tekstin lukemisen ja sitten PDF-muodostuksen soveltamisen, jotta voidaan luoda asiakirja, joka on visuaalisesti houkutteleva ja valmis jakeluun.

Vaiheet TXT:lle PDF-muuntamiseen

  • Luo TextReader -sovellus: Käytä sitä Tekstejä luokka lukemaan sisältöä TXT-tiedostosta.

  • Aloita uusi PDF-asiakirja ja lisää valkoinen sivu: Luo esimerkki siitä, että Dokumentti luokkia ja lisää uutta sivua.

  • Instantioida TextBuilder Object: Käytä sitä Tekstityöntekijä rakentaa tekstiosia haluttuun muotoiluun, kuten kirjaimeen, koon ja väriin.

  • Lue ja liitä jokainen teksti: Kävely läpi TXT-tiedoston rivien ja liitä jokainen rivki TextBuilder-objektiin.

  • Tallenna tulos PDF: Käytä sitä Säästää (Save String) menetelmä lopullisen PDF-tiedoston kirjoittamiseen levylle.

Alla olevassa koodilehdessä näytetään, miten muuntaa TXT-tiedosto PDF-asiakirjaan C#:n avulla:

Mietinnöt Kun muuntaa TXT PDF

  • Layout ja tyyli: Saatat joutua mukauttamaan marginaaleja, viivaa ja muita tekstiominaisuuksia varmistaaksesi, että PDF on hyvin muotoiltu ja luettavissa.
  • Virheiden käsittely: Toteutetaan virheen tarkistaminen tiedostojen lukemisen ja kirjoittamisen aikana, jotta voidaan käsitellä skenaarioita, kuten tiedostojen pääsyongelmia tai virheiden koodausta.

johtopäätöksiä

Tässä artikkelissa olemme osoittaneet tekniikoita PDF-tiedostojen muuntamiseksi TXT- ja TXT- tiedostoihin PDF:ään C#:n tai VB.NET: n avulla .NET Frameworkissa. joko valitset raaka-tekstituloksen nopeuden ja yksinkertaisuuden vuoksi tai tarvitset muotoiltua tekstiä asiakirjan järjestyksen säilyttämiseksi, ASPOSE.PDF ja .NET API tarjoaa luotettavia ja joustavia ratkaisuja.Nämä muuntomenetelmät ovat arvottomia tietojenkäsittelyyn, asiakirjojen arkistointiin ja sisällön uudelleenjärjestelyyn.

Jos sinulla on kysyttävää tai tarvitset lisää apua, ota yhteyttä Vapaa tuki foorumi tai tarkastella Tuotteen dokumentointi.

Katso myös

More in this category