PDF Filene er populære fordi de støtter tekst, bilder, animasjoner, videoer og ulike annotasjoner. Men for mange dokumenter er teksten den viktigste delen. Denne artikkelen forklarer hvordan du konverterer PDF-filer til TXT filer og, omvendt, TXT-filer til PDF ved hjelp av C# .NET. Dette konverteringen er spesielt nyttig når du trenger å trekke ut eller fokusere bare på tekstinnholdet i et PDF dokument, for eksempel ved å utføre tekstanalyse eller forberede innhold for reformatting.

Temaene som er dekket i denne guiden inkluderer:

Tip: Du kan også være interessert i en gratis Tekst til GIF Converter Dette gjør at du kan generere animerte GIF-er fra tekst.

C# TXT til PDF eller PDF til TXT Converter

Konvertering mellom PDF og TXT-formater er viktig når din viktigste interesse ligger i tekstdataene innenfor et dokument. Uansett om du trenger å stryke ut all formatering for enkel tekstanalyse eller beholde noen strukturert layout, kan prosessen oppnås med noen få enkle trinn ved hjelp av Aspose.PDF for .NET Denne API er mangfoldig og støtter både C# og VB.NET, noe som gjør det enkelt å integrere i .NET-applikasjonene dine.

For å installere APIen i appen, kan du enten laste ned DLL-filer fra Downloads Eller bruk den NuGet For eksempel, installere det via Package Manager Console:

PM> Install-Package Aspose.PDF

Når APIen er installert, kan du starte konverteringsprosessen med flere tilnærminger tilpasset ulike behov.

C# Convert PDF til TXT uten Formatering

Noen ganger trenger du bare den råteksten fra et PDF-dokument uten ytterligere formatering. Denne metoden ekstrakter teksten akkurat slik den vises i dokumentet, uten å beholde bokstaver, spaksjoner eller stiler. Det er spesielt nyttig for tekstanalyse, søk indeksering, eller når layout er irrelevant.

Trinn for rå tekstekstraksjon

  • ** Last ned innføringsdokumentet PDF:** Bruk API for å laste PDF-filen inn i et dokumentobjekt.

  • Initialisere en StringBuilder: Skap et eksempel på StringBuilder Klasse for å akkumulere tekstdata effektivt.

  • Iterate gjennom hver PDF-side: Gå gjennom alle sidene i dokumentet. for hver side:

  • Use TextDevice for å trekke ut tekst.

  • Oppnår den Rødmodus For å sikre at formatering ikke brukes.

  • ** Lagre utgangsteksten:** Skriv den akkumulerte teksten til en TXT-fil.

Code snippet nedenfor illustrerer hvordan du konverterer en PDF til en TXT-fil ved hjelp av Raw ekstraksjonsmetoden:

Ytterligere innsikt

  • ** Utførelse og enkelhet:** Raw tekst ekstraksjon er vanligvis raskere fordi det ikke prøver å parse eller bruke noen formatering regler.
  • Bruk av tilfeller: Ideell for loggutvinning, søkindexing eller scenarioer der bare tekstinnhold er nødvendig.

Konverter PDF til TXT Fil med Formatering Routiner ved hjelp av C# eller VB.NET

I andre scenarier er det avgjørende å bevare formatering av teksten (som f.eks. paragrafer, indentasjoner og kolonner). denne metoden brukes til å formate rutiner for å speile dokumentets layout i den resulterende TXT-filen.

Trinn for tekstekstraksjon med formatering

  • ** Last ned kilden PDF-filen:** Som før, last inn PDF-dokumentet i applikasjonen din.

  • Initiere en String Variable: Forbered en string for å samle inn formatert tekstutgang.

  • ** Ekstrakter tekst ved hjelp av formatingsmodus:** For hver side bruker du TekstformattingMode.Pure Denne modus forsøker å reprodusere den opprinnelige formatingen så nært som mulig.

  • ** Lagre den formaterte teksten:** Utfør den innsamlede teksten til en TXT-fil som beholder strukturert formatering som linjebrudd, indenter og flikespasering.

Følgende kodeksempel viser hvordan du konverterer en PDF til en TXT-fil med tekstformatering ved hjelp av C#:

Visual sammenligning av RAW og Pure Extraction

Bildet nedenfor gir en visuell sammenligning av de to ekstraksjonsmodus. På venstre side vises PDF-teksten med sin opprinnelige formatering (Pure mode), mens høyre viser rå tekst uten noen formatting. Denne sammenligningen kan hjelpe deg med å bestemme hvilken metode som passer best for dine behov.

Convert PDF TXT csharp

Konverter TXT fil til PDF Programmatisk ved hjelp av C# eller VB.NET

Konvertering av en TXT-fil tilbake til en PDF er nyttig når du trenger å produsere et polert dokument fra rett tekstinnhold. Denne prosessen innebærer å lese teksten og deretter bruke PDF-formatering for å lage et dokument som er visuelt attraktivt og klar for distribusjon.

Trinn for TXT til PDF konvertering

  • ** Skap en TextReader instans:** Bruk den TextReader for å lese innhold fra TXT-filen.

  • Initialisere et nytt PDF-dokument og legge til en hvit side: Skap et eksempel på Document Klasser og legge til en ny side.

  • Installere et TextBuilder-objekt: Bruk den TextBuilder å bygge tekstparagrafer med ønsket formatering, for eksempel bokstaver, størrelse og farge.

  • Les og legge til hver linje av tekst: Gå gjennom linjene i TXT-filen, ved å legge til hver linje til TextBuilder-objektet.

  • ** Lagre utgangen PDF:** Bruk den Dokumentasjon.Save (String) Metoden for å skrive den endelige PDF-filen til disk.

Koden snippet nedenfor viser hvordan du konverterer en TXT-fil til et PDF-dokument ved hjelp av C#:

Overvåkninger Når konvertere TXT til PDF

  • *Layout og stil: * Du kan trenge å justere marginer, linjer og andre tekstegenskaper for å sikre at PDF er godt formatert og lesbar.
  • • Feil håndtering: * Implementer feil sjekking under fillesing og skriving operasjoner for å håndtere scenarier som fil tilgang problemer eller koding feil.

Conclusion

I denne artikkelen demonstrerte vi teknikkene for konvertering av PDF-filer til TXT og TXT filer til PDF ved hjelp av C# eller VB.NET i .NET Framework. Uansett om du velger rå tekst ekstraksjon for hastighet og enkelhet eller krever formatert tekst for å opprettholde dokument layout, Aspose.PDF for .NET API tilbyr pålitelige og fleksible løsninger. Disse konverteringsmetodene er uvurderlige for databehandling, dokumentarkivering og innholdsoppretting.

Hvis du har noen spørsmål eller krever ytterligere hjelp, vennligst besøk vår Gratis støtte forum Eller gjennomgå den Produktdokumentasjon.

Se også

More in this category