PDF filer er populære, fordi de understøtter tekst, billeder, animationer, videoer og forskellige annotationer. Men for mange dokumenter, er teksten den mest afgørende del. Denne artikel forklarer hvordan man konverterer PDF-filer til TXT-filer og, omvendt, TX-file til PDF ved hjælp af C# .NET. denne konvertering er særligt nyttig, når du behøver at udveksle eller fokusere kun på tekstindholdet i et PDF dokument, såsom når man udfører tekstanalyse eller forbereder indhold til reformering.

De emner, der er dækket i denne guide, omfatter:

Tip: Du kan også være interesseret i en gratis Tekst til GIF Converter Det giver dig mulighed for at generere animerede GIF’er fra tekst.

C# TXT til PDF eller PDF til TXT Converter

Konvertering mellem PDF og TXT-formater er afgørende, når dit primære interesse ligger i de tekstoplysninger inden for et dokument. Uanset om du har brug for at udskrive alle formateringer for enkel tekstanalyse eller beholde en struktureret layout, kan processen opnås med et par enkle trin ved hjælp af PDF til .NET Denne API er mangfoldig og understøtter både C# og VB.NET, hvilket gør det nemt at integrere i dine .NET-applikationer.

For at installere API’en i din applikation kan du enten downloade DLL-filerne fra Downloads Eller brug den NuGet For eksempel kan du installere det via Package Manager Console:

PM> Install-Package Aspose.PDF

Når API er installeret, kan du starte konverteringsprocessen med flere tilgange tilpasset forskellige behov.

C# Konverter PDF til TXT uden Formatering

Nogle gange behøver du kun den rå tekst fra et PDF-dokument uden yderligere formatering. Denne metode ekstrakter teksten præcis som det vises i dokumentet, uden at bevare bogstaver, spacing eller stilarter. Det er især nyttigt for tekstanalyse, søgning indexering, eller når layout er irrelevant.

Træk til Raw Text Extraction

  • Lad indtastning af PDF-dokumentet: Brug API til at lade PDF-filen ind i et dokumentobjekt.

  • Indled en StringBuilder: Skab et eksempel på Stringbuilder Klasse til effektiv akkumulering af tekstdata.

  • Iterate gennem hver PDF-side: Gå gennem alle sider i dokumentet. for hver side:

  • Brug af Tekstudstyr til at udskrive tekst.

  • beskæftigelse af Rød mode for at sikre, at formatering ikke anvendes.

  • Save udgangsteksten: Skriv den akkumulerede tekst til en TXT-fil.

Koden snippet nedenfor illustrerer, hvordan man konverterer en PDF til en TXT-fil ved hjælp af Raw ekstraktionsmetoden:

Yderligere indsigt

  • Udførelse og enkelhed: Raw tekst ekstraktion er normalt hurtigere, fordi det ikke forsøger at parse eller anvende nogen formatering regler.
  • Brug af tilfælde: Ideel til logekstraktion, søgindektering eller scenarier, hvor kun tekstindhold er nødvendig.

Konverter PDF til TXT-fil med Formatering Routiner ved hjælp af C# eller VB.NET

I andre scenarier er bevarelsen af formatering af teksten (som f.eks. afsnit, indentationer og kolumner) afgørende. Denne metode anvendes til formatering af rutiner for at spejle dokumentets layout i den resulterende TXT-fil.

Træk til tekstekstraktion med formatering

  • Last ned kilden PDF-filen: Som før, lad PDF-dokumentet ind i din ansøgning.

  • Indled en String Variable: Forbered en string til at indsamle formateret tekstudgang.

  • Extract tekst ved hjælp af formatering: For hver side skal du bruge TekstformattingMode.Pure Denne modus forsøger at reproducere den oprindelige formatering så tæt som muligt.

  • Save den formaterede tekst: Udgå den indsamlede tekst til en TXT-fil, der bevarer struktureret formatering som linjebrud, indenter og tabspace.

Følgende kodeksempel viser, hvordan man konverterer en PDF til en TXT-fil med tekstformatering ved hjælp af C#:

Visuel sammenligning af RAW og Pure Extraction

Billedet nedenfor giver en visuel sammenligning af de to ekstraktionsmoder. På venstre side vises PDF’s tekst med sin oprindelige formatering (Pure mode), mens den højre viser rå tekst uden nogen formatering. Denne sammenligning kan hjælpe dig med at bestemme, hvilken metode passer bedst til dine behov.

Convert PDF TXT csharp

Konverter TXT fil til PDF Programmetisk ved hjælp af C# eller VB.NET

Konvertering af en TXT-fil tilbage til en PDF er nyttig, når du har brug for at producere et poleret dokument fra blank tekstindhold. Denne proces involverer læsning af teksten og derefter at anvende PDF-formatering til at skabe et dokument, der er visuelt attraktive og klar til distribution.

Steg for TXT til PDF konvertering

  • Skab en tekstreader instans: Brug den Tekstlæsere Læs indhold fra TXT-filen.

  • Initiere et nyt PDF-dokument og tilføje en hvid side: Skab et eksempel på Dokumentation Lære og tilføje en ny side.

  • Instantiere et TextBuilder-objekt: Brug den Tekstilbygger at opbygge tekstparagrafer med den ønskede formatering, såsom font, størrelse og farve.

  • Læs og tilføj hver linje af tekst: Gå gennem linjerne i TXT-filen, ved at tilføje hver linje til TextBuilder-objektet.

  • Save udgangen af PDF: Brug den Sikkerhed (String) Metode til at skrive den endelige PDF-fil til disk.

Nedenfor viser koden, hvordan man konverterer en TXT-fil til et PDF-dokument ved hjælp af C#:

Overvejelser ved konvertering af TXT til PDF

  • Layout og stil: Du behøver muligvis at justere marginer, linjer og andre tekstegenskaber for at sikre, at PDF’en er velformateret og læses.
  • Forklaring af fejl: Implementering af fejlkontrol under fil læsning og skrive operationer til at håndtere scenarier som fil adgang problemer eller koding af fejl.

Konklusion

I denne artikel demonstrerede vi teknikkerne til konvertering af PDF-filer til TXT og TXT filer til PDF ved hjælp af C# eller VB.NET i .NET Framework. uanset om du vælger rå tekst ekstraktion for hastighed og enkelhed eller kræver formateret tekst for at opretholde dokument layout, PDF til .NET API’er tilbyder pålidelige og fleksible løsninger. Disse konverteringsmetoder er uvurderlige for databehandling, dokumentarkivering og indholdsreportering.

Hvis du har spørgsmål eller har behov for yderligere hjælp, bedes du besøge vores Gratis supportforum Eller gennemgå den Produktdokumentation.

Se også

More in this category