PDF bestanden zijn populair omdat ze ondersteunen tekst, afbeeldingen, animaties, video’s, en verschillende annotaties. echter, voor veel documenten, de tekst is het meest cruciale deel. Dit artikel verklaart hoe om PDF-bestanden te converteren naar TXT-files en, omgekeerd, TXT-files naar PDF met behulp van C# .NET. Deze conversie is bijzonder nuttig wanneer u alleen moet extraheren of zich richten op de textinhoud van een PDF document, zoals bij het uitvoeren van tekstanalyse of het voorbereiden van inhoud voor hervorming.
De onderwerpen in deze gids omvatten:
- C# TXT naar PDF of PDF naar TXT Converter API
- C# Convert PDF naar TXT zonder Formateren
- Convert PDF naar TXT-bestand met Formatting Routines met behulp van C# of VB.NET
- Convert TXT-bestand naar PDF Programmatisch met behulp van C# of VB.NET
Tip: U kunt ook geïnteresseerd zijn in een gratis Tekst naar GIF Converter Hiermee kunt u geanimeerde GIF’s uit tekst genereren.
C# TXT naar PDF of PDF naar TXT Converter
Conversie tussen PDF en TXT-formaat is essentieel wanneer uw belangrijkste interesse ligt in de tekstgegevens binnen een document. of u alle formaten nodig hebt om eenvoudig tekst te analyseren of een gestructureerde layout te behouden, kan het proces worden voltooid met een paar eenvoudige stappen met behulp van de Aspose.PDF voor .NET Deze API is veelzijdig en ondersteunt zowel C# als VB.NET, waardoor het gemakkelijk kan worden geïntegreerd in uw .NET-applicaties.
Om de API in uw applicatie te installeren, kunt u de DLL-bestanden van Downloads Of gebruik de NuGet Installeer het bijvoorbeeld via de Package Manager Console:
PM> Install-Package Aspose.PDF
Zodra de API is geïnstalleerd, kunt u het conversieproces starten met verschillende benaderingen die zijn aangepast aan verschillende behoeften.
C# Convert PDF naar TXT zonder Formateren
Soms heb je alleen de grondtekst van een PDF-document nodig zonder extra formatting. Deze methode extract de tekst precies zoals het in het document verschijnt, zonder lettertypen, spacing of stijlen te behouden. Het is vooral nuttig voor tekstanalyse, zoekindexing, of wanneer de layout irrelevant is.
Stappen voor Raw Text Extraction
Laden van de invoer PDF document: Gebruik de API om de PDF-bestand in een Document-object te laden.
Initialiseren van een StringBuilder: Een voorbeeld maken van de Stringbuilder Klassen om efficiënt tekstgegevens te verzamelen.
Iterate via elke PDF-pagina: Ga door alle pagina’s in het document. voor elke pagina:
Gebruik Textinstrumenten om tekst te extraheren.
Ondernem de Rood mode om ervoor te zorgen dat de formatting niet wordt toegepast.
Save de uitgangstekst: Schrijf de verzamelde tekst in een TXT-bestand.
De code snippet hieronder illustreert hoe u een PDF in een TXT-bestand kunt converteren met behulp van de Raw extraction methode:
Aanvullende inzichten
- Performance en eenvoud: Raw text extraction is meestal sneller omdat het niet probeert te parsen of toepassen enige formatting regels.
- Gebruikte gevallen: Ideaal voor log-extractie, zoekindexing of scenario’s waar alleen tekstinhoud vereist is.
Convert PDF naar TXT-bestand met Formatting Routines met behulp van C# of VB.NET
In andere scenario’s is het behoud van de formatting van de tekst (zoals paragraaf, indentaties en kolommen) van cruciaal belang. deze methode geldt voor de formatting van routines om de layout van het document in de resulterende TXT-bestand te weerspiegelen.
Stappen voor Text Extraction met Formatting
Laden van de bron PDF-bestand: Zoals voorheen, laad het PDF-document in uw applicatie.
Start een string variabele: Bereid een string voor om geformateerde tekstuitgang te verzamelen.
Text extraheren met behulp van Formatting modus: Voor elke pagina, gebruik de TextFormattingMode.Pure Deze modus probeert de oorspronkelijke formatting zo nauw mogelijk te reproduceren.
Save de geformateerde tekst: Verwijder de verzamelde tekst naar een TXT-bestand dat gestructureerde formatting behoudt, zoals lijnbreuken, indents en tabspacing.
Het volgende code voorbeeld laat zien hoe u een PDF converteert naar een TXT-bestand met tekstformaat met behulp van C#:
Visuele vergelijking van RAW en Pure Extraction
De onderstaande afbeelding biedt een visuele vergelijking van de twee extractiemodus. aan de linkerkant verschijnt de tekst van de PDF met zijn oorspronkelijke formatting (Pure mode), terwijl de rechter tekst zonder formatting weerspiegelt. Deze vergelijking kan u helpen beslissen welke methode het beste past bij uw behoeften.

Convert TXT-bestand naar PDF Programmatiek met behulp van C# of VB.NET
Het omzetten van een TXT-bestand terug naar een PDF is nuttig wanneer u een gepolijst document moet produceren van vlakke tekstinhoud. Dit proces omvat het lezen van de tekst en vervolgens het toepassen van PDF-formaat om een document te creëren dat visueel aantrekkelijk is en klaar is voor distributie.
Stappen voor TXT naar PDF Conversie
Maak een TextReader-instantie: Gebruik de Textreader Klassen om inhoud te lezen uit de TXT-bestand.
Start een nieuw PDF-document en voeg een witte pagina toe: Een voorbeeld maken van de documenten Klassen en voeg een nieuwe pagina toe.
Installeer een TextBuilder-object: Gebruik de Textuurbuilder om tekstparagrafen te bouwen met de gewenste vormgeving, zoals lettertype, grootte en kleur.
Lees en voeg elke tekstlijn toe: Ga door de lijnen in de TXT-bestand door elke lijn aan het TextBuilder-object toe te voegen.
Save de uitgang PDF: Gebruik de Document.Save van de String methode om de laatste PDF-bestand in de schijf te schrijven.
De code snippet hieronder toont hoe u een TXT-bestand converteert naar een PDF-document met behulp van C#:
Overwegingen bij het omzetten van TXT naar PDF
- Layout en stijl: U moet waarschijnlijk marginalen, line spacing en andere tekst eigenschappen aanpassen om ervoor te zorgen dat de PDF goed gevormd en leesbaar is.
- Een foutbehandeling: Implementatie foutbeoordeling tijdens het lezen en schrijven van bestanden om scenario’s zoals bestandstoegangsproblemen of het coderen van mismatches te beheren.
Conclusie
In dit artikel hebben we de technieken gedemonstreerd voor het converteren van PDF-bestanden naar PDF met behulp van C# of VB.NET in het .NET Framework. of u kiest voor grondtekstextractie voor snelheid en eenvoud of vereist geformateerde tekst om de documentlijst te behouden, Aspose.PDF voor .NET API’s bieden betrouwbare en flexibele oplossingen.Deze conversiemethoden zijn onwaardever voor gegevensverwerking, documentarchivering en contentherstel.
Als u vragen heeft of verdere hulp nodig heeft, bezoek dan onze Gratis ondersteuning forum of het beoordelen van de Productdocumentatie.
Zie ook
More in this category
- Afbeeldingen uit PDF te extraheren met behulp van Aspose.PDF Image Extractor in .NET
- Aspose.PDF ChatGPT Plugin vs OpenAI API voor PDF-verwerking in .NET
- Automatische Batch PDF Compression voor opslag in .NET
- Automatische Bulk Form Data Extraction uit PDF's in .NET
- Automatische PDF Content Summarization met ChatGPT en .NET