PDF Filer är populära eftersom de stöder text, bilder, animationer, videor och olika anteckningar. Men för många dokument är texten den viktigaste delen. Denna artikel förklarar hur man konverterar PDF-filer till TXT-filer och, omvänt, TXT- filer till PDF med hjälp av C# .NET. Den här omvandlingen är särskilt användbar när du behöver extrahera eller fokusera enbart på textinnehållet i ett pdf-dokument, t.ex. när man utför textanalys eller förbereder innehåll för reformering.
De ämnen som omfattas av denna guide inkluderar:
- C# TXT till PDF eller PDF till TXT Converter API
- C# Konvertera PDF till TXT utan att formatera
- Konvertera PDF till TXT-fil med Formatering Routiner med C# eller VB.NET
- Konvertera TXT-filen till PDF Programmatiskt med C# eller VB.NET
Tip: Du kan också vara intresserad av en gratis Text till GIF Converter Detta gör att du kan generera animerade GIF från text.
C# TXT till PDF eller PDF till TXT Converter
Konvertera mellan PDF- och TXT-format är viktigt när din huvudsakliga intresse ligger i textdata inom ett dokument. Oavsett om du behöver ta bort alla format för enkel textanalys eller behålla någon strukturerad layout, kan processen uppnås med några enkla steg med hjälp av Aspose.PDF för .NET Denna API är mångsidig och stöder både C# och VB.NET, vilket gör det enkelt att integrera i dina .NET-applikationer.
För att installera API i appen kan du antingen ladda ner DLL-filerna från nedladdningar eller använda den NuGet Till exempel, installera det via Package Manager Console:
PM> Install-Package Aspose.PDF
När API är installerat kan du starta omvandlingsprocessen med flera tillvägagångssätt anpassade till olika behov.
C# Konvertera PDF till TXT utan att Formatera
Ibland behöver du bara råtexten från ett PDF-dokument utan någon ytterligare formatering. Denna metod extraherar texten exakt som den visas i dokumentet, utan att behålla teckensnitt, spacing eller stilar. Det är särskilt användbart för textanalys, sökindexering, eller när layouten är irrelevant.
Steg för Raw Text Extraction
Ladda ner inmatning PDF-dokumentet: Använd API för att ladda PDF-filen till ett dokumentobjekt.
Initialisera en StringBuilder: Skapa ett exempel på Stringbyggare klass för att effektivt samla in textdata.
Iterat via varje PDF-sida: Gå igenom alla sidor i dokumentet. för varje sida:
Användning Textråd för att extrahera text.
sysselsätta den Rödläge för att säkerställa att formatering inte tillämpas.
Hämta utgångstexten: Skriv den ackumulerade texten till en TXT-fil.
Nedanstående kodskiva illustrerar hur man konverterar en PDF till en TXT-fil med Raw extraction-metoden:
Ytterligare insikt
- Prestanda och enkelhet: Rå textutvinning är vanligtvis snabbare eftersom det inte försöker parsa eller tillämpa någon formatering regler.
- Användning av fall: Idealisk för loggutvinning, sökindexering eller scenarier där endast textinnehåll krävs.
Konvertera PDF till TXT-filen med Formatering Routiner med C# eller VB.NET
I andra scenarier är bevarandet av formatering av texten (t.ex. paragrafer, indentationer och kolumner) avgörande. denna metod tillämpar formatering rutiner för att spegla dokumentets layout i den resulterande TXT-filen.
Steg för textutvinning med formatering
Ladda ner källan PDF-filen: Ladda upp PDF-dokumentet i din ansökan.
Starta en sträng variabel: Förbered en sträng för att samla in formaterad textutgåva.
Extrakt text med formateringsläge: För varje sida, använd den TextformattingMode.Pure Detta läge försöker reproducera den ursprungliga formateringen så nära som möjligt.
Hämta den formaterade texten: Exportera den samlade texten till en TXT-fil som behåller strukturerad formatering som linjebrott, indenter och flikspasering.
Följande kodexempel visar hur man konverterar en PDF till en TXT-fil med textformatering med C#:
Visuell jämförelse av RAW och Pure Extraction
Bilden nedan ger en visuell jämförelse av de två extraktionslägen. På vänster sida visas PDF-texten med sin ursprungliga formatering (Pure-läge), medan den högra visar råtexten utan någon formatering.

Konvertera TXT-filen till PDF Programmatiskt med C# eller VB.NET
Konvertera en TXT-fil tillbaka till en PDF är användbar när du behöver producera ett polerat dokument från platt textinnehåll. Denna process innebär att läsa texten och sedan tillämpa PDF-format för att skapa ett dokument som är visuellt attraktivt och redo för distribution.
Steg för TXT till PDF-konvertering
Skapa en TextReader instans: Använd den Textläsare klass att läsa innehåll från TXT-filen.
Starta ett nytt PDF-dokument och lägg till en vit sida: Skapa ett exempel på Dokumentet klasser och lägga till en ny sida.
Installera ett TextBuilder-objekt: Använd den Textbyggare att bygga textparagrafer med önskad formatering, såsom font, storlek och färg.
Läs och bifoga varje textlinje: Gå igenom linjerna i TXT-filen, bifoga varje linje till TextBuilder-objektet.
Hämta utgången PDF: Använd den Försäljning (Save String) Metod för att skriva den slutliga PDF-filen till skivan.
Nedanstående kodskiva visar hur man konverterar en TXT-fil till ett PDF-dokument med C#:
Överväganden När konvertera TXT till PDF
- Layout och stil: Du kan behöva justera marginaler, linjer och andra textegenskaper för att se till att PDF-filen är välformaterad och läsbar.
- misstag att hantera: Implementera felkontroll under filläsning och skrivverksamhet för att hantera scenarier som filåtkomstproblem eller kodning av fel.
slutsatser
I den här artikeln visade vi teknikerna för att konvertera PDF-filer till TXT och TXT-filer till PDF med hjälp av C# eller VB.NET i .NET Framework. Oavsett om du väljer råtextutvinning för hastighet och enkelhet eller kräver formaterad text att behålla dokument layout, Aspose.PDF för .NET API erbjuder tillförlitliga och flexibla lösningar. Dessa konverteringsmetoder är ovärderliga för databehandling, dokumentarkivering och innehållsreportering.
Om du har några frågor eller behöver ytterligare hjälp, vänligen besök vår Gratis supportforum eller granskas av Produktdokumentation.