PDF súbory sú populárne, pretože podporujú text, obrázky, animácie, videá a rôzne poznámky. Avšak, pre mnoho dokumentov, text je najdôležitejšou súčasťou. Tento článok vysvetľuje, ako previesť PDF súborov do TXT súbojov a, naopak, TXT súby do PDF pomocou C# .NET. Táto konverzia je obzvlášť užitočná, keď potrebujete extrahovať alebo sústrediť sa výlučne na textový obsah PDF dokumentu, napríklad pri vykonávaní textovej analýzy alebo príprave obsahu na reformovanie.
Témy pokryté v tomto sprievodcovi zahŕňajú:
- C# TXT na PDF alebo PDF na TXT Converter API
- C# Konvertovať PDF na TXT bez formátovania
- Konvertovať PDF do TXT súboru s Formátovanie rutiny pomocou C# alebo VB.NET
- Konvertovať TXT súbor do PDF Programovateľne pomocou C# alebo VB.NET
Tip: Môžete sa tiež zaujímať o bezplatné Text na GIF Converter To vám umožní vytvoriť animované GIF z textu.
C# TXT na PDF alebo PDF na TXT Converter
Konverzia medzi formátmi PDF a TXT je nevyhnutná, keď je váš hlavný záujem v textových údajoch v dokumente. Či už potrebujete odstrániť všetky formáty pre jednoduchú analýzu textu alebo zachovať nejaký štruktúrovaný rozloženie, proces môže byť dokončený s niekoľkými jednoduchými krokami pomocou Aspose.PDF pre .NET Táto API je všestranná a podporuje C# a VB.NET, čo uľahčuje integráciu do vašich aplikácií .NET.
Ak chcete nainštalovať API vo vašej aplikácii, môžete stiahnuť súbory DLL z sťahovanie Alebo použite NuGet Napríklad, nainštalujte ho prostredníctvom konzoly Package Manager:
PM> Install-Package Aspose.PDF
Po inštalácii API môžete začať proces konverzie niekoľkými prístupmi prispôsobenými rôznym potrebám.
C# Konvertovať PDF na TXT bez formátovania
Niekedy potrebujete iba surový text z dokumentu PDF bez akéhokoľvek ďalšieho formátovania. Táto metóda extrahuje text presne tak, ako sa zobrazuje v dokumente, bez zachovania písmen, rozsahov alebo štýlov. Je to obzvlášť užitočné pre textovú analýzu, indexovanie vyhľadávania, alebo keď je rozloženie nezávislé.
Krok pre extrakciu surového textu
Stiahnuť vstupný PDF dokument: Použite API na načítanie súboru PDF do objektu dokumentu.
Initializujte StringBuilder: Vytvorte príklad z Stringbuilder triedy na efektívne zhromažďovanie textových údajov.
Iterate cez každú PDF stránku: Prejdite cez všetky stránky v dokumente. pre každú stránku:
Použitie Textové zariadenie vytiahnuť text.
Zamestnávajte sa Raw režim zabezpečiť, aby sa formátovanie nepoužilo.
Zachráňte výstupný text: Napíšte nahromadený text do súboru TXT.
Snippet kódu nižšie ilustruje, ako previesť PDF do súboru TXT pomocou metódy extrakcie Raw:
Ďalšie inšpekcie
- Výkon a jednoduchosť: Hrubá textová extrakcia je zvyčajne rýchlejšia, pretože sa nepokúšajú rozptýliť alebo uplatňovať žiadne pravidlá formátovania.
- Používa sa prípady: Ideálne pre vytiahnutie záznamov, indexovanie vyhľadávania alebo scenáre, kde je potrebný iba textový obsah.
Konvertovať PDF do TXT súboru s Formátovanie rutiny pomocou C# alebo VB.NET
V iných scenároch je zachovanie formátovania textu (ako sú odseky, indentácie a stĺpce) kľúčové. Táto metóda sa vzťahuje na formátovanie rutín, ktoré odrážajú rozloženie dokumentu v výslednom súbore TXT.
Krok pre textovú extrakciu s formátovaním
Stiahnuť zdroj PDF súbor: Ako predtým, nainštalujte dokument PDF do aplikácie.
Začiatok striekacieho variantu: Pripravte riadok na zhromažďovanie formátovaných textových výstupov.
Extrakt textu pomocou režimu formátovania: Pre každú stránku použite TextFormatovanieMode.Pure Tento režim sa snaží čo najbližšie reprodukovať pôvodné formátovanie.
Zachráňte formátovaný text: Vypnite zhromaždený text do súboru TXT, ktorý zachová štruktúrované formátovanie, ako sú prerušenia riadkov, indenty a tabové rozhranie.
Nasledujúci príklad kódu ukazuje, ako premeniť PDF na TXT súbor s textovým formátovaním pomocou C#:
Vizuálne porovnanie RAW a Pure Extraction
Obrázok nižšie poskytuje vizuálne porovnanie dvoch režimov extrakcie.Na ľavej strane sa text PDF zobrazí so svojím pôvodným formátovaním (čistý režim), zatiaľ čo pravý zobrazuje surový text bez formátovania.

Konvertovať TXT súbor do PDF Programaticky pomocou C# alebo VB.NET
Konvertovanie súboru TXT späť do PDF je užitočné, keď potrebujete vytvoriť polizovaný dokument z plochého textového obsahu. Tento proces zahŕňa čítanie textu a potom aplikovať formátovanie PDF na vytvorenie dokumentu, ktorý je vizuálne atraktívny a pripravený na distribúciu.
Krok pre TXT na konverziu PDF
Vytvorte textReader inštanciu: Používa sa Textový čitateľ trieda čítať obsah z súboru TXT.
Initializujte nový PDF dokument a pridajte bielu stránku: Vytvorte príklad z dokumenty triedy a pridať novú stránku.
Inštalovať textBuilder objekt: Používa sa Textový tvorca vytvoriť textové odseky s požadovaným formátovaním, ako je písmo, veľkosť a farba.
Prečítajte si a pridajte každú čiaru textu: Prejdite cez riadky v súbore TXT, pripojiť každú čiaru k objektu TextBuilder.
Zachráňte výstup PDF: Používa sa String – zachrániť (string ) metóda napísať konečný PDF súbor na disk.
Nižšie uvedený kód ukazuje, ako premeniť súbor TXT na PDF dokument pomocou C#:
Uvažovanie pri konvertovaní TXT do PDF
- Rozloženie a štýl: Môžete potrebovať upraviť hranice, rozsah línie a ďalšie textové vlastnosti, aby sa zabezpečilo, že PDF je dobre formátovaný a čitateľný.
- Chyby v riešení: Vykonajte kontrolu chýb počas čítania súborov a písania operácií na riešenie scenárov, ako sú problémy s prístupom k súborom alebo kódovanie chýb.
Záver
V tomto článku sme preukázali techniky pre konverziu súborov PDF na súbory TXT a TXT na PDF pomocou C# alebo VB.NET v .NET Framework. Či už sa rozhodnete pre extrakciu surového textu pre rýchlosť a jednoduchosť alebo potrebujete formátovaný text na zachovanie rozloženia dokumentu, Aspose.PDF pre .NET API ponúka spoľahlivé a flexibilné riešenia. Tieto metódy konverzie sú neoceniteľné pre spracovanie údajov, archiváciu dokumentov a reprodukciu obsahu.
Ak máte akékoľvek otázky alebo potrebujete ďalšiu pomoc, prosím, navštívte našu Fórum bezplatnej podpory alebo preskúmať Dokumentácia produktu.