PDF Soubory jsou oblíbené, protože podporují text, obrázky, animace, videa a různé poznámky. Nicméně, pro mnoho dokumentů, text je nejdůležitější část. Tento článek vysvětluje, jak konverzi PDF soubory do souborů TXT a, naopak, TXT file do PDF pomocí C# .NET. Tato konverze je obzvláště užitečná, když potřebujete extrahovat nebo zaměřit se výhradně na textový obsah dokumentu PDF, například při provádění textové analýzy nebo přípravě obsahu pro reformování.
Témata uvedená v tomto průvodci zahrnuj:
- C# TXT do PDF nebo PDF do TXT Converter API
- C# Konvertovat PDF do TXT bez formátování
- Konvertovat PDF do TXT souboru s formátováním rutiny pomocí C# nebo VB.NET
- Konvertovat soubor TXT do PDF Programovaně pomocí C# nebo VB.NET
Tip: Můžete se také zajímat o zdarma Text na GIF Converter To vám umožní vytvářet animované GIF z textu.
C# TXT do PDF nebo PDF do TXT Converter
Konverze mezi formáty PDF a TXT je nezbytná, když váš hlavní zájem leží v textových údajích v rámci dokumentu. Ať už potřebujete odstranit veškeré formátování pro jednoduchou textovou analýzu nebo zachovat nějaký strukturovaný rozvrh, proces může být dokončen s několika jednoduchými kroky pomocí Aspose.PDF pro .NET Tento API je všestranný a podporuje C# a VB.NET, což zjednodušuje integraci do vašich aplikací .NET.
Chcete-li nainstalovat API ve vaší aplikaci, můžete buď stáhnout soubory DLL z Stáhnout Nebo použijte NuGet Například nainstalujte ji prostřednictvím konzole Package Manager:
PM> Install-Package Aspose.PDF
Jakmile je API nainstalován, můžete začít proces konverze s několika přístupy přizpůsobenými různým potřebám.
C# Konvertovat PDF do TXT bez formátování
Někdy potřebujete pouze surový text z dokumentu PDF bez jakéhokoli dalšího formátování. Tato metoda extrahuje text přesně tak, jak se objeví v dokumentu, bez zachování písmen, prostor nebo stylů. Je to obzvláště užitečné pro textovou analýzu, vyhledávání indexování, nebo když je rozložení irrelevantn.
Kroků k extrakci surového textu
Stáhněte vstupní PDF dokument: Použijte API pro stahování souboru PDF do objektu dokumentu.
Začněte s StringBuilder: Vytvořte si příklad z Stringbuilder Třída pro efektivní akumulaci textových údajů.
Iterate Prostřednictvím každé PDF stránky: Přejděte na všechny stránky v dokumentu. pro každou stránku:
Použití Textová zařízení Využijte text.
Využijte Růžový režim zajistit, aby se formátování nepoužilo.
Zachraňte výstupní text: Vložte nahromaděný text do souboru TXT.
Snippet kódů níže ilustruje, jak převést PDF do souboru TXT pomocí metody extrakce Raw:
Dodatečné pohledy
- Výkon a jednoduchost: Hrubá textová extrakce je obvykle rychlejší, protože se nepokouší rozmazat ani uplatňovat pravidla formátován.
- Použité případy: Ideální pro vyhledávání, vyhledávací indexování nebo scénáře, kde je požadován pouze textový obsah.
Konvertovat PDF do TXT souboru s formátováním rutiny pomocí C# nebo VB.NET
V jiných scénářích je důležité zachovat formátování textu (např. odstavce, indentace a sloupce). tato metoda se vztahuje na formátování rutiny, které odrážejí rozložení dokumentu v výsledném souboru TXT.
Kroků k textové extrakci s formátováním
Stáhněte zdroj PDF souboru: Jak dříve, přidejte PDF dokument do vaší aplikace.
Začněte s variabilním řádkem: Připravte řetězec ke shromažďování formátovaného textu.
Extrakt textu pomocí režimu formátován: Pro každou stránku použijte TextFormatováníMode.Pure Tento režim se snaží reprodukovat původní formátování co nejblíže.
Zachraňte formátovaný text: Výstup shromážděného textu do souboru TXT, který uchovává strukturované formátování, jako jsou řádkové přerušení, indenty a tabulkové rozložen.
Následující příklad kódu ukazuje, jak převést PDF do souboru TXT s textovým formátováním pomocí C#:
Vizuální srovnání RAW a Pure Extraction
Níže uvedený obrázek poskytuje vizuální srovnání dvou režimů extrakce.Na levé straně se text PDF zobrazí s jeho původním formátováním (čistý režim), zatímco pravý zobrazuje surový text bez formátován.

Konvertovat soubor TXT do PDF Programovaně pomocí C# nebo VB.NET
Konvertování souboru TXT zpět na PDF je užitečné, když potřebujete vytvořit polizovaný dokument z plochého textového obsahu. Tento proces zahrnuje čtení textu a pak aplikovat formátování PDF k vytvoření dokumentu, který je vizuálně atraktivní a připraven k distribuci.
Kroků pro konverzi TXT do PDF
Vytvořte textReader Instance: Použijte The Textový čtenář přečtení obsahu z souboru TXT.
Initializujte nový PDF dokument a přidejte bílou stránku: Vytvořte si příklad z Dokumenty Zobrazit a přidat novou stránku.
Nastavení TextBuilder Object: Použijte The Textový stavitel vytvářet textové odstavce s požadovaným formátováním, jako je písmeno, velikost a barva.
Přečtěte si a přiložte každý textový řádek: Projděte přes řádky v souboru TXT, připojte každou řádku k objektu TextBuilder.
Zachráňte výstup PDF: Použijte The Záchranářská strana (String) Metoda psaní konečného souboru PDF na disk.
Snippet kódů níže ukazuje, jak konverzi souboru TXT do PDF dokumentu pomocí C#:
Přezkumy při konverzi TXT do PDF
- Rozložení a styl: Může se stát, že budete muset upravit hranice, rozsah řádku a další textové vlastnosti, abyste zajistili, že PDF je dobře formátován a čiteln.
- Chyby při zpracován: Provádění kontroly chyby během čtení a psaní souborů pro řešení scénářů, jako jsou problémy s přístupem k souborům nebo šifrování neshod.
závěr
V tomto článku jsme prokázali techniky pro konverzi souborů PDF na soubory TXT a TXT na PDF pomocí C# nebo VB.NET v rámci .NET. Ať už se rozhodnete pro extrakci surového textu pro rychlost a jednoduchost nebo vyžaduje formátovaný text k zachování rozložení dokumentu, Aspose.PDF pro .NET API nabízí spolehlivé a flexibilní řešení. Tyto metody konverze jsou neocenitelné pro zpracování dat, archivování dokumentů a reprodukci obsahu.
Máte-li jakékoliv dotazy nebo potřebujete další pomoc, navštivte prosím naše Fórum bezplatné podpory Nebo přezkoumání Produktová dokumentace.