PDF Soubory jsou oblíbené, protože podporují text, obrázky, animace, videa a různé poznámky. Nicméně, pro mnoho dokumentů, text je nejdůležitější část. Tento článek vysvětluje, jak konverzi PDF soubory do souborů TXT a, naopak, TXT file do PDF pomocí C# .NET. Tato konverze je obzvláště užitečná, když potřebujete extrahovat nebo zaměřit se výhradně na textový obsah dokumentu PDF, například při provádění textové analýzy nebo přípravě obsahu pro reformování.

Témata uvedená v tomto průvodci zahrnuj:

Tip: Můžete se také zajímat o zdarma Text na GIF Converter To vám umožní vytvářet animované GIF z textu.

C# TXT do PDF nebo PDF do TXT Converter

Konverze mezi formáty PDF a TXT je nezbytná, když váš hlavní zájem leží v textových údajích v rámci dokumentu. Ať už potřebujete odstranit veškeré formátování pro jednoduchou textovou analýzu nebo zachovat nějaký strukturovaný rozvrh, proces může být dokončen s několika jednoduchými kroky pomocí Aspose.PDF pro .NET Tento API je všestranný a podporuje C# a VB.NET, což zjednodušuje integraci do vašich aplikací .NET.

Chcete-li nainstalovat API ve vaší aplikaci, můžete buď stáhnout soubory DLL z Stáhnout Nebo použijte NuGet Například nainstalujte ji prostřednictvím konzole Package Manager:

PM> Install-Package Aspose.PDF

Jakmile je API nainstalován, můžete začít proces konverze s několika přístupy přizpůsobenými různým potřebám.

C# Konvertovat PDF do TXT bez formátování

Někdy potřebujete pouze surový text z dokumentu PDF bez jakéhokoli dalšího formátování. Tato metoda extrahuje text přesně tak, jak se objeví v dokumentu, bez zachování písmen, prostor nebo stylů. Je to obzvláště užitečné pro textovou analýzu, vyhledávání indexování, nebo když je rozložení irrelevantn.

Kroků k extrakci surového textu

  • Stáhněte vstupní PDF dokument: Použijte API pro stahování souboru PDF do objektu dokumentu.

  • Začněte s StringBuilder: Vytvořte si příklad z Stringbuilder Třída pro efektivní akumulaci textových údajů.

  • Iterate Prostřednictvím každé PDF stránky: Přejděte na všechny stránky v dokumentu. pro každou stránku:

  • Použití Textová zařízení Využijte text.

  • Využijte Růžový režim zajistit, aby se formátování nepoužilo.

  • Zachraňte výstupní text: Vložte nahromaděný text do souboru TXT.

Snippet kódů níže ilustruje, jak převést PDF do souboru TXT pomocí metody extrakce Raw:

Dodatečné pohledy

  • Výkon a jednoduchost: Hrubá textová extrakce je obvykle rychlejší, protože se nepokouší rozmazat ani uplatňovat pravidla formátován.
  • Použité případy: Ideální pro vyhledávání, vyhledávací indexování nebo scénáře, kde je požadován pouze textový obsah.

Konvertovat PDF do TXT souboru s formátováním rutiny pomocí C# nebo VB.NET

V jiných scénářích je důležité zachovat formátování textu (např. odstavce, indentace a sloupce). tato metoda se vztahuje na formátování rutiny, které odrážejí rozložení dokumentu v výsledném souboru TXT.

Kroků k textové extrakci s formátováním

  • Stáhněte zdroj PDF souboru: Jak dříve, přidejte PDF dokument do vaší aplikace.

  • Začněte s variabilním řádkem: Připravte řetězec ke shromažďování formátovaného textu.

  • Extrakt textu pomocí režimu formátován: Pro každou stránku použijte TextFormatováníMode.Pure Tento režim se snaží reprodukovat původní formátování co nejblíže.

  • Zachraňte formátovaný text: Výstup shromážděného textu do souboru TXT, který uchovává strukturované formátování, jako jsou řádkové přerušení, indenty a tabulkové rozložen.

Následující příklad kódu ukazuje, jak převést PDF do souboru TXT s textovým formátováním pomocí C#:

Vizuální srovnání RAW a Pure Extraction

Níže uvedený obrázek poskytuje vizuální srovnání dvou režimů extrakce.Na levé straně se text PDF zobrazí s jeho původním formátováním (čistý režim), zatímco pravý zobrazuje surový text bez formátován.

Convert PDF TXT csharp

Konvertovat soubor TXT do PDF Programovaně pomocí C# nebo VB.NET

Konvertování souboru TXT zpět na PDF je užitečné, když potřebujete vytvořit polizovaný dokument z plochého textového obsahu. Tento proces zahrnuje čtení textu a pak aplikovat formátování PDF k vytvoření dokumentu, který je vizuálně atraktivní a připraven k distribuci.

Kroků pro konverzi TXT do PDF

  • Vytvořte textReader Instance: Použijte The Textový čtenář přečtení obsahu z souboru TXT.

  • Initializujte nový PDF dokument a přidejte bílou stránku: Vytvořte si příklad z Dokumenty Zobrazit a přidat novou stránku.

  • Nastavení TextBuilder Object: Použijte The Textový stavitel vytvářet textové odstavce s požadovaným formátováním, jako je písmeno, velikost a barva.

  • Přečtěte si a přiložte každý textový řádek: Projděte přes řádky v souboru TXT, připojte každou řádku k objektu TextBuilder.

  • Zachráňte výstup PDF: Použijte The Záchranářská strana (String) Metoda psaní konečného souboru PDF na disk.

Snippet kódů níže ukazuje, jak konverzi souboru TXT do PDF dokumentu pomocí C#:

Přezkumy při konverzi TXT do PDF

  • Rozložení a styl: Může se stát, že budete muset upravit hranice, rozsah řádku a další textové vlastnosti, abyste zajistili, že PDF je dobře formátován a čiteln.
  • Chyby při zpracován: Provádění kontroly chyby během čtení a psaní souborů pro řešení scénářů, jako jsou problémy s přístupem k souborům nebo šifrování neshod.

závěr

V tomto článku jsme prokázali techniky pro konverzi souborů PDF na soubory TXT a TXT na PDF pomocí C# nebo VB.NET v rámci .NET. Ať už se rozhodnete pro extrakci surového textu pro rychlost a jednoduchost nebo vyžaduje formátovaný text k zachování rozložení dokumentu, Aspose.PDF pro .NET API nabízí spolehlivé a flexibilní řešení. Tyto metody konverze jsou neocenitelné pro zpracování dat, archivování dokumentů a reprodukci obsahu.

Máte-li jakékoliv dotazy nebo potřebujete další pomoc, navštivte prosím naše Fórum bezplatné podpory Nebo přezkoumání Produktová dokumentace.

Vidět také

More in this category