Convert PDF to TXT in C#

Jako programátor, často budete muset extrahovat obsah z PDF souborů jako plochý text pro další zpracování, jako je analýza a informační extrakce. zpracování PDF souborů a konverze celého PDF do formátu TXT je obtížný úkol, když nemáte správné nástroje#.

C# knihovna pro konverzi PDF do TXT

[Aspose.Words pro .NET][1] je úžasná API pro zpracování dokumentů, která umožňuje vývojářům pracovat s Word dokumenty, stejně jako různé další formáty, včetně PDF. S jeho rozsáhlým souborem funkcí, Aspose.Words zjednodušuje manipulace s dokumenty, konverze a generace úkol.

Můžete si knižnici nainstalovat z [NauGet][5] pomocí následujícího příkazu. Nebo si ji stáhněte z sekce [Releases][6.

Konvertovat PDF na TXT v C#

Aspose.Words pro .NET skrývá všechny složité operace extrakce textu z souborů PDF a umožňuje provést konverzi PDF do TXT v několika krocích, jak je uvedeno níže.

  • Stáhněte si soubor PDF.
  • Konvertovat PDF do formátu TXT s jediným voláním funkce.

Tak, s několika řádky kódu, můžete převést obsah v souboru PDF na plochý text, bez ohledu na to, jak velký zdroj PDF je#.

  • Nejprve si stáhněte PDF pomocí třídy Dokument.
  • Pak dokument uložíte jako soubor TXT pomocí metody Document.Save(filePath.

Následující kód C# snippet konvertuje PDF do formátu TXT.

Získejte bezplatnou licenci API

Můžete získat [bezplatnou dočasnou licenci][2] pro konverzi PDF souborů do formátu TXT bez omezení hodnocen.

Nastavení kódování výstupu

Proč je kódování důležité

Při převodu PDF na text je často potřeba specifikovat znakové kódování, aby se zachovaly speciální znaky (např. diakritika, symboly). Aspose.PDF umožňuje nastavit výstupní kódování pomocí třídy TextSaveOptions. Pokud není kódování nastaveno, může dojít k nahrazení neznámých znaků otazníky nebo k poškození textu.

Tento příklad zajistí, že všechny české znaky budou v textovém souboru správně reprezentovány.

Zpracování vícestránkových PDF

Jak extrahovat text ze všech stránek

U souborů s více stránkami je vhodné použít TextAbsorber, který projde každou stránku a shromáždí text do jedné proměnné. Následující kód ukazuje, jak získat text ze všech stránek a uložit jej do souboru.

Tímto způsobem získáte kompletní textový obsah, včetně zalomení řádků a mezer, které odpovídají původnímu rozložení PDF.

Řešení běžných problémů

Prázdný výstup

Pokud výstupní soubor obsahuje jen prázdné řádky, pravděpodobně PDF neobsahuje textovou vrstvu (např. je to skenovaný dokument). V takovém případě je nutné použít OCR – Aspose.PDF nabízí integraci s Aspose.OCR nebo můžete použít externí OCR knihovnu.

Zachování formátování

Standardní převod na TXT ztrácí formátování (tučnost, kurzíva). Pro zachování struktury lze použít TextSaveOptions a nastavit PreserveFormatting = true. Výsledkem bude text, který lépe odráží původní rozložení, ačkoliv se nejedná o plně formátovaný výstup.

Tyto tipy pomohou eliminovat nejčastější překážky při konverzi PDF na TXT.

závěr

V tomto příspěvku na blogu jsme zkoumali, jak převést PDF na TXT v C# pomocí Aspose.Words pro .NET knihovnu.Sledováním pokynů a pomocí kódového snímače, můžete snadno zpracovat velké PDF soubory a převést je na plochý text.Aspose.Words zjednodušuje úkoly zpracování dokumentů, což je cenný nástroj pro vývojáře pracující s různými formáty dokumentů v jejich aplikacích.Můžete navštívit [dokumentaci][3] této knihovny zpracování slov .NET prozkoumat své úžasné funkce.V případě, že byste měli jakékoli dotazy, cítit se svobodně, abychom se dozvěděli prostřednictvím našeho [forum][4].

More in this category