Extract Text from PDF C#

Odstranění textu z souborů PDF je běžným požadavkem v úlohách zpracování dokumentů. Tento článek poskytuje důkladný průvodce používání Aspose.PDF Text Extractor Plugin pro efektivní a všestrannou textovou extrakci v C#. Ať už potřebujete odstranit text z celého dokumentu, konkrétních stránek nebo definovaných oblastí, Aspose Plugin usnadňuje vysoce výkonnou PDF textovou extrakci s minimálním úsilím.

Klíčové vlastnosti programu Aspose.PDF Text Extractor Plugin

Přehled programu Aspose.PDF Text Extractor Plugin

Aspose.PDF Text Extractor Plugin pro .NET je robustní řešení pro extrahování textu z dokumentů PDF. Je speciálně navržen pro vývojáře pracující s aplikacemi .NET, podporující jak .NET Framework, tak .NET Core pro PDF text extrahován:

  • Pure Mode: Vyrábí text při zachování původního formátování a struktury.
  • Raw Mode: Vyrábí text bez formátován.
  • Plain Mode: Odstraňuje text a odstraňuje všechny formátování a speciální znaky.

Výhody použití Aspose.PDF

  • Batch Processing: Jedná se o více PDF souběžn.
  • Přizpůsobitelné nastavení: Přizpůsobte nastavení extrakce tak, aby odpovídalo vašim specifickým potřebám.
  • Seamless Integration: Přímá integrace s aplikacemi .NET pro hladké pracovní toky.
  • High-Speed Performance: Optimalizován pro rychlé a přesné textové extrakce s minimální spotřebou zdroj.

Začněte s C# PDF Text Extraction

a to Aspose.PDF pro .NET Knihovna je komplexní nástroj pro vývojáře .NET, kteří hledají vysoce výkonné řešení C# PDF Extract:

PM> Install-Package Aspose.PDF

Alternativně můžete Stáhněte si DLL integrovat jej přímo do vašeho projektu, poskytující spolehlivé C# PDF do textu řešení.

Odstranění textu z plného PDF v C#

Chcete-li extrahovat celý text z PDF, postupujte podle následujících krok:

  • Stáhněte si PDF pomocí Dokumenty a třídy.
  • Vytvořte A TextAbsorber a předmětem.
  • Aplikujte absorptor na všechny stránky.
  • Uložte extrahovaný text do souboru.

Příkladový kód

Odstranění textu z konkrétních stránek v PDF

Chcete-li extrahovat text z jedné stránky pomocí C#, postupujte podle následujících kroků:

  • Stáhněte si PDF.
  • Vytvořte A TextAbsorber.
  • Aplikujte absorptor na požadovanou stránku.
  • Shromažďujte extrahovaný text.

Příkladový kód

Odstranění textu z konkrétních oblastí v PDF

Chcete-li extrahovat text z konkrétních oblastí stránky, definujte rektangulární koordináty:

Příkladový kód

Vyhledávání a extrakce textu pomocí Regex

Chcete-li extrahovat text, který odpovídá konkrétnímu vzoru pomocí pravidelných výraz:

  • Stáhněte si PDF.
  • Využijte režim regex.
  • Použijte vzorek pomocí TextAbsorber.
  • Připojte se k textovým fragmentům.

Příkladový kód

Vytažení tabulkových údajů jako textu v C#

Chcete-li extrahovat obsah z tabulek, použijte následující kroky:

  • Stáhněte si PDF.
  • Použití TableAbsorber Navigaci přes stolní struktury.
  • Odstranění textové buňky po buňce.

Příkladový kód

Vytažení zdůrazněného textu v PDF

K vyjádření zdůrazněného textu:

  • Iterate prostřednictvím poznámek.
  • filtry TextMarkupAnnotation.
  • Odstraňte a uložte zdůrazněné fragmenty.

Příkladový kód

Optimalizace textové extrakce s nízkým využitím paměti

a) Použití **** a ****:

  • Volání absorber.Reset() po zpracování každé stránky.
  • Bezplatná paměť, kterou používají stránky page.FreeMemory().

2) Použití MemorySaving V módě:

Setování TextExtractionOptions.TextFormattingMode optimalizovat používání paměti během PDF textové extrakce.

Příkladový kód

Zdarma C# PDF Text Extraction Library {#Zdarma licence}

Získejte A Zdarma dočasná licence pro neomezený přístup k Aspose.PDF pro .NET a odemknout jeho plný potenciál pro efektivní řešení C# PDF Text Extraction. Můžete také prozkoumat možnosti, jako je c# Convert PDF to Text a C# Read Text from PDF pro přizpůsobené řešení, včetně c# Extrakt Text z PDF a c # Read PDF text Free.

závěr

Aspose.PDF Text Extractor Plugin pro .NET nabízí všestranné a efektivní řešení pro spolehlivé úkoly extrakce textu. Od extrahování textů z celého dokumentu do konkrétních stránek nebo regionů, usnadňuje proces s přesností a rychlostí. To z něj dělá jednu z nejlepších C# PDF Extract Text knihovny k dispozici. Snažte se to dnes zjednodušit vaše PDF text extraction pracovní toky za pouhých $99!

More in this category