Extract Text from PDF C#

Odstránenie textu z súborov PDF je bežnou požiadavkou v úlohách spracovania dokumentov. Tento článok poskytuje dôkladný sprievodca o používaní Aspose.PDF Text Extractor Plugin pre efektívnu a všestrannú textovú extrakciu v C#. Či už potrebujete odstrániť text z celého dokumentu, konkrétnych stránok alebo definovaných regiónov, Aspose plugin uľahčuje vysoko výkonné PDF textové ekstrakcie s minimálnym úsilím.

Kľúčové vlastnosti programu Aspose.PDF Text Extractor Plugin

Prehľad aplikácie Aspose.PDF Text Extractor Plugin

Aspose.PDF Text Extractor Plugin pre .NET je robustné riešenie na extrahovanie textu z dokumentov PDF. Je špeciálne navrhnutý pre vývojárov pracujúcich s aplikáciami .NET, podporuje ako .net Framework, tak .NET Core pre PDF text extrakciu:

  • Pure Mode: Vyrába text pri zachovaní pôvodného formátovania a štruktúry.
  • Raw Mode: Vytiahne text bez formátovania.
  • Plain Mode: Odstráni text a odstráni všetky formátovanie a špeciálne znaky.

Výhody používania Aspose.PDF

  • Batch Processing: Správa viacerých PDF súčasne.
  • Nastavenia prispôsobiteľné: Nastavenie extrakcie Tailor, aby vyhovovalo vašim špecifickým potrebám.
  • Seamless Integration: Priamo sa integruje s aplikáciami .NET pre hladké pracovné toky.
  • High-Speed Performance: Optimalizovaný pre rýchlu a presnú extrakciu textu s minimálnou spotrebou zdrojov.

Začať s C# PDF Text Extraction

a The Aspose.PDF pre .NET knižnica je komplexný nástroj pre vývojárov .NET, ktorí hľadajú vysoko výkonné riešenia C# PDF Extract:

PM> Install-Package Aspose.PDF

Alternatívne môžete Stiahnuť DLL Integrovať ho priamo do vášho projektu, poskytujúce spoľahlivé C# PDF do textu riešenie.

Odstránenie textu z celého PDF v C#

Ak chcete vytiahnuť celý text z PDF, postupujte podľa týchto krokov:

  • Prečítajte si PDF pomocou dokumenty v triede.
  • Vytvorte A TextAbsorber na objekty.
  • Aplikujte absorptor na všetky stránky.
  • Uložiť vytiahnutý text do súboru.

Príkladový kód

Odstránenie textu zo špecifických stránok v PDF

Ak chcete extrahovať text z jednej stránky pomocou C#, postupujte podľa týchto krokov:

  • Nahrať PDF.
  • Vytvorte A TextAbsorber.
  • Aplikujte absorptor na požadovanú stránku.
  • Uložiť vytiahnutý text.

Príkladový kód

Odstránenie textu z konkrétnych regiónov v PDF

Ak chcete extrahovať text z konkrétnych oblastí stránky, definujte rektangulárne koordináty:

Príkladový kód

Vyhľadávanie a extrakcia textu pomocou Regex

Na extrahovanie textu zodpovedajúceho konkrétnemu vzoru pomocou pravidelných výrazov:

  • Nahrať PDF.
  • Nastavenie regexového vzoru.
  • Aplikujte vzor pomocou TextAbsorber.
  • Odstráňte textové fragmenty.

Príkladový kód

Odstrániť tabuľkové údaje ako text v C#

Ak chcete extrahovať obsah z tabuliek, použite nasledujúce kroky:

  • Nahrať PDF.
  • Použitie TableAbsorber navigovať cez tabuľkové štruktúry.
  • Odstráňte textovú bunku podľa buniek.

Príkladový kód

Odstránenie zdôrazneného textu v PDF

Na zdôraznenie zdôrazneného textu:

  • Iterate prostredníctvom poznámok.
  • filter TextMarkupAnnotation.
  • Odstrániť a zachrániť zdôraznené fragmenty.

Príkladový kód

Optimalizácia textovej extrakcie s nízkou pamäťou

a) Používanie **** a ****:

  • Volanie absorber.Reset() Po spracovaní každej stránky.
  • Bezplatná pamäť, ktorú používajú stránky page.FreeMemory().

b) Používanie MemorySaving V móde:

nastavenie TextExtractionOptions.TextFormattingMode optimalizovať používanie pamäte počas PDF text extrakcie.

Príkladový kód

Zadarmo C# PDF Text Extraction Library

Získajte A bezplatná dočasná licencia pre neobmedzený prístup k Aspose.PDF pre .NET a odomknúť jeho plný potenciál pre efektívne riešenia C# PDF Text Extraction. Môžete tiež preskúmať možnosti ako C# Convert PDF to Text a c# Read Text from PDF pre prispôsobené riešenie, vrátane c# Extrakt Text z PDF a c # Read PDF text Free.

Záver

Aspose.PDF Text Extractor Plugin pre .NET ponúka všestranné a efektívne riešenie pre spoľahlivé úlohy extrakcie textu. Od extrahovať text z celého dokumentu na konkrétne stránky alebo regióny, streamluje proces s presnosťou a rýchlosťou. To robí to jedným z najlepších C# PDF Extract Text knižníc k dispozícii. Skúste to dnes zjednodušiť vaše PDF text extraction pracovné toky za len $99!

More in this category