Extract Text from PDF C#

Ekstrakcija teksta iz PDF datoteka je uobičajena potreba u zadatcima obrade dokumenata.Ovaj članak pruža detaljan vodič o korištenju Aspose.PDF’s Text Extractor Plugin za učinkovitu i sveobuhvatnu tekstnu ekstrakciju u C#.Bez obzira na to treba li izvući tekst iz cijelog dokumenta, određenih stranica ili definiranih regija, Aspose plugin olakšava visoke performanse PDF tekstne ekstrakta s minimalnim naporom.

Ključne značajke Aspose.PDF tekst ekstraktor plugin

Pregled Aspose.PDF tekst Extractor Plugin

Aspose.PDF’s Text Extractor Plugin za .NET je čvrsto rješenje za ekstrakciju teksta iz PDF dokumenata. posebno je dizajniran za razvijalce koji rade s .NET aplikacijama, podržavajući .net Framework i .NET Core za PDF tekst extraction:

  • Pure Mode: izvlači tekst dok zadrži originalnu formatu i strukturu.
  • Raw Mode: Izvlači tekst bez ikakvog formata.
  • Plain Mode: Izvuče tekst i uklanja sve formate i posebne znakove.

Prednosti korištenja Aspose.PDF

  • Batch Processing: Rješavanje više PDF-a istovremeno.
  • Posebna postavka: Prilagodite postavke ekstrakcije kako biste se prilagodili vašim specifičnim potrebama.
  • Seamless Integration: Izravno se integrira s .NET aplikacijama za glatke radne tokove.
  • High-Speed Performance: optimiziran za brzu, točnu ekstrakciju teksta s minimalnom potrošnjom resursa.

Početak s C# PDF tekst ekstrakcije

Tko je Sljedeći članakAspose.PDF za .NET Knjižnica je sveobuhvatni alat za .NET razvijatelje koji traže visoko učinkovite rješenja C# PDF Extract:

PM> Install-Package Aspose.PDF

Alternativno, možete Preuzimanje DLL da ga integrirate izravno u svoj projekt, pružajući pouzdano rješenje C# PDF to Text.

Izvlačenje teksta iz cijelog PDF-a u C#

Da biste uklonili cijeli tekst iz PDF-a, slijedite sljedeće korake:

  • Preuzimanje PDF-a pomoću Dokumenti Klasa je.
  • Stvoriti A TextAbsorber Objekt je.
  • Primijenite apsorbent na sve stranice.
  • Sačuvajte izveden tekst u datoteku.

Primjer kodova

Izvlačenje teksta iz određenih stranica u PDF-u

Da biste izvukli tekst s jedne stranice pomoću C#, slijedite sljedeće korake:

  • Preuzmite PDF.
  • Stvoriti A TextAbsorber.
  • Primijenite apsorbent na željenu stranicu.
  • Sačuvajte izveden tekst.

Primjer kodova

Izvlačenje teksta iz određenih regija u PDF-u

Za ekstrakciju teksta iz određenih područja stranice, definirajte pravokularne koordinate. slijedite ove korake:

Primjer kodova

Traženje i ekstrakcija teksta pomoću Regex

Da biste izvukli tekst koji odgovara određenom uzorku pomoću redovitih izraza:

  • Preuzmite PDF.
  • Učinite regex uzorak.
  • Primjenjujte uzorak pomoću TextAbsorber.
  • Izvadite odgovarajuće tekstne fragmente.

Primjer kodova

Izvlačenje podataka o tablici kao teksta u C#

Da biste izvukli sadržaj iz tablica, koristite sljedeće korake:

  • Preuzmite PDF.
  • Korištenje TableAbsorber Navigacija kroz stolne strukture.
  • Ekstrakcija tekstne stanice po stanicama.

Primjer kodova

Uklanjanje istaknutog teksta u PDF-u

Da biste izvukli istaknuti tekst:

Primjer kodova

Optimizacija ekstrakcije teksta s niskom upotrebom memorije

a) korištenje **** i ****:

  • Poziv absorber.Reset() Nakon obrade svake stranice.
  • Besplatna memorija koju čuvaju stranice page.FreeMemory().

a) korištenje MemorySaving Na način:

Setovi TextExtractionOptions.TextFormattingMode optimizirati upotrebu memorije tijekom ekstrakcije PDF teksta.

Primjer kodova

Besplatna knjižnica C# PDF tekst ekstrakcije

Uzmite A Besplatna privremena dozvola za neograničen pristup Aspose.PDF za .NET i otključivanje punog potencijala za učinkovite rješenja C# PDF Text Extraction. Također možete istražiti opcije kao što su C# Konvertirati PDF u tekst i c# Pročitati tekst iz PDF za prilagođene rješenje, uključujući c# Izvaditi tekst s PDF-a i c # Pročitati PDF tekst besplatno.

zaključak

Aspose.PDF’s Text Extractor Plugin for .NET nudi sveobuhvatno i učinkovito rješenje za pouzdane zadatke ekstrakcije teksta. Od ekstrakta tekste iz cijelog dokumenta na određene stranice ili regije, to usporava proces s preciznošću i brzinom. To ga čini jednim od najboljih C# PDF Extract Text knjižnica dostupna!

More in this category