Extract Text from PDF C#

PDF-tiedostoista tekstien poisto on yleinen vaatimus asiakirjojen käsittelyn tehtävissä.Tämä artikkeli tarjoaa syvällisen oppaan käyttämisestä Aspose.PDFin tekstiä poistaja Plugin tehokkaaseen ja monipuoliseen tekstipoistoon C#: ssä. Tarvitsetko tekstin poistaa koko dokumentista, tiettyjä sivuja tai määriteltyjä alueita, Aspose Plugiin helpottaa korkean suorituskyvyn PDF -tekstinäyttöä minimaalisella vaivalla.

Tärkeimmät ominaisuudet Aspose.PDF Text Extractor Plugin

Yleiskuva Aspose.PDF:n tekstiekstraktorin laajennuksesta

Aspose.PDF’s Text Extractor Plugin for .NET on kestävä ratkaisu PDF-tiedostojen tekstien poistoon. se on erityisesti suunniteltu kehittäjille, jotka työskentelevät .Net-sovellusten kanssa, tukemalla sekä .NET Framework että .net Core PDF -tekstinäytteitä varten:

  • Pure Mode: Tuottaa tekstiä säilyttäen alkuperäisen muotoilun ja rakenteen.
  • Raw Mode: Poistaa tekstin ilman muotoilua.
  • Plain Mode: Poistaa tekstin ja poistaa kaikki muotoilut ja erityiset merkit.

Hyötyjä käyttämällä Aspose.PDF

  • Batch Processing: käsittele useita PDF-tiedostoja samanaikaisesti.
  • Käsittelemättömät asetukset: Määritä kaivostoiminnot, jotka sopivat erityistarpeisiisi.
  • Seamless Integration: Integroidaan suoraan .NET-sovelluksiin sujuvan työnkulun varmistamiseksi.
  • High-Speed Performance: Optimoitu nopean, tarkkaan tekstin tuotantoon ja minimaaliseen resurssien kulutukseen.

Aloitetaan C# PDF-tekstitulostuksella

Se on ASPOSE.PDF ja .NET Kirjasto on kattava työkalu .NET-kehittäjille, jotka etsivät korkean suorituskyvyn C# PDF Extract -ratkaisuja:

PM> Install-Package Aspose.PDF

Vaihtoehtoisesti voit Lataa DLL integroida se suoraan projektisi, joka tarjoaa luotettavan C# PDF to Text -ratkaisun.

Tekstin poisto koko PDF:stä C#:ssä

Voit poistaa koko tekstin PDF:stä seuraamalla seuraavia vaiheita:

  • Lataa PDF käyttämällä Dokumentti ja luokka.
  • Luo a TextAbsorber ja objekti.
  • Soveltaa absorbtori kaikkiin sivuihin.
  • Tallenna teksti tiedostoon.

Esimerkkinä koodi

Tekstin poisto tietyistä sivuista PDF: ssä

Jos haluat poistaa tekstin yhdestä sivusta C#:n avulla, noudata seuraavia vaiheita:

  • Lataa PDF.
  • Luo a TextAbsorber.
  • Soveltaa absorbtori halutulle sivulle.
  • Säilytä poistettu teksti.

Esimerkkinä koodi

Tekstin poisto tietyistä alueista PDF:ssä

Jos haluat poistaa tekstin tietyistä sivun alueista, määritä rektangulaariset koordinaatit:

Esimerkkinä koodi

Tekstin etsiminen ja poisto käyttäen Regex

Voit poistaa tekstiä, joka vastaa tiettyä mallia käyttämällä säännöllisiä ilmaisuja:

  • Lataa PDF.
  • Määritä regex malli.
  • Käytä mallia käyttämällä TextAbsorber.
  • Poista vastaavat tekstin kappaleet.

Esimerkkinä koodi

Taulukon tiedot tekstinä C#

Voit poistaa sisältöä taulukoista, käytä seuraavia vaiheita:

  • Lataa PDF.
  • Käytä TableAbsorber Navigoida pöydän rakenteiden kautta.
  • Poista teksti solun solun mukaan.

Esimerkkinä koodi

Korostettu teksti PDF:ssä

Valitse korostettu teksti:

  • Ilmoittautuminen kirjoitusten kautta.
  • Suodattimet TextMarkupAnnotation.
  • Korjaa ja tallentaa korostetut kappaleet.

Esimerkkinä koodi

Optimoi tekstien poistoa alhaisen muistin käytön kanssa

a) Käytä **** ja ****:

  • Soittaminen absorber.Reset() jokaisen sivun käsittelyn jälkeen.
  • Vapaa muisti, jota sivut käyttävät page.FreeMemory().

2) Käyttämällä MemorySaving Muotoa varten:

Setissä TextExtractionOptions.TextFormattingMode optimoida muistin käyttöä PDF-tekstinäytön aikana.

Esimerkkinä koodi

Ilmainen C# PDF Text Extraction Library

Saa A Ilmainen väliaikainen lisenssi Voit myös tutustua vaihtoehdoihin, kuten C# muuntaa PDF-tiedostoon ja C# lukea tekstiä PDF:stä räätälöityjen ratkaisujen osalta, mukaan lukien c# poistaa tekstin PDFista sekä c# Lukea PDF Tiedoston ilmaiseksi.

johtopäätöksiä

Aspose.PDF’s Text Extractor Plugin for .NET tarjoaa monipuolisen ja tehokkaan ratkaisun luotettaville tekstinlähtötehtäviin. tekstiä koko asiakirjasta tiettyihin sivuihin tai alueisiin, se nopeuttaa prosessia tarkkuudella ja nopeudella. Tämä tekee siitä yhden parhaista C# PDF Extract Text -kirjastoista käytettävissä. Kokeile sitä tänään yksinkertaistamaan PDF-tekstinlääkitystä vain $99!

More in this category