Extract Text from PDF C#

Het extraheren van tekst uit PDF-bestanden is een gemeenschappelijke vereiste in documentverwerking taken. dit artikel biedt een diepgaand gids over het gebruik van Aspose.PDF’s Text Extractor Plugin voor efficiënte en veelzijdige tekstextractie in C#. Of je tekst nodig hebt om uit een volledige document, specifieke pagina’s of gedefinieerde gebieden te extrahiëren, de Aspose-Plugin faciliteert high-performance PDF text extraction met minimale inspanning.

Key Features van Aspose.PDF’s Text Extractor Plugin

Overzicht van Aspose.PDF’s Text Extractor Plugin

De Aspose.PDF’s Text Extractor Plugin voor .NET is een robuste oplossing voor het extraheren van tekst uit PDF-documenten. Het is speciaal ontworpen voor ontwikkelaars die werken met .NET-toepassingen, ondersteunt zowel .net Framework als .NET Core voor PDF tekstextractie:

  • Pure Mode: Extract tekst terwijl de oorspronkelijke vorming en structuur behouden.
  • Raw Mode: Extract tekst zonder vormgeving.
  • Plain Mode: Extract tekst en verwijdert alle formaten en speciale tekens.

De voordelen van het gebruik van Aspose.PDF

  • Batch Processing: Handelen met meerdere PDF’s tegelijkertijd.
  • Customable Settings: Tailor extraction settings om aan uw specifieke behoeften te passen.
  • Seamless Integration: Direct geïntegreert met .NET-toepassingen voor gladde werkstromen.
  • High-Speed Performance: geoptimaliseerd voor snelle, nauwkeurige tekstextractie met een minimale resourceverbruik.

Begin met C# PDF Text Extraction

De Aspose.PDF voor .NET Bibliotheek is een uitgebreid hulpmiddel voor .NET-ontwikkelaars die op zoek zijn naar high-performance C# PDF Extract oplossingen:

PM> Install-Package Aspose.PDF

Als alternatief kunt u Download de DLL om het rechtstreeks in uw project te integreren en een betrouwbare C# PDF to Text oplossing te bieden.

Het extraheren van tekst uit een volledige PDF in C#

Om alle tekst uit een PDF te extraheren, volg deze stappen:

  • Download de PDF met de documenten De klas.
  • Creëer een TextAbsorber Het object.
  • Gebruik de absorber op alle pagina’s.
  • Speel de geïntroduceerde tekst in een bestand.

Voorbeeld code

Het extraheren van tekst uit specifieke pagina’s in PDF

Om tekst uit één pagina te extraheren met behulp van C#, volg deze stappen:

  • Download het PDF.
  • Creëer een TextAbsorber.
  • Gebruik de absorber op de gewenste pagina.
  • Bewaar het geëxtraceerde tekst.

Voorbeeld code

Het extraheren van tekst uit specifieke regio’s in PDF

Voor het extraheren van tekst uit specifieke gebieden van een pagina, definieer rectangulaire coördinaten:

  • Download het PDF.
  • Configureer TextSearchOptions voor de gedefinieerde regio.
  • Toepassing van de TextAbsorber naar de regio.
  • Bewaar het geëxtraceerde tekst.

Voorbeeld code

Tekst zoeken en extraheren met behulp van Regex

Om tekst te extraheren die overeenkomt met een specifiek patroon met behulp van regelmatige uitdrukkingen:

  • Download het PDF.
  • Maak een regex patroon.
  • Gebruik het patroon TextAbsorber.
  • Extract matching text fragmenten.

Voorbeeld code

Het extraheren van tabelgegevens als tekst in C#

Om inhoud uit tabellen te extraheren, gebruik de volgende stappen:

  • Download het PDF.
  • Gebruik TableAbsorber om te navigeren door de tafelstructuur.
  • Extract tekstcel per cel.

Voorbeeld code

Het extraheren van geavanceerde tekst in PDF

Om de benadrukte tekst uit te trekken:

  • Iterate door de annotaties.
  • Filter TextMarkupAnnotation.
  • Verwijder en bewaar onderstreepte fragmenten.

Voorbeeld code

Het optimaliseren van tekstextractie met lage geheugengebruik

i) Gebruik **** en ****:

  • bellen absorber.Reset() Na het verwerken van elke pagina.
  • Gratis geheugen gehouden door pagina’s die gebruik maken van page.FreeMemory().

b) Gebruik MemorySaving De mode:

Set op TextExtractionOptions.TextFormattingMode om het geheugengebruik te optimaliseren tijdens PDF-tekstextractie.

Voorbeeld code

Gratis C# PDF Text Extraction Library

Geef een Gratis tijdelijke licentie voor onbeperkte toegang tot Aspose.PDF voor .NET en het volledige potentieel voor efficiënte C# PDF Text Extraction oplossingen te ontgrendelen. u kunt ook opties verkennen zoals c# Convert PDF to Text en C# Read Text from PDF voor gepersonaliseerde opdrachten, waaronder c# Extract Text uit PDF en c # Read PDF text Free.

Conclusie

Aspose.PDF’s Text Extractor Plugin voor .NET biedt een veelzijdige en efficiënte oplossing voor betrouwbare tekstextractietaken.Van het extraheren van tekst van hele documenten naar specifieke pagina’s of gebieden, versnelt het het proces met nauwkeurigheid en snelheid.Dit maakt het een van de beste C# PDF Extract Text bibliotheken beschikbaar.Probeer het vandaag om uw PDF tekst extractie werkstromen voor slechts $99 te vereenvoudigen!

More in this category