Extract Text from PDF C#

Att extrahera text från PDF-filer är ett vanligt krav inom dokumentbehandlingsuppgifter. Denna artikel ger en djupgående vägledning om hur man använder Aspose.PDF:s Text Extractor Plugin för effektiv och mångsidig textutvinning i C#. Oavsett om du behöver extrahera text från ett helt dokument, specifika sidor eller definierade områden, underlättar Aspose Plugin högpresterande PDF-textutvinning med minimal ansträngning.


Funktioner som täcks


Framhäva Aspose.PDF:s Text Extractor Plugin

Aspose.PDF:s Text Extractor Plugin för .NET är en pålitlig lösning för att extrahera text från PDF-dokument. Den är speciellt utformad för utvecklare som arbetar med .NET-applikationer och stöder både .NET Framework och .NET Core PDF-textutvinning. Pluginet erbjuder tre driftslägen:

  1. Ren läge: Extraherar text medan den behåller den ursprungliga formateringen och strukturen.
  2. Rå läge: Extraherar text utan formatering.
  3. Ren text läge: Extraherar text och tar bort formatering och specialtecken.

Fördelar

  • Stöder batchbearbetning för flera PDF-filer.
  • Erbjuder anpassningsbara utvinningsinställningar för att möta specifika krav.
  • Direkt integration med .NET-applikationer säkerställer sömlösa arbetsflöden.
  • Optimerad för hög hastighet, noggrann textutvinning med minimal resursanvändning.

C# PDF Text Extraction Library

Biblioteket Aspose.PDF för .NET är ett omfattande verktyg för .NET-utvecklare som söker högpresterande C# PDF-textutvinning. Du kan enkelt installera det via NuGet:

PM> Install-Package Aspose.PDF

Alternativt kan du ladda ner DLL-filen för att integrera den direkt i ditt projekt, vilket ger en pålitlig C# PDF-textutvinningslösning.


Extrahera text från en hel PDF i C#

För att extrahera all text från en PDF, följ dessa steg:

  1. Ladda PDF-filen med hjälp av klassen Document.
  2. Skapa ett TextAbsorber objekt.
  3. Tillämpa absorbers på alla sidor.
  4. Spara den extraherade texten till en fil.

Exempelkod


Extrahera text från specifika sidor i PDF

För att extrahera text från en enda sida:

  1. Ladda PDF-filen.
  2. Skapa en TextAbsorber.
  3. Tillämpa absorbers på den önskade sidan.
  4. Spara den extraherade texten.

Exempelkod


Extrahera text från specifika områden i PDF

Att extrahera text från specifika områden av en sida innebär att definiera rektangulära koordinater. Stegen inkluderar:

  1. Ladda PDF-filen.
  2. Konfigurera TextSearchOptions för det definierade området.
  3. Tillämpa TextAbsorber på området.
  4. Spara den extraherade texten.

Exempelkod


Sök och extrahera text med hjälp av Regex

För att extrahera text som matchar ett specifikt mönster med hjälp av reguljära uttryck:

  1. Ladda PDF-filen.
  2. Definiera ett regex-mönster.
  3. Tillämpa mönstret med hjälp av TextAbsorber.
  4. Extrahera matchande textfragment.

Exempelkod


Extrahera tabellinnehåll som text i C#

För att extrahera tabellinnehåll:

  1. Ladda PDF-filen.
  2. Använd TableAbsorber för att navigera genom tabellstrukturer.
  3. Extrahera text cell för cell.

Exempelkod


Extrahera markerad text i PDF

För att extrahera markerad text:

  1. Iterera genom anteckningar.
  2. Filtrera TextMarkupAnnotation.
  3. Hämta och spara markerade fragment.

Exempelkod


Optimera textutvinning med låg minnesanvändning

i) Använda Reset() och FreeMemory():

  1. Anropa absorber.Reset() efter att ha bearbetat varje sida.
  2. Frigör minnet som hålls av sidor med page.FreeMemory().

ii) Använda MemorySaving läge:

Ställ in TextExtractionOptions.TextFormattingMode för att optimera minnesanvändningen under PDF-textutvinning.

Exempelkod


Gratis C# PDF Text Extraction Library

Få en gratis tillfällig licens för obegränsad åtkomst till Aspose.PDF för .NET och lås upp dess fulla potential för effektiv C# PDF-textutvinning.


Slutsats

Aspose.PDF:s Text Extractor Plugin för .NET erbjuder en mångsidig och effektiv lösning för pålitliga textutvinningsuppgifter. Från hela dokument till specifika sidor eller områden strömlinjeformar det processen med precision och hastighet, vilket gör det till ett av de bästa C# PDF-textutvinningsbiblioteken som finns tillgängliga. Prova det idag för att förenkla dina PDF-textutvinningsarbetsflöden för endast $99!