Extract Text from PDF C#

Att extrahera text från PDF-filer är ett vanligt krav i dokumentbearbetningsuppgifter. Denna artikel ger en djup vägledning om hur man använder Aspose.PDFs Text Extractor Plugin för effektiv och mångsidig textutvinning i C#. Oavsett om du behöver extrahera text från ett helt dokument, specifika sidor eller definierade områden, underlättar Aspose Plugin högpresterande PDF-textutvinning med minimal ansträngning.

Nyckelfunktioner i Aspose.PDF Text Extractor Plugin

Översikt av Aspose.PDFs Text Extractor Plugin

Aspose.PDF Text Extractor Plugin för .NET är en robust lösning för att extrahera text från PDF-dokument. Den är speciellt utformad för utvecklare som arbetar med .NET-applikationer, som stöder både .NET Framework och .NET Core för PDF-tekstutvinning:

  • Pure Mode: Extraherar text samtidigt som den ursprungliga formateringen och strukturen bevaras.
  • Raw Mode: Extraherar text utan någon formatering.
  • Plain Mode: Extraherar text och tar bort alla format och särskilda tecken.

Fördelar med att använda Aspose.PDF

  • Batch Processing: Hantera flera PDF-filer samtidigt.
  • Anpassningsbara inställningar: Anpassa extraktionsinställningar för att passa dina specifika behov.
  • Seamless Integration: Integrerar direkt med .NET-program för smidiga arbetsflöden.
  • High-Speed Performance: optimerad för snabb och korrekt textutvinning med minimal resursförbrukning.

Börja med C# PDF Text Extraction

och den Aspose.PDF för .NET biblioteket är ett omfattande verktyg för .NET-utvecklare som letar efter högpresterande C# PDF Extract-lösningar:

PM> Install-Package Aspose.PDF

Alternativt kan du Ladda ner DLL integrera den direkt i ditt projekt, vilket ger en pålitlig C# PDF till Text-lösning.

Extrahera text från en hel PDF i C#

För att extrahera all text från en PDF följer du dessa steg:

  • Ladda ner PDF med hjälp av Dokumentet Klassen är.
  • Skapa A TextAbsorber och föremål.
  • Applicera absorberaren på alla sidor.
  • Spara extraherad text till en fil.

Exempelkod

Extrahera text från specifika sidor i PDF

För att extrahera text från en enda sida med C# följer du följande steg:

  • Ladda ner PDF.
  • Skapa A TextAbsorber.
  • Applicera absorberaren till önskad sida.
  • Spara den extraherade texten.

Exempelkod

Extrahera text från specifika regioner i PDF

För att extrahera text från specifika områden på en sida, definiera rektangulära koordinater:

Exempelkod

Sök och extrahera text med Regex

För att extrahera text som matchar en specifik mönster med hjälp av vanliga uttryck:

  • Ladda ner PDF.
  • Definiera ett regex mönster.
  • Applicera mönstret med hjälp av TextAbsorber.
  • Extrakt matchande text fragment.

Exempelkod

Ta ut tabelldata som text i C#

För att extrahera innehåll från tabeller, använd följande steg:

  • Ladda ner PDF.
  • Användning TableAbsorber för att navigera genom tabellstrukturer.
  • Extrakt textceller per cell.

Exempelkod

Utvinning av uppmärksammad text i PDF

För att extrahera betonad text:

  • Iterat genom anmälningar.
  • Filtrera TextMarkupAnnotation.
  • Återställa och spara uppmärksammade fragment.

Exempelkod

Optimera textutvinning med låg minnesanvändning

i) Användning **** och ****:

  • ringer absorber.Reset() efter att ha behandlat varje sida.
  • Fri minne som hålls av sidor som använder page.FreeMemory().

2) Användning av MemorySaving Mode är:

Sätt TextExtractionOptions.TextFormattingMode För att optimera minnesanvändningen under PDF-tekstutvinning.

Exempelkod

Gratis C# PDF Text Extraction Library

Få en Fri tillfällig licens för obegränsad åtkomst till Aspose.PDF för .NET och lås upp sin fulla potential för effektiva C# PDF Text Extraction-lösningar. Du kan också utforska alternativ som c# Konvertera PDF till Text och C# Läs Text från PDF för anpassade lösningar, inklusive c# Extract Text from PDF och c # Read PDF Tex Free.

slutsatser

Aspose.PDFs Text Extractor Plugin för .NET erbjuder en mångsidig och effektiv lösning för tillförlitliga textutvinning uppgifter. Från att extrahera text från hela dokument till specifika sidor eller regioner, det snabbar processen med noggrannhet och hastighet. Detta gör det till en av de bästa C# PDF Extract Text bibliotek som finns tillgängliga!

More in this category