Extract Text from PDF C#

L’extracció de text de fitxers PDF és un requisit comú en les tasques de processament de document. Aquest article proporciona una guia aprofundida sobre l’ús de Aspose.PDF’s Text Extractor Plugin per a una extrema text eficient i versàtil en C#. Si cal extreure text d’un document sencer, pàgines específiques, o regions definides, el plug-in Aspose facilita la extrementació del text PDF de gran rendiment amb mínim esforç.

Característiques clau del Plugin d’extractor de text d’Aspose.PDF

Revisió de l’extractor de text d’Aspose.PDF Plugin

El Plugin d’extractor de text de l’Aspose.PDF per a .NET és una solució robusta per extreure text dels documents PDF. està dissenyat específicament per als desenvolupadors que treballen amb aplicacions .Net, que donen suport tant al .net Framework com a el .NET Core per extracció de textos PDF .El plugin ofereix tres modes de funcionament:

  • Pure Mode: Extracte text mentre manté el format original i estructura.
  • Raw Mode: Extracte text sense cap formatació.
  • Mode de planificació: Extracta text i elimina tots els formats i caràcters especials.

Beneficis de l’ús d’Aspose.PDF

  • Batch Processing: Tractar múltiples PDFs simultàniament.
  • Customable Settings: Ajustar les configuracions d’extracció per adaptar-se a les seves necessitats específiques.
  • Integració sense fil: s’integra directament amb les aplicacions .NET per a fluxos de treball fluids.
  • Performances d’alta velocitat: Optimitzat per a l’extracció de text ràpida i precisa amb un mínim consum de recursos.

Començar amb C# PDF Extracció de text

The Aspose.PDF per a .NET La biblioteca és una eina completa per als desenvolupadors de .NET que busquen solucions d’alta prestació C# PDF Extract.

PM> Install-Package Aspose.PDF

Alternativament, es pot Descarrega el DLL per integrar-lo directament al vostre projecte, proporcionant una solució fiable C# PDF a Text.

Extracció de text d’un PDF complet en C#

Per extraure tot el text d’un PDF, segueix aquests passos:

  • Carregar el PDF utilitzant el Document La classe.
  • Creació a TextAbsorber l’objecte
  • Apliqueu l’absorbent a totes les pàgines.
  • Salvar el text extraït a un arxiu.

Codi d’exemple

Extracció de text de pàgines específiques en PDF

Per extraure text d’una sola pàgina utilitzant C#, segueix aquests passos:

  • Carregar el PDF.
  • Creació a TextAbsorber.
  • Apliqueu l’absorbent a la pàgina desitjada.
  • Conservar el text extraït.

Codi d’exemple

Extracció de text de Regions específiques en PDF

Per extreure text de zones específiques d’una pàgina, defineix les coordenades rectangulars:

Codi d’exemple

Cercar i extreure text amb Regex

Per extreure text que coincideix amb un patró específic utilitzant expressions regulars:

  • Carregar el PDF.
  • Defineix un patró regex.
  • Aplicar el model utilitzant TextAbsorber.
  • Extractar fragments de text corresponents.

Codi d’exemple

Extracció de dades de taula com a text en C#

Per extreure contingut de les taules, utilitzeu els següents passos:

  • Carregar el PDF.
  • Use TableAbsorber Navegació a través de les estructures de taula.
  • Extractes de text per cèl·lula.

Codi d’exemple

Extracció de text destacat en PDF

Per extreure el text destacat:

  • Imatge a través de les anotacions.
  • Filter TextMarkupAnnotation.
  • Recuperar i guardar fragments destacats.

Codi d’exemple

Optimització de l’extracció de text amb baix ús de memòria

i) Utilitzar **** i ****:

  • Call absorber.Reset() després de processar cada pàgina.
  • Memòria lliure de les pàgines que utilitzen page.FreeMemory().

b) Utilitzar MemorySaving La modalitat:

Set TextExtractionOptions.TextFormattingMode per optimitzar l’ús de la memòria durant la extracció de text PDF.

Codi d’exemple

Lliure C# PDF Biblioteca d’extracció de text

Obtenir un Llicència temporal gratuïta Per a l’accés il·limitat a Aspose.PDF per .NET i desbloquejar el seu ple potencial per a solucions eficients C# PDF Text Extraction. També podeu explorar opcions com C# Convertir PDF a Text i Llegir Text de PDF per solució personalitzada, incloent-hi Extractar Text del PDF i Llegeix Text PDF Gratuït.

Conclusió

Aspose.PDF’s Text Extractor Plugin per .NET ofereix una solució versàtil i eficient per a tasques de extracció de text fiables. Des d’extrair text de tot el document a pàgines o regions específiques, simplifica el procés amb precisió i velocitat. Això fa que sigui una de les millors biblioteques C# PDF Extract Text disponibles. Trobem-ho avui per simplificar els fluxos de treball de l’extrakció del text PDF per només $99!

More in this category