Extract Text from PDF C#

Teksta ekstrakcija no PDF failiem ir kopīga prasība dokumentu apstrādes uzdevumos.Šī raksts sniedz detalizētu vadlīniju par to, kā izmantot Aspose.PDF teksta extraktora pluginu efektīvai un daudzveidīgai tekstus ekstraksi C#. Vai jums ir nepieciešams, lai ekstraktētu tekstu no visa dokumenta, konkrētām lapām vai definētiem reģioniem, Aspose plugins veicina augstas veiktspējas PDF tekstu ekstraksiju ar minimālu pūli.

Galvenās iezīmes Aspose.PDF teksta ekstraktora plugins

Pārskats par Aspose.PDF teksta ekstraktora pluginu

Aspose.PDF teksta ekstraktora plugins .NET ir spēcīgs risinājums tekstus no PDF dokumentiem. tas ir īpaši izstrādāts izstrādātājiem, kas strādā ar .Net lietojumprogrammām, atbalstot gan .net Framework un .NET Core PDF tekstu ekstraksi.

  • Pure Mode : Izņem tekstu, saglabājot oriģinālu formātu un struktūru.
  • Raw Mode : Izraksta tekstu bez jebkāda formāta.
  • Plain Mode : Izņem tekstu un noņem visus formātus un īpašus rakstzīmes.

Izmantošanas priekšrocības Aspose.PDF

  • Batch apstrāde : Vienlaikus apstrādājiet vairākus PDF failus.
  • Customizable Settings : pielāgot ekstrakcijas iestatījumus, lai atbilstu jūsu specifiskajām vajadzībām.
  • Seamless Integration : Tieši integrējas ar .NET lietojumprogrammām, lai nodrošinātu gludu darba plūsmu.
  • Speed Performance : optimizēts, lai ātri un precīzi iegūtu tekstu ar minimālu resursu patēriņu.

Sākot ar C# PDF teksta ekstrakciju

The ASPOSE.PDF par .NET Bibliotēka ir visaptverošs rīks .NET izstrādātājiem, kuri meklē augstas veiktspējas C# PDF Extract risinājumus.

PM> Install-Package Aspose.PDF

Alternatīvi, jūs varat Lejupielādēt DLL integrēt to tieši savā projektā, nodrošinot uzticamu C# PDF to Text risinājumu.

Teksta ekstrakcija no visa PDF C#

Lai iegūtu visu tekstu no PDF, sekojiet šādiem soļiem:

  • Lejupielādēt PDF, izmantojot Document Klases ir.
  • radīt a TextAbsorber Par objektu.
  • Pielietojiet absorbentu visām lapām.
  • Iegūtā teksta saglabāšana failā.

Piemērs kods

Teksta ekstrakcija no konkrētām lapām PDF

Lai iegūtu tekstu no vienas lapas, izmantojot C#, sekojiet šādiem soļiem:

  • Lejupielādēt PDF.
  • radīt a TextAbsorber.
  • Pielietojiet absorbentu uz vēlamo lapu.
  • Iegūtā teksta saglabāšana.

Piemērs kods

Teksta ekstrakcija no konkrētiem reģioniem PDF

Lai iegūtu tekstu no konkrētiem lapu apgabaliem, definējiet taisnstūra koordinātus.

Piemērs kods

Meklēt un izrakstīt tekstu, izmantojot Regex

Lai iegūtu tekstu, kas atbilst konkrētam modelim, izmantojot regulāras izteiksmes:

  • Lejupielādēt PDF.
  • Izvēlieties regex modeli.
  • Izmantojiet veidni, izmantojot TextAbsorber.
  • Izrakstīt atbilstīgus teksta fragmentus.

Piemērs kods

Izrakstot tabulas datus kā tekstu C#

Lai iegūtu saturu no tabulām, izmantojiet šādus soļus:

  • Lejupielādēt PDF.
  • Use TableAbsorber Navigēt caur tabulas struktūrām.
  • Izrakstīt tekstu šūnu pēc šūnas.

Piemērs kods

Izrakstīt paaugstinātu tekstu PDF

Lai izrakstītu uzsvērtu tekstu:

  • Izveidojiet caur anotācijām.
  • Filter TextMarkupAnnotation.
  • Atjauno un glabā uzskaitītos fragmentus.

Piemērs kods

Optimizēt teksta ekstrakciju ar zemu atmiņas izmantošanu

i) Izmantojot **** un ****:

  • Call absorber.Reset() Pēc katras lapas apstrādes.
  • Bezmaksas atmiņa, ko izmanto lapas page.FreeMemory().

2) Izmantojot MemorySaving Mode ir:

Set TextExtractionOptions.TextFormattingMode lai optimizētu atmiņas izmantošanu PDF teksta ekstrakcijas laikā.

Piemērs kods

Bezmaksas C# PDF teksta ekstrakcijas bibliotēka

Iegūt A Bezmaksas pagaidu licences bez ierobežojumiem piekļūt Aspose.PDF .NET un atslēgt pilnīgu to potenciālu efektīviem *C# PDF Teksta ekstrakcijas ** risinājumiem. Jūs varat arī izpētīt iespējas, piemēram, ** C# Konvertēt PDF uz Tekstu ** un c# Lasīt tekstu no PDF ** pielāgotu risinājumu, ieskaitot ** c# Ekstrakts teksts no Pdf , un c # lasīt PDF teksta bezmaksas.

Conclusion

Aspose.PDF Text Extractor Plugin for .NET piedāvā daudzveidīgu un efektīvu risinājumu uzticamiem teksta ekstrakcijas uzdevumiem. No tekstiem no visām dokumentiem uz konkrētām lapām vai reģioniem, tas paātrina procesu ar precizitāti un ātrumu. Tas padara to par vienu no labākajiem C# PDF Extract Text bibliotēkām pieejamām.

More in this category