Extract Text from PDF C#

Teksto ekstrakcija iš PDF failų yra bendras reikalavimas dokumentų apdorojimo užduočių.Šiame straipsnyje pateikiamas išsamus vadovas naudojant Aspose.PDF tekstas ekstraktas Plugin efektyviam ir įvairiausiam tekstą ekstrakto C#. Nesvarbu, ar jums reikia ekstrahuoti teksto iš viso dokumento, konkrečių puslapių, arba apibrėžtų sričių, Aspose papildas palengvina aukštos kokybės PDF tekstų ekstrakta su minimaliu pastangų.

Pagrindinės Aspose.PDF teksto ekstraktoriaus plokštės savybės

Apžvalga Aspose.PDF teksto ekstraktoriaus papildas

Aspose.PDF teksto ekstraktoriaus priedai .NET yra tvirtas sprendimas tekstą iš PDF dokumentų. Jis yra specialiai sukurtas kūrėjams, dirbantiems su .Net taikomosiomis programomis, palaikančiomis tiek .net Framework, tiek ir .NET Core PDF tekstui.

  • Pure Mode : Išgauna tekstą, išlaikydamas originalią formatuotę ir struktūrą.
  • Raw režimas : Išgauna tekstą be jokios formatuotės.
  • Plain Mode : Išgauna tekstą ir pašalina visus formatuojamus ir specialius simbolius.

Naudojimo privalumai Aspose.PDF

  • Batch apdorojimas : vienu metu tvarkykite kelis PDF failus.
  • Koreguojami nustatymai : pritaikykite ekstrakcijos nustatymus, kad atitiktų jūsų konkrečius poreikius.
  • Seamless Integracija : tiesiogiai integruojama su .NET programomis sklandžiam darbo srautui.
  • Greičio efektyvumas : optimizuotas greitam, tiksliam teksto ekstrakcijai su minimaliu išteklių suvartojimu.

Pradėti nuo C# PDF teksto ekstrakcijos

The Apsauga.pdf už .NET biblioteka yra visapusiškas įrankis .NET kūrėjams, ieškantiems aukštos kokybės C# PDF Extract sprendimų.

PM> Install-Package Aspose.PDF

Alternatyviai galite Atsisiųsti DLL integruoti jį tiesiogiai į jūsų projektą, teikiant patikimą C# PDF į tekstą sprendimą.

Teksto ekstrakcija iš viso PDF C#

Norėdami ištraukti visą tekstą iš PDF, sekite šiuos žingsnius:

  • Parsisiųsti PDF naudojant Document ir klasės.
  • Sukurkite A TextAbsorber ir objektą.
  • Įdėkite absorbentą į visas puslapius.
  • Išsaugokite išvestą tekstą į failą.

Pavyzdinis kodas

Teksto ekstrakcija iš specifinių puslapių PDF

Norėdami ištrinti tekstą iš vieno puslapio, naudodami C#, atlikite šiuos veiksmus:

  • Atsisiųskite PDF.
  • Sukurkite A TextAbsorber.
  • Įdėkite absorbentą į pageidaujamą puslapį.
  • Išsaugokite išgautą tekstą.

Pavyzdinis kodas

Teksto ekstrakcija iš konkrečių regionų PDF

Norėdami ištraukti tekstą iš konkrečių puslapio sričių, apibrėžkite rektangulines koordinatas.

Pavyzdinis kodas

Paieškos ir tekstų ekstrakcija naudojant Regex

Norėdami ištraukti tekstą, atitinkančią konkretų modelį, naudodamiesi reguliariais išraiškais:

  • Atsisiųskite PDF.
  • Apibrėžti regex modelį.
  • Taikykite modelį naudojant TextAbsorber.
  • Išgauti atitinkamus tekstinius fragmentus.

Pavyzdinis kodas

Išimti lentelės duomenis kaip tekstą C#

Norėdami išimti turinį iš lentelių, naudokite šiuos veiksmus:

  • Atsisiųskite PDF.
  • Use TableAbsorber navigacija per stalų struktūras.
  • Tekstinės ląstelės išgaunamos pagal lęšį.

Pavyzdinis kodas

Pašalinti pabrėžtą tekstą PDF

Norėdami išgauti pabrėžtą tekstą:

  • Atkreipkite dėmesį į anotacijas.
  • Filter TextMarkupAnnotation.
  • Atsisiųskite ir išsaugokite pabrėžtus fragmentus.

Pavyzdinis kodas

Teksto ekstrakcijos optimizavimas su mažo atminties naudojimu

i) Naudojant **** ir ****:

  • Call absorber.Reset() Po kiekvieno puslapio apdorojimo.
  • Nemokama atmintis laikoma naudojant puslapius page.FreeMemory().

2) Naudojant MemorySaving Šiuolaikinės mados:

Set TextExtractionOptions.TextFormattingMode optimizuoti atminties naudojimą PDF teksto ekstrakcijos metu.

Pavyzdinis kodas

Nemokama C# PDF teksto ekstrakcijos biblioteka

Gaukite A Laikinosios nemokamos licencijos be apribojimų prieigą prie Aspose.PDF .NET ir atverti visą savo potencialą efektyviems **C# PDF teksto ekstrakcijos ** sprendimams. Taip pat galite ištirti galimybes, pvz., ** C# Konvertuoti PDF į Tekstą ** ir c# Skaityti tekstą iš PDF ** pritaikytoms priemonėms, įskaitant ** c# Ekstraktiškas tekstas iš „PDF ** “ ir „C # Skaitti PDF Tekstas Nemokamas.

Conclusion

Aspose.PDF „Text Extractor Plugin for .NET“ siūlo daugiafunkcinį ir efektyvų sprendimą patikimoms teksto ekstrakcijos užduotims. Iš viso dokumento į konkrečius puslapius ar regionus, jis tiksliai ir greitai supaprastina procesą. Tai yra viena iš geriausių **C# PDF Extract Text ** bibliotekų. Šiandien pabandykite paprastinti savo PDF tekstų ekstrakto darbo srautus tik 99$ !

More in this category