Kaip ištraukti tekstą iš PDF į C# Aspose.PDF teksto ekstraktoriaus priedą | File Format Processing Plugins for C# .NET Core

Teksto ekstrakcija iš PDF failų yra bendras reikalavimas dokumentų apdorojimo užduočių.Šiame straipsnyje pateikiamas išsamus vadovas naudojant Aspose.PDF tekstas ekstraktas Plugin efektyviam ir įvairiausiam tekstą ekstrakto C#. Nesvarbu, ar jums reikia ekstrahuoti teksto iš viso dokumento, konkrečių puslapių, arba apibrėžtų sričių, Aspose papildas palengvina aukštos kokybės PDF tekstų ekstrakta su minimaliu pastangų.

Pagrindinės Aspose.PDF teksto ekstraktoriaus plokštės savybės

Apžvalga Aspose.PDF teksto ekstraktoriaus papildas

Aspose.PDF teksto ekstraktoriaus priedai .NET yra tvirtas sprendimas tekstą iš PDF dokumentų. Jis yra specialiai sukurtas kūrėjams, dirbantiems su .Net taikomosiomis programomis, palaikančiomis tiek .net Framework, tiek ir .NET Core PDF tekstui:

Pure Mode : Išgauna tekstą, išlaikydamas originalią formatuotę ir struktūrą.
Raw režimas : Išgauna tekstą be jokios formatuotės.
Plain Mode : Išgauna tekstą ir pašalina visus formatuojamus ir specialius simbolius.

Naudojimo privalumai Aspose.PDF

Batch apdorojimas : vienu metu tvarkykite kelis PDF failus.
Koreguojami nustatymai : pritaikykite ekstrakcijos nustatymus, kad atitiktų jūsų konkrečius poreikius.
Seamless Integracija : tiesiogiai integruojama su .NET programomis sklandžiam darbo srautui.
Greičio efektyvumas : optimizuotas greitam, tiksliam teksto ekstrakcijai su minimaliu išteklių suvartojimu.

Pradėti nuo C# PDF teksto ekstrakcijos

The Apsauga.pdf už .NET biblioteka yra visapusiškas įrankis .NET kūrėjams, ieškantiems aukštos kokybės C# PDF Extract sprendimų:

PM> Install-Package Aspose.PDF

Alternatyviai galite Atsisiųsti DLL integruoti jį tiesiogiai į jūsų projektą, teikiant patikimą C# PDF į tekstą sprendimą.

Teksto ekstrakcija iš viso PDF C#

Norėdami ištraukti visą tekstą iš PDF, sekite šiuos žingsnius:

Parsisiųsti PDF naudojant Document ir klasės.
Sukurkite A TextAbsorber ir objektą.
Įdėkite absorbentą į visas puslapius.
Išsaugokite išvestą tekstą į failą.

Pavyzdinis kodas

Teksto ekstrakcija iš specifinių puslapių PDF

Norėdami ištrinti tekstą iš vieno puslapio, naudodami C#, atlikite šiuos veiksmus:

Atsisiųskite PDF.
Sukurkite A TextAbsorber.
Įdėkite absorbentą į pageidaujamą puslapį.
Išsaugokite išgautą tekstą.

Pavyzdinis kodas

Teksto ekstrakcija iš konkrečių regionų PDF

Norėdami ištraukti tekstą iš konkrečių puslapio sričių, apibrėžkite rektangulines koordinatas:

Atsisiųskite PDF.
Configure TextSearchOptions Apibrėžtas regionas.
Taikykite į TextAbsorber Ir į regioną.
Išsaugokite išgautą tekstą.

Pavyzdinis kodas

Paieškos ir tekstų ekstrakcija naudojant Regex

Norėdami ištraukti tekstą, atitinkančią konkretų modelį, naudodamiesi reguliariais išraiškais:

Atsisiųskite PDF.
Apibrėžti regex modelį.
Taikykite modelį naudojant TextAbsorber.
Išgauti atitinkamus tekstinius fragmentus.

Pavyzdinis kodas

Išimti lentelės duomenis kaip tekstą C#

Norėdami išimti turinį iš lentelių, naudokite šiuos veiksmus:

Atsisiųskite PDF.
Use TableAbsorber navigacija per stalų struktūras.
Tekstinės ląstelės išgaunamos pagal lęšį.

Pavyzdinis kodas

Pašalinti pabrėžtą tekstą PDF

Norėdami išgauti pabrėžtą tekstą:

Atkreipkite dėmesį į anotacijas.
Filter TextMarkupAnnotation.
Atsisiųskite ir išsaugokite pabrėžtus fragmentus.

Pavyzdinis kodas

Teksto ekstrakcijos optimizavimas su mažo atminties naudojimu

i) Naudojant ir :

Call absorber.Reset() Po kiekvieno puslapio apdorojimo.
Nemokama atmintis laikoma naudojant puslapius page.FreeMemory().

2) Naudojant MemorySaving Šiuolaikinės mados:

Set TextExtractionOptions.TextFormattingMode optimizuoti atminties naudojimą PDF teksto ekstrakcijos metu.

Pavyzdinis kodas

Nemokama C# PDF teksto ekstrakcijos biblioteka

Gaukite A Laikinosios nemokamos licencijos be apribojimų prieigą prie Aspose.PDF .NET ir atverti visą savo potencialą efektyviems C# PDF teksto ekstrakcijos sprendimams. Taip pat galite ištirti galimybes, pvz., C# Konvertuoti PDF į Tekstą ir c# Skaityti tekstą iš PDF pritaikytoms priemonėms, įskaitant c# Ekstraktiškas tekstas iš „PDF “ ir „C # Skaitti PDF Tekstas Nemokamas.

Conclusion

Aspose.PDF „Text Extractor Plugin for .NET“ siūlo daugiafunkcinį ir efektyvų sprendimą patikimoms teksto ekstrakcijos užduotims. Iš viso dokumento į konkrečius puslapius ar regionus, jis tiksliai ir greitai supaprastina procesą. Tai yra viena iš geriausių **C# PDF Extract Text ** bibliotekų. Šiandien pabandykite paprastinti savo PDF tekstų ekstrakto darbo srautus tik 99!

Pagrindinės Aspose.PDF teksto ekstraktoriaus plokštės savybės#

Apžvalga Aspose.PDF teksto ekstraktoriaus papildas#

Naudojimo privalumai Aspose.PDF#

Pradėti nuo C# PDF teksto ekstrakcijos#

Teksto ekstrakcija iš viso PDF C##

Pavyzdinis kodas#

Teksto ekstrakcija iš specifinių puslapių PDF#

Pavyzdinis kodas#

Teksto ekstrakcija iš konkrečių regionų PDF#

Pavyzdinis kodas#

Paieškos ir tekstų ekstrakcija naudojant Regex#

Pavyzdinis kodas#

Išimti lentelės duomenis kaip tekstą C##

Pavyzdinis kodas#

Pašalinti pabrėžtą tekstą PDF#

Pavyzdinis kodas#

Teksto ekstrakcijos optimizavimas su mažo atminties naudojimu#

i) Naudojant **** ir ****:#

2) Naudojant MemorySaving Šiuolaikinės mados:#

Pavyzdinis kodas#

Nemokama C# PDF teksto ekstrakcijos biblioteka#

Conclusion#

More in this category

Pagrindinės Aspose.PDF teksto ekstraktoriaus plokštės savybės

Apžvalga Aspose.PDF teksto ekstraktoriaus papildas

Naudojimo privalumai Aspose.PDF

Pradėti nuo C# PDF teksto ekstrakcijos

Teksto ekstrakcija iš viso PDF C#

Pavyzdinis kodas

Teksto ekstrakcija iš specifinių puslapių PDF

Pavyzdinis kodas

Teksto ekstrakcija iš konkrečių regionų PDF

Pavyzdinis kodas

Paieškos ir tekstų ekstrakcija naudojant Regex

Pavyzdinis kodas

Išimti lentelės duomenis kaip tekstą C#

Pavyzdinis kodas

Pašalinti pabrėžtą tekstą PDF

Pavyzdinis kodas

Teksto ekstrakcijos optimizavimas su mažo atminties naudojimu

i) Naudojant ir :

2) Naudojant MemorySaving Šiuolaikinės mados:

Pavyzdinis kodas

Nemokama C# PDF teksto ekstrakcijos biblioteka

Conclusion