
Teksto ekstrakcija iš PDF failų yra bendras reikalavimas dokumentų apdorojimo užduočių.Šiame straipsnyje pateikiamas išsamus vadovas naudojant Aspose.PDF tekstas ekstraktas Plugin efektyviam ir įvairiausiam tekstą ekstrakto C#. Nesvarbu, ar jums reikia ekstrahuoti teksto iš viso dokumento, konkrečių puslapių, arba apibrėžtų sričių, Aspose papildas palengvina aukštos kokybės PDF tekstų ekstrakta su minimaliu pastangų.
Pagrindinės Aspose.PDF teksto ekstraktoriaus plokštės savybės
- Išimti tekstą iš viso PDF
- Rašyti tekstą iš konkrečių puslapių
- Rašyti tekstą iš konkrečios srities
- Ieškoti ir ištraukti tekstą naudojant Regex
- Išimkite lentelės duomenis kaip tekstą
- Ekstraktas pabrėžtas tekstas
- Optimizuokite teksto ekstrakciją su mažu atminties naudojimu
Apžvalga Aspose.PDF teksto ekstraktoriaus papildas
Aspose.PDF teksto ekstraktoriaus priedai .NET yra tvirtas sprendimas tekstą iš PDF dokumentų. Jis yra specialiai sukurtas kūrėjams, dirbantiems su .Net taikomosiomis programomis, palaikančiomis tiek .net Framework, tiek ir .NET Core PDF tekstui.
- Pure Mode : Išgauna tekstą, išlaikydamas originalią formatuotę ir struktūrą.
- Raw režimas : Išgauna tekstą be jokios formatuotės.
- Plain Mode : Išgauna tekstą ir pašalina visus formatuojamus ir specialius simbolius.
Naudojimo privalumai Aspose.PDF
- Batch apdorojimas : vienu metu tvarkykite kelis PDF failus.
- Koreguojami nustatymai : pritaikykite ekstrakcijos nustatymus, kad atitiktų jūsų konkrečius poreikius.
- Seamless Integracija : tiesiogiai integruojama su .NET programomis sklandžiam darbo srautui.
- Greičio efektyvumas : optimizuotas greitam, tiksliam teksto ekstrakcijai su minimaliu išteklių suvartojimu.
Pradėti nuo C# PDF teksto ekstrakcijos
The Apsauga.pdf už .NET biblioteka yra visapusiškas įrankis .NET kūrėjams, ieškantiems aukštos kokybės C# PDF Extract sprendimų.
PM> Install-Package Aspose.PDF
Alternatyviai galite Atsisiųsti DLL integruoti jį tiesiogiai į jūsų projektą, teikiant patikimą C# PDF į tekstą sprendimą.
Teksto ekstrakcija iš viso PDF C#
Norėdami ištraukti visą tekstą iš PDF, sekite šiuos žingsnius:
- Parsisiųsti PDF naudojant Document ir klasės.
- Sukurkite A TextAbsorber ir objektą.
- Įdėkite absorbentą į visas puslapius.
- Išsaugokite išvestą tekstą į failą.
Pavyzdinis kodas
Teksto ekstrakcija iš specifinių puslapių PDF
Norėdami ištrinti tekstą iš vieno puslapio, naudodami C#, atlikite šiuos veiksmus:
- Atsisiųskite PDF.
- Sukurkite A TextAbsorber.
- Įdėkite absorbentą į pageidaujamą puslapį.
- Išsaugokite išgautą tekstą.
Pavyzdinis kodas
Teksto ekstrakcija iš konkrečių regionų PDF
Norėdami ištraukti tekstą iš konkrečių puslapio sričių, apibrėžkite rektangulines koordinatas.
- Atsisiųskite PDF.
- Configure TextSearchOptions Apibrėžtas regionas.
- Taikykite į TextAbsorber Ir į regioną.
- Išsaugokite išgautą tekstą.
Pavyzdinis kodas
Paieškos ir tekstų ekstrakcija naudojant Regex
Norėdami ištraukti tekstą, atitinkančią konkretų modelį, naudodamiesi reguliariais išraiškais:
- Atsisiųskite PDF.
- Apibrėžti regex modelį.
- Taikykite modelį naudojant TextAbsorber.
- Išgauti atitinkamus tekstinius fragmentus.
Pavyzdinis kodas
Išimti lentelės duomenis kaip tekstą C#
Norėdami išimti turinį iš lentelių, naudokite šiuos veiksmus:
- Atsisiųskite PDF.
- Use TableAbsorber navigacija per stalų struktūras.
- Tekstinės ląstelės išgaunamos pagal lęšį.
Pavyzdinis kodas
Pašalinti pabrėžtą tekstą PDF
Norėdami išgauti pabrėžtą tekstą:
- Atkreipkite dėmesį į anotacijas.
- Filter TextMarkupAnnotation.
- Atsisiųskite ir išsaugokite pabrėžtus fragmentus.
Pavyzdinis kodas
Teksto ekstrakcijos optimizavimas su mažo atminties naudojimu
i) Naudojant **** ir ****:
- Call
absorber.Reset()
Po kiekvieno puslapio apdorojimo. - Nemokama atmintis laikoma naudojant puslapius
page.FreeMemory()
.
2) Naudojant MemorySaving Šiuolaikinės mados:
Set TextExtractionOptions.TextFormattingMode
optimizuoti atminties naudojimą PDF teksto ekstrakcijos metu.
Pavyzdinis kodas
Nemokama C# PDF teksto ekstrakcijos biblioteka
Gaukite A Laikinosios nemokamos licencijos be apribojimų prieigą prie Aspose.PDF .NET ir atverti visą savo potencialą efektyviems **C# PDF teksto ekstrakcijos ** sprendimams. Taip pat galite ištirti galimybes, pvz., ** C# Konvertuoti PDF į Tekstą ** ir c# Skaityti tekstą iš PDF ** pritaikytoms priemonėms, įskaitant ** c# Ekstraktiškas tekstas iš „PDF ** “ ir „C # Skaitti PDF Tekstas Nemokamas.
Conclusion
Aspose.PDF „Text Extractor Plugin for .NET“ siūlo daugiafunkcinį ir efektyvų sprendimą patikimoms teksto ekstrakcijos užduotims. Iš viso dokumento į konkrečius puslapius ar regionus, jis tiksliai ir greitai supaprastina procesą. Tai yra viena iš geriausių **C# PDF Extract Text ** bibliotekų. Šiandien pabandykite paprastinti savo PDF tekstų ekstrakto darbo srautus tik 99$ !