Teksto ekstraktorius Plugin for Aspose.PDF | File Format Processing Plugins for C# .NET Core

Aspose.PDF Text Extractor Plugin for .NET“ yra galingas įrankis, leidžiantis kūrėjams programiniu būdu iš PDF dokumentų ištraukti tekstą įvairiais formatais. Nesvarbu, ar jums reikia struktūrizuoto, plokščio ar žalia teksto, šis priedas siūlo lanksčius išleidimo režimus ir beprasmišką integravimą į bet kurį „ .Net“ darbo srautą.

Introduction

Aspose.PDF Text Extractor Plugin for .NET“ yra sukurtas siekiant padėti kūrėjams lengvai ištraukti teksto turinį iš PDF failų su maksimaliu lankstumu. Šis įrankis palaiko keletą ekstrakcijos režimų – gryną (formatuotą), žalią (kaip) arba plokščią (išvalytą) – todėl tinka įvairiems naudojimo atvejams, pavyzdžiui, dokumentų konvertavimui, duomenų šalinimui ir prieinamumo patobulinimams.

Aspose.PDF Teksto ekstraktorius Pluginas Pagrindinės funkcijos

Daugiafunkcinis ekstrakcijos režimas- Išimkite tekstą grynoje (formatuotoje), žalia (as-is) arba plokščioje (švartoje) formatu, kad atitiktų jūsų poreikius.
Batch PDF apdorojimas- Perdirbti kelis PDF failus vienu metu efektyvaus darbo srauto.
Paprasta .NET integracija- Pluginą lengvai integruokite į bet kurį C# arba .NET projektą.

Pradėti su Aspose.PDF teksto ekstraktorius Plugin

Įdiegti Aspose.PDF .NETPridėti per NuGet arba atsisiųsti rinkinį į savo .NET sprendimą.
Įveskite savo licencijąĮjungti “plugin” už neribotą apdorojimą ir palaikymą.
Konfiguruoti ekstrakcijos parinktisUse TextExtractor ir TextExtractorOptions klasės nustatyti ekstrakcijos režimą, kaip pageidaujama (tinkama, žalia, plokščia).
Procesas ir atkurti tekstąAtlikite teksto ekstrakciją ir prieigą prie rezultatų per rezultato konteinerio kolekciją.

Pavyzdys: teksto ekstraktas iš PDF (C#)

Norėdami išgauti tekstą iš vieno PDF failo naudojant Aspose.PDF, sekite šį pavyzdį:

using Aspose.Pdf.Plugins;

var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource("C:\\Samples\\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);

Pavyzdys: Batch ekstraktas tekstas iš kelių PDF

Jei norite apdoroti kelis PDF failus, naudokite šį pavyzdį:

string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}

Naudokite atvejus ir išplėtimus

PDF į TXT konvertavimas: Automatiškai konvertuoti PDF į paprastą tekstą indeksavimo, paieškos ar archyvavimo tikslais.
Data Mining: Išimkite lentelės duomenis, sąskaitas ar formas tolesniam apdorojimui ar analizei.
Prieinamumas: Paruoškite skaityti turinį ekrano skaitytojams arba alternatyviems formatams.
Batch apdorojimas: Naudokite ekstrakcijos režimus tam tikriems nuotolinio darbo srauto srautams (pavyzdžiui, „OCR“ išankstinio apdirbimo, subjekto atpažinimo).

Geriausios praktikos

Visada pasirinkite tinkamą ekstrakcijos režimą, atsižvelgiant į jūsų išleidimo reikalavimus. dideliems dokumentų rinkiniams, batch apdorojimas gali maksimaliai padidinti perdavimą ir sumažinti rankinius pastangas.

Introduction#

Aspose.PDF Teksto ekstraktorius Pluginas Pagrindinės funkcijos#

Pradėti su Aspose.PDF teksto ekstraktorius Plugin#

Pavyzdys: teksto ekstraktas iš PDF (C#)#

Pavyzdys: Batch ekstraktas tekstas iš kelių PDF#

Naudokite atvejus ir išplėtimus#

Geriausios praktikos#

More in this category