„Aspose.PDF Text Extractor Plugin for .NET“ yra galingas įrankis, leidžiantis kūrėjams programiniu būdu iš PDF dokumentų ištraukti tekstą įvairiais formatais. Nesvarbu, ar jums reikia struktūrizuoto, plokščio ar žalia teksto, šis priedas siūlo lanksčius išleidimo režimus ir beprasmišką integravimą į bet kurį „ .Net“ darbo srautą.

Introduction

„Aspose.PDF Text Extractor Plugin for .NET“ yra sukurtas siekiant padėti kūrėjams lengvai ištraukti teksto turinį iš PDF failų su maksimaliu lankstumu. Šis įrankis palaiko keletą ekstrakcijos režimų – gryną (formatuotą), žalią (kaip) arba plokščią (išvalytą) – todėl tinka įvairiems naudojimo atvejams, pavyzdžiui, dokumentų konvertavimui, duomenų šalinimui ir prieinamumo patobulinimams.

Aspose.PDF Teksto ekstraktorius Pluginas Pagrindinės funkcijos

    • Daugiafunkcinis ekstrakcijos režimas*- Išimkite tekstą grynoje (formatuotoje), žalia (as-is) arba plokščioje (švartoje) formatu, kad atitiktų jūsų poreikius.
  • Batch PDF apdorojimas- Perdirbti kelis PDF failus vienu metu efektyvaus darbo srauto.

    • Paprasta .NET integracija*- Pluginą lengvai integruokite į bet kurį C# arba .NET projektą.

Pradėti su Aspose.PDF teksto ekstraktorius Plugin

  • ** Įdiegti Aspose.PDF .NET**Pridėti per NuGet arba atsisiųsti rinkinį į savo .NET sprendimą.
    • Įveskite savo licenciją*Įjungti “plugin” už neribotą apdorojimą ir palaikymą.
  • Konfiguruoti ekstrakcijos parinktisUse TextExtractor ir TextExtractorOptions klasės nustatyti ekstrakcijos režimą, kaip pageidaujama (tinkama, žalia, plokščia).
  • ** Procesas ir atkurti tekstą**Atlikite teksto ekstrakciją ir prieigą prie rezultatų per rezultato konteinerio kolekciją.

Pavyzdys: teksto ekstraktas iš PDF (C#)

Norėdami išgauti tekstą iš vieno PDF failo naudojant Aspose.PDF, sekite šį pavyzdį:

using Aspose.Pdf.Plugins;

var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource("C:\\Samples\\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);

Pavyzdys: Batch ekstraktas tekstas iš kelių PDF

Jei norite apdoroti kelis PDF failus, naudokite šį pavyzdį:

string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}

Naudokite atvejus ir išplėtimus

  • PDF į TXT konvertavimas: Automatiškai konvertuoti PDF į paprastą tekstą indeksavimo, paieškos ar archyvavimo tikslais.
  • Data Mining: Išimkite lentelės duomenis, sąskaitas ar formas tolesniam apdorojimui ar analizei.
  • ** Prieinamumas:** Paruoškite skaityti turinį ekrano skaitytojams arba alternatyviems formatams.
  • Batch apdorojimas: Naudokite ekstrakcijos režimus tam tikriems nuotolinio darbo srauto srautams (pavyzdžiui, „OCR“ išankstinio apdirbimo, subjekto atpažinimo).

Geriausios praktikos

Visada pasirinkite tinkamą ekstrakcijos režimą, atsižvelgiant į jūsų išleidimo reikalavimus. dideliems dokumentų rinkiniams, batch apdorojimas gali maksimaliai padidinti perdavimą ir sumažinti rankinius pastangas.

More in this category