Teksti Extractor Plugin for Aspose.PDF | File Format Processing Plugins for C# .NET Core

Aspose.PDF Text Extractor Plugin for .NET on tehokas työkalu, jonka avulla kehittäjät voivat ohjelmattisesti poistaa tekstiä PDF-tiedostoista eri muodoissa. Riippumatta siitä, tarvitsetko rakenteellista, tasaista tai raakaa tekstin, tämä plugin tarjoaa joustavia lähtömuotoja ja turhaa integrointia mihin tahansa .Net-työkulmaan.

Johdanto

Aspose.PDF Text Extractor Plugin for .NET on suunniteltu auttamaan kehittäjiä helposti poistaa tekstin sisältöä PDF-tiedostoista maksimaalisella joustavuudella. Tämä työkalu tukee useita poistoja - puhdas (formaatti), raaka (kuten) tai tasainen (puhdas) - joten se sopii erilaisiin käyttötarkoituksiin, kuten asiakirjojen muuntamiseen, tietojen kaivamiseen ja saavutettavuuden parannuksiin.

Aspose.PDF Text Extractor Plugin avainominaisuudet

Multiple Extraction -muodot- Vähennä tekstiä puhtaissa (formaattisissa), raaka- (as-is) tai tasaisessa (puhdistetussa) muodoissa tarpeisiisi.
Batch PDF käsittely- Käsittele useita PDF-tiedostoja samanaikaisesti tehokkaan työnkulun varmistamiseksi.
Yksinkertainen .NET integraatio- Integroida plugin mihin tahansa C# tai .NET-hankkeeseen helposti.

Aloita Aspose.PDF Text Extractor Plugin

Asenna Aspose.PDF .NETilleLisää NuGetin kautta tai ladata kokoelmia .NET-ratkaisuun.
Lisenssin määrittäminenAktivoi plugin rajoittamattomalle käsittelylle ja tuelle.
Konfiguroida Extraction vaihtoehtojaKäytä TextExtractor ja TextExtractorOptions luokat asettaa kaivamismuoto halutun mukaisesti (Pure, Raw, Plain).
Prosessi ja palauta tekstiKäynnistä tekstien poisto ja pääsy tuloksia kautta tuloksen säiliön kokoelma.

Esimerkki: Poista teksti PDF:stä (C#)

Voit poistaa tekstin yhdestä PDF-tiedostosta Aspose.PDF:n avulla seuraa tätä esimerkkiä:

using Aspose.Pdf.Plugins;

var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource("C:\\Samples\\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);

Esimerkki: Batch Extract tekstiä useista PDF-tiedostoista

Useiden PDF-tiedostojen käsittelyyn käytä seuraavaa esimerkkiä:

string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}

Käytä tapauksia ja laajennuksia

PDF to TXT Conversion: Automaattinen PDF-tiedostojen muuntaminen tasaiseen tekstiin indeksointia, hakua tai arkistointia varten.
Data Mining: Poista taulukon tiedot, laskut tai lomakkeet jatkokäsittelyyn tai analysointiin.
Saavutettavuus: Valmista lukematon sisältö näytön lukijoille tai vaihtoehtoisille muodoille.
Batch-käsittely: Käytä eritysmuotoja tiettyjen alhaisen työnkulun osalta (esimerkiksi OCR: n ennalta käsittely, yksikön tunnistaminen).

Parhaat käytännöt

Valitse aina asianmukainen poisto-tila tuonnin vaatimusten perusteella. Suurille asiakirjojen kertoimille pakettiprosessointi voi maksimoida läpimurtoa ja vähentää manuaalista vaivaa. Testi poiston tulokset todellisilla PDF-tiedostoilla tietojen tarkkuuden varmistamiseksi.

Johdanto#

Aspose.PDF Text Extractor Plugin avainominaisuudet#

Aloita Aspose.PDF Text Extractor Plugin#

Esimerkki: Poista teksti PDF:stä (C#)#

Esimerkki: Batch Extract tekstiä useista PDF-tiedostoista#

Käytä tapauksia ja laajennuksia#

Parhaat käytännöt#

More in this category