Aspose.PDF Text Extractor Plugin for .NET on tehokas työkalu, jonka avulla kehittäjät voivat ohjelmattisesti poistaa tekstiä PDF-tiedostoista eri muodoissa. Riippumatta siitä, tarvitsetko rakenteellista, tasaista tai raakaa tekstin, tämä plugin tarjoaa joustavia lähtömuotoja ja turhaa integrointia mihin tahansa .Net-työkulmaan.
Johdanto
Aspose.PDF Text Extractor Plugin for .NET on suunniteltu auttamaan kehittäjiä helposti poistaa tekstin sisältöä PDF-tiedostoista maksimaalisella joustavuudella. Tämä työkalu tukee useita poistoja - puhdas (formaatti), raaka (kuten) tai tasainen (puhdas) - joten se sopii erilaisiin käyttötarkoituksiin, kuten asiakirjojen muuntamiseen, tietojen kaivamiseen ja saavutettavuuden parannuksiin.
Aspose.PDF Text Extractor Plugin avainominaisuudet
Multiple Extraction -muodot- Vähennä tekstiä puhtaissa (formaattisissa), raaka- (as-is) tai tasaisessa (puhdistetussa) muodoissa tarpeisiisi.
Batch PDF käsittely- Käsittele useita PDF-tiedostoja samanaikaisesti tehokkaan työnkulun varmistamiseksi.
Yksinkertainen .NET integraatio- Integroida plugin mihin tahansa C# tai .NET-hankkeeseen helposti.
Aloita Aspose.PDF Text Extractor Plugin
- Asenna Aspose.PDF .NETilleLisää NuGetin kautta tai ladata kokoelmia .NET-ratkaisuun.
- Lisenssin määrittäminenAktivoi plugin rajoittamattomalle käsittelylle ja tuelle.
- Konfiguroida Extraction vaihtoehtojaKäytä
TextExtractor
jaTextExtractorOptions
luokat asettaa kaivamismuoto halutun mukaisesti (Pure, Raw, Plain). - Prosessi ja palauta tekstiKäynnistä tekstien poisto ja pääsy tuloksia kautta tuloksen säiliön kokoelma.
Esimerkki: Poista teksti PDF:stä (C#)
Voit poistaa tekstin yhdestä PDF-tiedostosta Aspose.PDF:n avulla seuraa tätä esimerkkiä:
using Aspose.Pdf.Plugins;
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource("C:\\Samples\\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);
Esimerkki: Batch Extract tekstiä useista PDF-tiedostoista
Useiden PDF-tiedostojen käsittelyyn käytä seuraavaa esimerkkiä:
string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}
Käytä tapauksia ja laajennuksia
- PDF to TXT Conversion: Automaattinen PDF-tiedostojen muuntaminen tasaiseen tekstiin indeksointia, hakua tai arkistointia varten.
- Data Mining: Poista taulukon tiedot, laskut tai lomakkeet jatkokäsittelyyn tai analysointiin.
- Saavutettavuus: Valmista lukematon sisältö näytön lukijoille tai vaihtoehtoisille muodoille.
- Batch-käsittely: Käytä eritysmuotoja tiettyjen alhaisen työnkulun osalta (esimerkiksi OCR: n ennalta käsittely, yksikön tunnistaminen).
Parhaat käytännöt
Valitse aina asianmukainen poisto-tila tuonnin vaatimusten perusteella. Suurille asiakirjojen kertoimille pakettiprosessointi voi maksimoida läpimurtoa ja vähentää manuaalista vaivaa. Testi poiston tulokset todellisilla PDF-tiedostoilla tietojen tarkkuuden varmistamiseksi.