Aspose.PDF Text Extractor Plugin for .NET је моћан алат који омогућава програмерима да програматски извлаче текст из ПДФ докумената у различитим форматима. Без обзира да ли вам је потребан структурирани, равни или сирови текст, овај плугин нуди флексибилне режиме излаза и беспрекорно интегрисање у било који радни ток .НЕТ-а.

Увод

Aspose.PDF Text Extractor Plugin for .NET је дизајниран да помаже програмерима да лако екстрактирају текстуални садржај из ПДФ датотека са максималном флексибилности. Овај алат подржава више режима извлачења - чиста (форматирана), сировина (како је), или равна (чиста) - што га чини погодном за различите употребе као што су конверзија докумената, рударство података и побољшања приступачности.

Aspose.PDF Текст Екстрактор Плугин Кључне карактеристике

  • Мултифункционални режими екстракције- Екстрактирајте текст у чистим (форматисаним), сировима (ас-ис) или равним (чистима) форматима како би одговарали вашим потребама.

  • Бацх ПДФ обрада- Procesiranje više PDF datoteka istovremeno za efikasne tokove rada.

  • Једноставна интеграција .NET- Интегрирајте плугин у било који Ц # или .НЕТ пројекат лако.

Početak sa Aspose.PDF Text Extractor Plugin

  • Инсталирајте Aspose.PDF за .NETДодајте преко NuGet или преузимање скупљања у вашем .NET решењу.
  • Конфигуришите своју лиценцуАктивирајте плагин за неограничену обраду и подршку.
  • Конфигурисање опција за екстракцијуКоришћење TextExtractor и TextExtractorOptions класе за постављање режима екстракције као што је пожељно (чиста, сива, равна).
  • Процес и повраћање текстаИзводите текстуалну екстракцију и приступ резултатима кроз колекцију контејнера резултата.

Пример: Екстракт текста из ПДФ-а (Ц#)

Да бисте извукли текст из једног ПДФ датотеке користећи Aspose.PDF, пратите овај пример:

using Aspose.Pdf.Plugins;

var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource("C:\\Samples\\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);

Пример: Батцх Екстракт текст из више ПДФ-а

За бацх обраду више ПДФ датотека, користите следећи пример:

string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}

Коришћење случајева и проширења

  • PDF to TXT Conversion: Аутоматска конверзија ПДФ-а у равни текст за индексирање, претрагу или архивирање.
  • Датотеке рударство: Екстрактирајте табелне податке, рачуне или обрасци за даљу обраду или анализу.
  • Доступност: Припремите читави садржај за читаоце екрана или за алтернативне формати.
  • Batch Processing: Koristite načine ekstrakcije za određene radne tokove (na primer, OCR pre-procesiranje, prepoznavanje subjekta).

Најбоља пракса

Увек изаберите одговарајући режим екстракције на основу ваших захтева за производњу. за велике сете докумената, обрада баццх-а може максимизирати проток и минимизирати ручну напор. Резултати тестирања са реалним ПДФ-ом како би се осигурала тачност података.

More in this category