Текст Екстрактор Плугин за Aspose.PDF | File Format Processing Plugins for C# .NET Core

Aspose.PDF Text Extractor Plugin for .NET је моћан алат који омогућава програмерима да програматски извлаче текст из ПДФ докумената у различитим форматима. Без обзира да ли вам је потребан структурирани, равни или сирови текст, овај плугин нуди флексибилне режиме излаза и беспрекорно интегрисање у било који радни ток .НЕТ-а.

Увод

Aspose.PDF Text Extractor Plugin for .NET је дизајниран да помаже програмерима да лако екстрактирају текстуални садржај из ПДФ датотека са максималном флексибилности. Овај алат подржава више режима извлачења - чиста (форматирана), сировина (како је), или равна (чиста) - што га чини погодном за различите употребе као што су конверзија докумената, рударство података и побољшања приступачности.

Aspose.PDF Текст Екстрактор Плугин Кључне карактеристике

Мултифункционални режими екстракције- Екстрактирајте текст у чистим (форматисаним), сировима (ас-ис) или равним (чистима) форматима како би одговарали вашим потребама.
Бацх ПДФ обрада- Procesiranje više PDF datoteka istovremeno za efikasne tokove rada.
Једноставна интеграција .NET- Интегрирајте плугин у било који Ц # или .НЕТ пројекат лако.

Početak sa Aspose.PDF Text Extractor Plugin

Инсталирајте Aspose.PDF за .NETДодајте преко NuGet или преузимање скупљања у вашем .NET решењу.
Конфигуришите своју лиценцуАктивирајте плагин за неограничену обраду и подршку.
Конфигурисање опција за екстракцијуКоришћење TextExtractor и TextExtractorOptions класе за постављање режима екстракције као што је пожељно (чиста, сива, равна).
Процес и повраћање текстаИзводите текстуалну екстракцију и приступ резултатима кроз колекцију контејнера резултата.

Пример: Екстракт текста из ПДФ-а (Ц#)

Да бисте извукли текст из једног ПДФ датотеке користећи Aspose.PDF, пратите овај пример:

using Aspose.Pdf.Plugins;

var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource("C:\\Samples\\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);

Пример: Батцх Екстракт текст из више ПДФ-а

За бацх обраду више ПДФ датотека, користите следећи пример:

string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}

Коришћење случајева и проширења

PDF to TXT Conversion: Аутоматска конверзија ПДФ-а у равни текст за индексирање, претрагу или архивирање.
Датотеке рударство: Екстрактирајте табелне податке, рачуне или обрасци за даљу обраду или анализу.
Доступност: Припремите читави садржај за читаоце екрана или за алтернативне формати.
Batch Processing: Koristite načine ekstrakcije za određene radne tokove (na primer, OCR pre-procesiranje, prepoznavanje subjekta).

Најбоља пракса

Увек изаберите одговарајући режим екстракције на основу ваших захтева за производњу. за велике сете докумената, обрада баццх-а може максимизирати проток и минимизирати ручну напор. Резултати тестирања са реалним ПДФ-ом како би се осигурала тачност података.

Увод#

Aspose.PDF Текст Екстрактор Плугин Кључне карактеристике#

Početak sa Aspose.PDF Text Extractor Plugin#

Пример: Екстракт текста из ПДФ-а (Ц#)#

Пример: Батцх Екстракт текст из више ПДФ-а#

Коришћење случајева и проширења#

Најбоља пракса#

More in this category