Aspose.PDF Text Extractor Plugin برای .NET یک ابزار قدرتمند است که به توسعه دهندگان اجازه می دهد تا به طور برنامه نویسی متن را از اسناد PDF در فرمت های مختلف استخراج کنند.اگر شما نیاز به ساختار، صاف یا متن خام دارید، این پلاگین حالت های خروجی انعطاف پذیر و ادغام بی سیم در هر جریان کاری .Net را فراهم می کند.

معرفی

Aspose.PDF Text Extractor Plugin برای .NET طراحی شده است تا به توسعه دهندگان کمک کند به راحتی محتوای متن را از فایل های PDF با حداکثر انعطاف پذیری استخراج کنند.این ابزار از چندین حالت تخلیه پشتیبانی می کند - خالص (فرمت شده)، خام (به عنوان) یا صاف (خالص) - آن را برای موارد مختلف استفاده مانند تبدیل اسناد، معدن داده ها و بهبود در دسترس بودن مناسب می سازد.

Aspose.PDF Text Extractor Plugin ویژگی های کلیدی

  • روش های چندگانه استخراج- متن را در فرمت های خالص (فرمت شده)، خام (به عنوان) یا صاف (خالص) استخراج کنید تا نیازهای شما را برآورده کند.

  • پردازش فایل های PDF- پردازش چندین فایل PDF به طور همزمان برای جریان کار موثر.

  • تجزیه و تحلیل .NET- این پلاگین را به راحتی در هر پروژه C# یا .NET ادغام کنید.

شروع با Aspose.PDF Text Extractor Plugin

  • تولید Aspose.PDF برای .NETاضافه کردن از طریق NuGet یا دانلود مجموعه ها به راه حل .NET خود را.
  • مجوز خود را تنظیم کنیدپلاگین را برای پردازش و پشتیبانی نامحدود فعال کنید.
  • گزینه های استخراج را تنظیم کنیداستفاده TextExtractor و TextExtractorOptions کلاس ها برای تنظیم حالت استخراج به عنوان مورد نظر (خالص، خام، صاف).
  • مطالعه و بازگرداندن متننتایج استخراج متن و دسترسی را از طریق مجموعه کانتینر نتایج اجرا کنید.

مثال: استخراج متن از یک PDF (C#)

برای استخراج متن از یک فایل PDF با استفاده از Aspose.PDF، این مثال را دنبال کنید:

using Aspose.Pdf.Plugins;

var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource("C:\\Samples\\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);

مثال: Batch استخراج متن از PDF های متعدد

برای پردازش مجموعه ای از فایل های PDF چندگانه، از مثال زیر استفاده کنید:

string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}

استفاده از موارد و افزونه ها

  • PDF به TXT تبدیل: تبدیل اتوماتیک از PDF ها به متن صاف برای فهرست، جستجو، یا آرشیو.
  • مخازن داده ها: داده های جدول، صورتحساب ها یا فرم ها را برای پردازش یا تجزیه و تحلیل بیشتر استخراج کنید.
  • در دسترس بودن: محتوای قابل خواندن را برای خوانندگان صفحه نمایش یا فرمت های جایگزین آماده کنید.
  • Batch Processing: استفاده از حالت های استخراج برای جریان های کاری پایین خاص (به عنوان مثال، پیش پردازش OCR، شناسایی واحد).

بهترین شیوه‌ها

همیشه حالت استخراج مناسب را بر اساس نیازهای خروجی خود انتخاب کنید.برای مجموعه های بزرگ اسناد، پردازش بسته می تواند حداکثر پهنای باند را افزایش دهد و تلاش دستی را به حداقل برساند.تصمیم گیری نتایج با PDF های دنیای واقعی برای اطمینان از دقت داده ها.

More in this category