Extract Text from PDF C#

استخراج متن از فایل‌های PDF یک نیاز رایج در وظایف پردازش اسناد است. این مقاله یک راهنمای جامع در مورد استفاده از پلاگین استخراج متن Aspose.PDF برای استخراج متن کارآمد و چندمنظوره در C# ارائه می‌دهد. چه به استخراج متن از یک سند کامل، صفحات خاص یا مناطق تعریف شده نیاز داشته باشید، پلاگین Aspose استخراج متن PDF با عملکرد بالا و حداقل تلاش را تسهیل می‌کند.


ویژگی‌های پوشش داده شده


معرفی پلاگین استخراج متن Aspose.PDF

پلاگین استخراج متن Aspose.PDF برای .NET یک راه‌حل قابل اعتماد برای استخراج متن از اسناد PDF است. این پلاگین به‌طور خاص برای توسعه‌دهندگانی که با برنامه‌های .NET کار می‌کنند طراحی شده و از استخراج متن PDF در هر دو .NET Framework و .NET Core پشتیبانی می‌کند. این پلاگین سه حالت عملیاتی را ارائه می‌دهد:

  1. حالت خالص: متن را استخراج می‌کند در حالی که فرمت و ساختار اصلی را حفظ می‌کند.
  2. حالت خام: متن را بدون فرمت استخراج می‌کند.
  3. حالت ساده: متن را استخراج می‌کند و فرمت و کاراکترهای خاص را حذف می‌کند.

مزایا

  • از پردازش دسته‌ای برای چندین PDF پشتیبانی می‌کند.
  • تنظیمات استخراج قابل تنظیم برای رفع نیازهای خاص ارائه می‌دهد.
  • یکپارچه‌سازی مستقیم با برنامه‌های .NET اطمینان از جریان‌های کاری بدون درز را فراهم می‌کند.
  • بهینه‌سازی شده برای استخراج متن با سرعت بالا و دقت با حداقل استفاده از منابع.

کتابخانه استخراج متن PDF در C#

کتابخانه Aspose.PDF برای .NET یک ابزار جامع برای توسعه‌دهندگان .NET است که به دنبال استخراج متن PDF با عملکرد بالا در C# هستند. شما می‌توانید به راحتی آن را از طریق NuGet نصب کنید:

PM> Install-Package Aspose.PDF

به‌علاوه، می‌توانید DLL را دانلود کنید تا آن را به‌طور مستقیم در پروژه خود ادغام کنید و یک راه‌حل قابل اعتماد برای استخراج متن PDF در C# فراهم کنید.


استخراج متن از یک PDF کامل در C#

برای استخراج تمام متن از یک PDF، مراحل زیر را دنبال کنید:

  1. PDF را با استفاده از کلاس Document بارگذاری کنید.
  2. یک شیء TextAbsorber ایجاد کنید.
  3. جاذب را به تمام صفحات اعمال کنید.
  4. متن استخراج شده را در یک فایل ذخیره کنید.

کد نمونه


استخراج متن از صفحات خاص در PDF

برای استخراج متن از یک صفحه واحد:

  1. PDF را بارگذاری کنید.
  2. یک TextAbsorber ایجاد کنید.
  3. جاذب را به صفحه مورد نظر اعمال کنید.
  4. متن استخراج شده را ذخیره کنید.

کد نمونه


استخراج متن از مناطق خاص در PDF

استخراج متن از مناطق خاص یک صفحه شامل تعریف مختصات مستطیلی است. مراحل شامل:

  1. PDF را بارگذاری کنید.
  2. TextSearchOptions را برای منطقه تعریف شده پیکربندی کنید.
  3. TextAbsorber را به منطقه اعمال کنید.
  4. متن استخراج شده را ذخیره کنید.

کد نمونه


جستجو و استخراج متن با استفاده از Regex

برای استخراج متن مطابق با یک الگوی خاص با استفاده از عبارات منظم:

  1. PDF را بارگذاری کنید.
  2. یک الگوی regex تعریف کنید.
  3. الگو را با استفاده از TextAbsorber اعمال کنید.
  4. قطعات متن مطابق را استخراج کنید.

کد نمونه


استخراج داده‌های جدول به عنوان متن در C#

برای استخراج محتوای جدول:

  1. PDF را بارگذاری کنید.
  2. از TableAbsorber برای حرکت در ساختارهای جدول استفاده کنید.
  3. متن را سلول به سلول استخراج کنید.

کد نمونه


استخراج متن هایلایت شده در PDF

برای استخراج متن هایلایت شده:

  1. از طریق یادداشت‌ها تکرار کنید.
  2. TextMarkupAnnotation را فیلتر کنید.
  3. قطعات هایلایت شده را بازیابی و ذخیره کنید.

کد نمونه


بهینه‌سازی استخراج متن با استفاده کم از حافظه

i) استفاده از Reset() و FreeMemory():

  1. پس از پردازش هر صفحه، absorber.Reset() را فراخوانی کنید.
  2. حافظه نگهداری شده توسط صفحات را با استفاده از page.FreeMemory() آزاد کنید.

ii) استفاده از حالت MemorySaving:

TextExtractionOptions.TextFormattingMode را برای بهینه‌سازی استفاده از حافظه در حین استخراج متن PDF تنظیم کنید.

کد نمونه


کتابخانه استخراج متن PDF رایگان C#

یک مجوز موقت رایگان برای دسترسی نامحدود به Aspose.PDF برای .NET دریافت کنید و پتانسیل کامل آن را برای استخراج متن PDF کارآمد C# آزاد کنید.


نتیجه‌گیری

پلاگین استخراج متن Aspose.PDF برای .NET یک راه‌حل چندمنظوره و کارآمد برای وظایف استخراج متن قابل اعتماد ارائه می‌دهد. از اسناد کامل تا صفحات یا مناطق خاص، این پلاگین فرآیند را با دقت و سرعت ساده می‌کند و آن را به یکی از بهترین کتابخانه‌های استخراج متن PDF در C# تبدیل می‌کند. امروز آن را امتحان کنید تا جریان‌های کاری استخراج متن PDF خود را تنها با ۹۹ دلار ساده کنید!