
استخراج متن از فایلهای PDF یک نیاز رایج در وظایف پردازش اسناد است. این مقاله یک راهنمای جامع در مورد استفاده از پلاگین استخراج متن Aspose.PDF برای استخراج متن کارآمد و چندمنظوره در C# ارائه میدهد. چه به استخراج متن از یک سند کامل، صفحات خاص یا مناطق تعریف شده نیاز داشته باشید، پلاگین Aspose استخراج متن PDF با عملکرد بالا و حداقل تلاش را تسهیل میکند.
ویژگیهای پوشش داده شده
- استخراج متن از یک PDF کامل
- استخراج متن از صفحات خاص
- استخراج متن از یک منطقه خاص
- جستجو و استخراج متن با استفاده از Regex
- استخراج دادههای جدول به عنوان متن
- استخراج متن هایلایت شده
- بهینهسازی استخراج متن با استفاده کم از حافظه
معرفی پلاگین استخراج متن Aspose.PDF
پلاگین استخراج متن Aspose.PDF برای .NET یک راهحل قابل اعتماد برای استخراج متن از اسناد PDF است. این پلاگین بهطور خاص برای توسعهدهندگانی که با برنامههای .NET کار میکنند طراحی شده و از استخراج متن PDF در هر دو .NET Framework و .NET Core پشتیبانی میکند. این پلاگین سه حالت عملیاتی را ارائه میدهد:
- حالت خالص: متن را استخراج میکند در حالی که فرمت و ساختار اصلی را حفظ میکند.
- حالت خام: متن را بدون فرمت استخراج میکند.
- حالت ساده: متن را استخراج میکند و فرمت و کاراکترهای خاص را حذف میکند.
مزایا
- از پردازش دستهای برای چندین PDF پشتیبانی میکند.
- تنظیمات استخراج قابل تنظیم برای رفع نیازهای خاص ارائه میدهد.
- یکپارچهسازی مستقیم با برنامههای .NET اطمینان از جریانهای کاری بدون درز را فراهم میکند.
- بهینهسازی شده برای استخراج متن با سرعت بالا و دقت با حداقل استفاده از منابع.
کتابخانه استخراج متن PDF در C#
کتابخانه Aspose.PDF برای .NET یک ابزار جامع برای توسعهدهندگان .NET است که به دنبال استخراج متن PDF با عملکرد بالا در C# هستند. شما میتوانید به راحتی آن را از طریق NuGet نصب کنید:
PM> Install-Package Aspose.PDF
بهعلاوه، میتوانید DLL را دانلود کنید تا آن را بهطور مستقیم در پروژه خود ادغام کنید و یک راهحل قابل اعتماد برای استخراج متن PDF در C# فراهم کنید.
استخراج متن از یک PDF کامل در C#
برای استخراج تمام متن از یک PDF، مراحل زیر را دنبال کنید:
- PDF را با استفاده از کلاس Document بارگذاری کنید.
- یک شیء TextAbsorber ایجاد کنید.
- جاذب را به تمام صفحات اعمال کنید.
- متن استخراج شده را در یک فایل ذخیره کنید.
کد نمونه
استخراج متن از صفحات خاص در PDF
برای استخراج متن از یک صفحه واحد:
- PDF را بارگذاری کنید.
- یک TextAbsorber ایجاد کنید.
- جاذب را به صفحه مورد نظر اعمال کنید.
- متن استخراج شده را ذخیره کنید.
کد نمونه
استخراج متن از مناطق خاص در PDF
استخراج متن از مناطق خاص یک صفحه شامل تعریف مختصات مستطیلی است. مراحل شامل:
- PDF را بارگذاری کنید.
- TextSearchOptions را برای منطقه تعریف شده پیکربندی کنید.
- TextAbsorber را به منطقه اعمال کنید.
- متن استخراج شده را ذخیره کنید.
کد نمونه
جستجو و استخراج متن با استفاده از Regex
برای استخراج متن مطابق با یک الگوی خاص با استفاده از عبارات منظم:
- PDF را بارگذاری کنید.
- یک الگوی regex تعریف کنید.
- الگو را با استفاده از TextAbsorber اعمال کنید.
- قطعات متن مطابق را استخراج کنید.
کد نمونه
استخراج دادههای جدول به عنوان متن در C#
برای استخراج محتوای جدول:
- PDF را بارگذاری کنید.
- از TableAbsorber برای حرکت در ساختارهای جدول استفاده کنید.
- متن را سلول به سلول استخراج کنید.
کد نمونه
استخراج متن هایلایت شده در PDF
برای استخراج متن هایلایت شده:
- از طریق یادداشتها تکرار کنید.
- TextMarkupAnnotation را فیلتر کنید.
- قطعات هایلایت شده را بازیابی و ذخیره کنید.
کد نمونه
بهینهسازی استخراج متن با استفاده کم از حافظه
i) استفاده از Reset() و FreeMemory():
- پس از پردازش هر صفحه،
absorber.Reset()
را فراخوانی کنید. - حافظه نگهداری شده توسط صفحات را با استفاده از
page.FreeMemory()
آزاد کنید.
ii) استفاده از حالت MemorySaving:
TextExtractionOptions.TextFormattingMode
را برای بهینهسازی استفاده از حافظه در حین استخراج متن PDF تنظیم کنید.
کد نمونه
کتابخانه استخراج متن PDF رایگان C#
یک مجوز موقت رایگان برای دسترسی نامحدود به Aspose.PDF برای .NET دریافت کنید و پتانسیل کامل آن را برای استخراج متن PDF کارآمد C# آزاد کنید.
نتیجهگیری
پلاگین استخراج متن Aspose.PDF برای .NET یک راهحل چندمنظوره و کارآمد برای وظایف استخراج متن قابل اعتماد ارائه میدهد. از اسناد کامل تا صفحات یا مناطق خاص، این پلاگین فرآیند را با دقت و سرعت ساده میکند و آن را به یکی از بهترین کتابخانههای استخراج متن PDF در C# تبدیل میکند. امروز آن را امتحان کنید تا جریانهای کاری استخراج متن PDF خود را تنها با ۹۹ دلار ساده کنید!