استخراج النص من PDF C#

استخراج النص من ملفات PDF هو متطلب شائع في مهام معالجة الوثائق. توفر هذه المقالة دليلًا شاملاً حول استخدام ملحق مستخرج النصوص من Aspose.PDF لاستخراج النصوص بكفاءة ومرونة في C#. سواء كنت بحاجة لاستخراج النص من مستند كامل، أو صفحات معينة، أو مناطق محددة، يسهل ملحق Aspose استخراج النصوص من PDF بأداء عالٍ مع جهد minimal.


الميزات المغطاة


تسليط الضوء على ملحق مستخرج النصوص من Aspose.PDF

ملحق مستخرج النصوص من Aspose.PDF لـ .NET هو حل موثوق لاستخراج النص من مستندات PDF. تم تصميمه خصيصًا للمطورين الذين يعملون مع تطبيقات .NET، ويدعم كل من استخراج نصوص PDF من .NET Framework و .NET Core. يوفر الملحق ثلاثة أوضاع تشغيل:

  1. الوضع النقي: يستخرج النص مع الاحتفاظ بالتنسيق والبنية الأصلية.
  2. الوضع الخام: يستخرج النص بدون تنسيق.
  3. الوضع العادي: يستخرج النص ويزيل التنسيق والشخصيات الخاصة.

الفوائد

  • يدعم المعالجة الدفعة لعدة ملفات PDF.
  • يقدم إعدادات استخراج قابلة للتخصيص لتلبية المتطلبات المحددة.
  • يضمن التكامل المباشر مع تطبيقات .NET سير عمل سلس.
  • محسّن لاستخراج النصوص بسرعة عالية ودقة مع استخدام موارد minimal.

مكتبة استخراج نص PDF في C#

مكتبة Aspose.PDF لـ .NET هي أداة شاملة لمطوري .NET الذين يبحثون عن استخراج نصوص PDF عالي الأداء باستخدام C#. يمكنك تثبيتها بسهولة عبر NuGet:

PM> Install-Package Aspose.PDF

بدلاً من ذلك، يمكنك تنزيل DLL لدمجها مباشرة في مشروعك، مما يوفر حلاً موثوقًا لاستخراج نصوص PDF باستخدام C#.


استخراج النص من PDF كامل في C#

لاستخراج كل النص من PDF، اتبع الخطوات التالية:

  1. قم بتحميل PDF باستخدام Document class.
  2. أنشئ كائن TextAbsorber.
  3. قم بتطبيق الممتص على جميع الصفحات.
  4. احفظ النص المستخرج إلى ملف.

مثال على الكود


استخراج النص من صفحات معينة في PDF

لاستخراج النص من صفحة واحدة:

  1. قم بتحميل PDF.
  2. أنشئ TextAbsorber.
  3. قم بتطبيق الممتص على الصفحة المطلوبة.
  4. احفظ النص المستخرج.

مثال على الكود


استخراج النص من مناطق معينة في PDF

استخراج النص من مناطق معينة في صفحة يتطلب تحديد الإحداثيات المستطيلة. الخطوات تشمل:

  1. قم بتحميل PDF.
  2. قم بتكوين TextSearchOptions للمنطقة المحددة.
  3. قم بتطبيق TextAbsorber على المنطقة.
  4. احفظ النص المستخرج.

مثال على الكود


البحث واستخراج النص باستخدام Regex

لاستخراج النص الذي يتطابق مع نمط معين باستخدام التعبيرات العادية:

  1. قم بتحميل PDF.
  2. حدد نمط regex.
  3. قم بتطبيق النمط باستخدام TextAbsorber.
  4. استخرج مقاطع النص المتطابقة.

مثال على الكود


استخراج بيانات الجدول كنص في C#

لاستخراج محتوى الجدول:

  1. قم بتحميل PDF.
  2. استخدم TableAbsorber للتنقل عبر هياكل الجدول.
  3. استخرج النص خلية بخلية.

مثال على الكود


استخراج النص المميز في PDF

لاستخراج النص المميز:

  1. قم بالتكرار عبر التعليقات التوضيحية.
  2. قم بتصفية TextMarkupAnnotation.
  3. استرجع واحفظ المقاطع المميزة.

مثال على الكود


تحسين استخراج النص مع استخدام منخفض للذاكرة

i) استخدام Reset() و FreeMemory():

  1. استدعِ absorber.Reset() بعد معالجة كل صفحة.
  2. حرر الذاكرة المحتفظ بها بواسطة الصفحات باستخدام page.FreeMemory().

ii) استخدام وضع MemorySaving:

قم بتعيين TextExtractionOptions.TextFormattingMode لتحسين استخدام الذاكرة أثناء استخراج نص PDF.

مثال على الكود


مكتبة استخراج نص PDF مجانية C#

احصل على ترخيص مؤقت مجاني للوصول غير المحدود إلى Aspose.PDF لـ .NET وفتح إمكانياته الكاملة لاستخراج نصوص PDF بكفاءة باستخدام C#.


الخاتمة

يوفر ملحق مستخرج النصوص من Aspose.PDF لـ .NET حلاً مرنًا وفعالًا لمهام استخراج النصوص الموثوقة. من المستندات الكاملة إلى الصفحات أو المناطق المحددة، يبسط العملية بدقة وسرعة، مما يجعله واحدًا من أفضل مكتبات استخراج نصوص PDF باستخدام C# المتاحة. جربه اليوم لتبسيط سير عمل استخراج النصوص من PDF مقابل 99 دولارًا فقط!