
استخراج النص من ملفات PDF هو متطلب شائع في مهام معالجة المستندات.هذا المقال يوفر دليلًا متعمقًا على استخدام Aspose.PDF’s Text Extractor Plugin لاستخراج النص الفعال والمتنوع في C#.سواء كنت بحاجة إلى استخراج النص من مستند كامل أو صفحات محددة أو مناطق محددة ، فإن Aspose Plugin يسهل استخراج النص PDF عالي الأداء مع الحد الأدنى من الجهد.
الميزات الرئيسية لملحق استخراج النص Aspose.PDF
- استخراج النص من PDF الكامل
- استخراج النص من صفحات محددة
- استخراج النص من منطقة محددة
- البحث واستخراج النص باستخدام Regex
- استخراج البيانات المكتبية كالنص
- استخراج النص الملموس
- تحسين استخراج النص باستخدام الذاكرة المنخفضة
نظرة عامة على Aspose.PDF Text Extractor Plugin
Aspose.PDF’s Text Extractor Plugin for .NET هو حل قوي لاستخراج النص من مستندات PDF. تم تصميمه خصيصًا للمطورين الذين يعملون مع تطبيقات .NET ، ودعم كل من .NET Framework و .NET Core لاستخراج النص PDF:
- الوضع النقي: يستخرج النص مع الحفاظ على التنسيق الأصلي والهيكل.
- Raw Mode: يستخرج النص دون أي تنسيق.
- Plain Mode: يخرج النص ويزيل جميع التشكيلات والأحرف الخاصة.
فوائد استخدام Aspose.PDF
- معالجة الانحناء: التعامل مع العديد من ملفات PDF في وقت واحد.
- إعدادات قابلة للتخصيص: تخصيص إعدادات الاستخراج لتناسب احتياجاتك المحددة.
- الاندماج الخالص: يتكامل بشكل مباشر مع تطبيقات .NET لتدفقات العمل السلسة.
- أداء عالي السرعة: محسن لاستخراج النص السريع والدقيق مع الحد الأدنى من استهلاك الموارد.
بدءا من C# PDF استخراج النص
و هو Aspose.PDF لـ .NET مكتبة هي أداة شاملة للمطورين .NET الذين يبحثون عن حلول عالية الأداء C# PDF Extract.يمكنك بسهولة تثبيتها عبر NuGet:
PM> Install-Package Aspose.PDF
بدلاً من ذلك، يمكنك تحميل DLL لدمجها مباشرة في مشروعك، وتوفير حل موثوق C# PDF إلى النص.
استخراج النص من PDF الكامل في C#
لاستخراج كل النص من PDF، اتبع هذه الخطوات:
- تحميل PDF باستخدام وثيقة الطبقة.
- إنشاء A TextAbsorber الهدف.
- قم بتطبيق جهاز الاستيعاب على جميع الصفحات.
- حفظ النص المستخرج إلى ملف.
نموذج رمز
استخراج النص من صفحات محددة في PDF
لاستخراج النص من صفحة واحدة باستخدام C#، اتبع هذه الخطوات:
- قم بتحميل PDF.
- إنشاء A TextAbsorber.
- قم بتطبيق جهاز الاستيعاب على الصفحة المطلوبة.
- حفظ النص المستخرج.
نموذج رمز
استخراج النص من مناطق محددة في PDF
من أجل استخراج النص من مناطق محددة من الصفحة ، حدد الإحداثيات المستطيلة:
- قم بتحميل PDF.
- تكوين TextSearchOptions في المنطقة المحددة.
- تطبق على TextAbsorber إلى المنطقة.
- حفظ النص المستخرج.
نموذج رمز
البحث واستخراج النص باستخدام Regex
استخراج النص الذي يتماشى مع نموذج معين باستخدام التعبيرات العادية:
- قم بتحميل PDF.
- تحديد نموذج ريجكس.
- تطبيق النموذج باستخدام TextAbsorber.
- استخراج أجزاء النص المطابقة.
نموذج رمز
استخراج بيانات الجدول كالنص في C#
لاستخراج المحتوى من اللوحات، استخدم الخطوات التالية:
- قم بتحميل PDF.
- استخدام TableAbsorber الملاحة عبر الهياكل المكتبية.
- استخراج الخلية النصية حسب الخلية.
نموذج رمز
استخراج النص المرفوع في PDF
من أجل استخراج النص المذكور:
- إرسال رسالة عبر الملاحظات.
- الفلتر TextMarkupAnnotation.
- استرداد وتخزين أجزاء مميزة.
نموذج رمز
تحسين استخراج النص باستخدام الذاكرة المنخفضة
ب) باستخدام **** و ****:
- مكالمة
absorber.Reset()
بعد معالجة كل صفحة. - الذاكرة الحرة التي تستخدمها الصفحات
page.FreeMemory()
.
2) باستخدام MemorySaving الأزياء:
إعداد TextExtractionOptions.TextFormattingMode
لتحسين استخدام الذاكرة أثناء استخراج النص PDF.
نموذج رمز
مجانا C# PDF مجلة استخراج النص
احصل على A مجانا الترخيص المؤقت يمكنك أيضًا استكشاف خيارات مثل C# تحويل PDF إلى نص و C# قراءة النص من PDF للحصول على حلول مخصصة ، بما في ذلك c# استخراج نص من pdf ومعرفة c# القراءة نص مجاني.
استنتاجات
Aspose.PDF’s Text Extractor Plugin for .NET يقدم حلًا متعدد الأوجه وكفاءة لمهام استخراج النص الموثوق بها.من استخبار النص من المستندات بأكملها إلى صفحات أو مناطق محددة ، فإنه يسرع العملية بدقة وسرعة.وهذا يجعلها واحدة من أفضل مكتبات C# PDF Extract Text المتاحة!