تعتبر مستندات PDF جزءًا أساسيًا من عمليات الأعمال المختلفة، وغالبًا ما تتطلب الوصول البرمجي إلى محتواها الممسوح ضوئيًا. يمكن أن تكون عملية استخراج النص من ملفات PDF الممسوحة ضوئيًا مهمة معقدة، مما يبرز الحاجة إلى أدوات فعالة. في هذا الدليل، سنتناول كيفية استخدام OCR لمستندات PDF واستخراج النص من PDF في C# باستخدام Aspose.OCR for .NET API الموثوق، وهو مكتبة C# لاستخراج نصوص PDF باستخدام OCR متاحة للتقييم المجاني.

ما ستتعلمه

في هذه المقالة، سنغطي المواضيع التالية:

  1. نظرة عامة على Aspose.OCR for .NET API
  2. خطوات استخدام OCR لمستند PDF واستخراج النص
  3. كيفية إجراء OCR على PDF وحفظ النص
  4. تحويل PDF الممسوح ضوئيًا إلى Word
  5. تحويل PDF الممسوح ضوئيًا إلى JSON

نظرة عامة على Aspose.OCR for .NET API

سنستخدم Aspose.OCR for .NET API، وهو API قوي لـ PDF OCR في .NET مصمم للتعرف على النص من الصور الممسوحة ضوئيًا، وصور الهواتف الذكية، ولقطات الشاشة، ويعيد النتائج في تنسيقات مستندات مختلفة. لا يقوم هذا API بتحويل الصور إلى نص فحسب، بل ينشئ أيضًا مستندات PDF قابلة للبحث من الماسحات ويصحح أي أخطاء إملائية في النص المعترف به، مما يجعله واحدًا من أسرع حلول PDF OCR في C# المتاحة مقابل 99 دولارًا فقط.

تتميز API بفئة AsposeOcr التي توفر عدة طرق لعمليات OCR. ومن الجدير بالذكر أن طريقة RecognizePdf(string, DocumentRecognitionSettings) ضرورية لاستخراج النص من مستند PDF محدد. تسمح فئة DocumentRecognitionSettings بتخصيص عملية التعرف، بينما encapsulates فئة RecognitionResult نتائج التعرف.

يمكنك تنزيل DLL من API أو تثبيته عبر NuGet:

PM> Install-Package Aspose.OCR

خطوات استخدام OCR لمستند PDF واستخراج النص في C#

لإجراء OCR على مستندات PDF واستخراج النص المعترف به، اتبع الخطوات التالية:

  1. إنشاء مثيل من فئة AsposeOcr.
  2. تهيئة كائن من فئة DocumentRecognitionSettings.
  3. تحديد اللغة لـ OCR.
  4. الحصول على RecognitionResult عن طريق استدعاء طريقة RecognizePdf()، مع تمرير مسار الصورة وكائن DocumentRecognitionSettings.
  5. التكرار عبر قائمة RecognitionResult لعرض النص المعرف.

إليك مثال يوضح كيفية استخدام OCR لمستندات PDF واستخراج النص المعترف به في C#:

OCR PDF واستخراج النص من PDF في C#

كيفية إجراء OCR على PDF وحفظ النص في C#

لإجراء OCR على مستندات PDF وحفظ النص المعترف به، اتبع الخطوات التالية:

  1. إنشاء مثيل من فئة AsposeOcr.
  2. تهيئة كائن من فئة DocumentRecognitionSettings.
  3. تحديد اللغة لـ OCR.
  4. استدعاء طريقة RecognizePdf() للحصول على RecognitionResult.
  5. حفظ النص باستخدام طريقة SaveMultipageDocument()، والتي تتطلب مسار ملف الإخراج، وSaveFormat، وكائن RecognitionResult.

إليك مثال يوضح كيفية استخدام OCR لمستندات PDF وحفظ النص المعترف به في C#:

إجراء OCR على PDF وحفظ النص في C#

تحويل PDF الممسوح ضوئيًا إلى Word في C#

لتحويل مستندات PDF الممسوحة ضوئيًا إلى Word، اتبع نفس الخطوات الموضحة سابقًا، ولكن حدد SaveFormat.Docx في الخطوة الأخيرة.

إليك مثال يوضح كيفية استخدام OCR لمستند PDF وحفظ النص المعترف به كوثيقة Word في C#:

OCR PDF وتحويل PDF الممسوح ضوئيًا إلى Word في C#

تحويل PDF الممسوح ضوئيًا إلى JSON في C#

لحفظ النص المعترف به من مستندات PDF في ملف JSON، اتبع الخطوات السابقة مع التغيير الوحيد هو تحديد SaveFormat.Json في الخطوة الأخيرة.

إليك مثال يوضح كيفية استخدام OCR لمستند PDF وحفظ النص المعترف به كملف JSON في C#:

الحصول على ترخيص تقييم مجاني

يمكنك الحصول على ترخيص مؤقت مجاني لتقييم Aspose.OCR for .NET API دون أي قيود.

الخاتمة

في هذا الدليل، تعلمنا كيفية إجراء OCR على مستندات PDF واستخراج النص من PDF في C#. كما استكشفنا كيفية حفظ النص المعترف به كملف TXT، وDOCX، وJSON. لمزيد من المعلومات حول Aspose.OCR for .NET API، تحقق من التوثيق. إذا كانت لديك أي أسئلة، فلا تتردد في التواصل معنا عبر المنتدى.

انظر أيضًا

من خلال الاستفادة من Aspose.OCR for .NET API، يمكنك تنفيذ OCR بدقة عالية لمستندات PDF في C# لمجموعة متنوعة من التطبيقات، بما في ذلك معالجة الفواتير والتعامل مع النماذج. هذه الحل الميسور لـ PDF OCR في .NET مثالي للمطورين الذين يتطلعون إلى دمج قدرات OCR PDF في تطبيقاتهم بكفاءة.