Convert Scanned PDF to Word in C#

المقدمة

تخزن ملفات PDF الممسوحة غالبًا النص كصور، مما يجعل من المستحيل تحديد المحتوى أو تحريره أو نسخه. إذا كنت بحاجة إلى تحويل ملفات PDF الممسوحة إلى مستندات Word قابلة للتحرير، فإن تقنية التعرف الضوئي على الأحرف (OCR) توفر وسيلة فعالة لاستخراج النص مع الحفاظ على التنسيق الأصلي. في هذه المقالة، ستتعلم كيفية تحويل ملفات PDF الممسوحة إلى Word (DOCX أو DOC) برمجيًا باستخدام C# مع مكتبات Aspose.OCR لـ .NET وAspose.Words لـ .NET.

لماذا تحويل ملفات PDF الممسوحة إلى Word؟

هناك عدة أسباب مقنعة لتحويل ملفات PDF الممسوحة إلى مستندات Word:

  • تحرير المستندات الممسوحة بسهولة: تعديل النص دون عناء إعادة الكتابة اليدوية.
  • استخراج النص لمزيد من المعالجة: استخدام النص المستخرج للتحليل أو تطبيقات أخرى.
  • الحفاظ على التخطيط والتنسيق: الحفاظ على هيكل المستند الأصلي أثناء جعله قابلاً للتحرير.
  • أتمتة معالجة المستندات المستندة إلى OCR: دمج هذه الوظيفة في تطبيقات C# الخاصة بك بسلاسة.

جدول المحتويات

  1. إعداد واجهة برمجة التطبيقات OCR لتحويل PDF الممسوح إلى Word
  2. تحويل PDF الممسوح إلى مستند Word قابل للتحرير
  3. الحفاظ على التنسيق في تحويل OCR
  4. التعامل مع الصفحات المتعددة في ملفات PDF الممسوحة
  5. ترخيص للحصول على دقة كاملة في OCR
  6. الخاتمة والموارد الإضافية

1. إعداد واجهة برمجة التطبيقات OCR لتحويل PDF الممسوح إلى Word

لاستخراج النص من ملفات PDF الممسوحة وتحويلها إلى مستندات Word، سنستخدم:

  • Aspose.OCR لـ .NET – أداة قوية تتعرف على النص من الصور الممسوحة.
  • Aspose.Words لـ .NET – هذه المكتبة تحول النص المستخرج إلى تنسيق Word.

التثبيت

يمكنك تثبيت هذه الواجهات البرمجية بسهولة عبر NuGet باستخدام الأوامر التالية:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

بدلاً من ذلك، يمكنك تنزيل ملفات DLL من صفحة تنزيلات Aspose.


2. تحويل PDF الممسوح إلى مستند Word قابل للتحرير

اتبع هذه الخطوات لـ تحويل ملفات PDF الممسوحة إلى Word (DOCX أو DOC) في C#:

  1. تهيئة OCR باستخدام AsposeOcr.
  2. استخراج النص باستخدام DocumentRecognitionSettings.
  3. تخزين النص المعترف به في StringBuilder.
  4. إنشاء مستند Word باستخدام Aspose.Words.
  5. تطبيق التنسيق وحفظه كـ DOCX أو DOC.

عينة من الكود

إليك مثال C# يوضح تحويل PDF الممسوح إلى Word:


3. الحفاظ على التنسيق في تحويل OCR

بينما يعد استخراج النص باستخدام OCR قويًا، إلا أنه قد لا يحافظ دائمًا على التنسيق الأصلي، والخطوط، والأساليب. لضمان تنسيق دقيق، ضع في اعتبارك النصائح التالية:

  • استخدام أنماط الفقرات في Aspose.Words لتطبيق تنسيق نص متسق.
  • تعيين خصائص الخط مثل الحجم، والغليظ، والمائل، والمحاذاة.
  • تعديل هوامش الصفحة والتخطيط لتحسين مخرجات مستند Word.

4. التعامل مع الصفحات المتعددة في ملفات PDF الممسوحة

بالنسبة لـ ملفات PDF الممسوحة متعددة الصفحات، من الضروري معالجة ودمج النص من جميع الصفحات في مستند Word واحد. لتحقيق ذلك:

  • التكرار عبر كل صفحة في ملف PDF الممسوح.
  • التعرف على النص لكل صفحة وتخزينه في StringBuilder.
  • إضافة النص المعترف به إلى مستند Word.

تضمن هذه الطريقة تحويل سلس من PDF متعدد الصفحات إلى Word.


5. ترخيص للحصول على دقة كاملة في OCR

بشكل افتراضي، تعمل Aspose.OCR في وضع التقييم، مما قد يحد من دقة التعرف على النص. لفتح الإمكانات الكاملة للواجهة البرمجية:

🔹 اطلب ترخيص مؤقت مجاني لأغراض التقييم.


6. الخاتمة والموارد الإضافية

ملخص

في هذا الدليل، تناولنا:

✅ إعداد Aspose.OCR لمعالجة PDF الممسوح
✅ استخراج النص من ملفات PDF الممسوحة في C#
✅ تحويل النص المعترف به إلى مستند Word منسق
✅ التعامل مع تحويل PDF الممسوح متعدد الصفحات إلى Word


من خلال الاستفادة من Aspose.OCR وAspose.Words، يمكنك بسهولة تحويل ملفات PDF المستندة إلى الصور إلى ملفات Word قابلة للتحرير. ابدأ في بناء محول PDF إلى Word المدعوم بـ OCR في .NET اليوم مقابل 99 دولارًا! 🚀