
مستندات Microsoft Word هي شريط لإنشاء وتبادل المحتوى النصي.إذا كنت تقوم بتطوير تطبيقات C# التي تتفاعل مع هذه الوثائق، قد تجد نفسك بحاجة إلى استخراج النص منها.وهذا يمكن أن يكون لأغراض مثل تحليل النص أو استخراج أقسام محددة من وثيقة لتجميعها في واحد جديد.في هذا المنشور على المدونة، وسوف نغوص في أساليب استخراجات النص من مستويات Word في C #.
جدول المحتوى
- C# مكتبة استخراج النص
- فهم استخراج النص في مستندات Word
- دليل خطوة بخطوة لاستخراج النص من مستند Word- استخراج النص بين الفقرات
- استخراج النص بين أنواع مختلفة من النقاط
- استخراج النص القائم على الأنماط
C# مكتبة استخراج النص {#مكتبة إلى استخراج النص من كلمة إلى وثائق}
Aspose.Words لـ .NET هو مكتبة قوية ومريحة للمستخدم مصممة للعمل مع وثائق Word. يوفر مجموعة شاملة من الميزات، بما في ذلك استخراج النص، وخلق المستند، والتلاعب، وتحويل. مع Aspose.Words ل .NET، يمكن للمطورين بفعالية إدارة جوانب مختلفة من مستندات Word، مما يجعلها أداة لا تقدر بثمن لاحتياجات التطوير الخاصة بك.
من أجل البدء، تحميل المكتبة أو تركيبها مباشرة من NuGet باستخدام الأوامر التالية في وحدة التحكم في الحزمة:
PM> Install-Package Aspose.Words
فهم استخراج النص في مستندات Word
وثيقة MS Word تتكون من عناصر مختلفة مثل الفقرات والجدول والصور. وبالتالي، قد تختلف متطلبات استخراج النص استنادا إلى حالة الاستخدام المحددة. قد تحتاج إلى استخراج النص بين الفقرات، علامات الكتاب، التعليقات، وأكثر من ذلك.
يتم تمثيل كل عنصر في وثيقة Word على أنه عقدة.لذلك ، من أجل معالجة وثيقة بفعالية ، ستحتاج إلى العمل مع هذه العقدة.لنتعلم كيفية استخراج النص من وثائق Word في سيناريوهات مختلفة.
خطوة بخطوة دليل استخراج النص من مستند Word {# استخراج النص من مستند Word-A-Word-Document}
في هذا القسم، سنقوم بتنفيذ استخراج نص C# لوثائق Word.سيتضمن تدفق العمل لاستخراج النص الخطوات التالية:
- تحديد العقدة التي يجب تضمينها في عملية الاستخراج.
- استخراج المحتوى بين العقد المحددة (بما في ذلك أو استبعاد العقد البداية والنهاية).
- استخدم العقد المستخرجة المستخرجة لإنشاء وثيقة Word الجديدة تحتوي على المحتوى المستخرج.
دعونا نخلق طريقة تسمى ExtractContent التي سوف تقبل العقدة وغيرها من المعلمات لتنفيذ استخراج النص.
StartNode و EndNode: هذه تحدد نقاط البداية والنهاية لاستخراج المحتوى.يمكن أن تكون على مستوى الكتلة (على سبيل المثال، الفقرة، الجدول) أو عقدة على مستوى الخط (على سبيل المثال، Run، FieldStart، BookmarkStart).- للحصول على الحقول، يرجى إدخال الكائن المناسب FieldStart.
للعلامات الكتابية، استخدم عقدة BookmarkStart و BookmarkEnd.
لتقديم التعليقات، استخدم عقدة CommentRangeStart و CommentRangeEnd.
IsInclusive: يحدد هذا المعيار ما إذا كانت العلامات مدرجة في الاستخراج.إذا تم تعيينها إلى مزيفة ويتم توفير نفس أو عقدة متتالية، سيتم إرجاع قائمة فارغة.
فيما يلي التنفيذ الكامل لطريقة ExtractContent لاستخراج المحتوى بين العقد المحددة:
وبالإضافة إلى ذلك، فإن بعض أساليب المساعدة مطلوبة من خلال طريقة ExtractContent لتسهيل عملية استخراج النص:
الآن عندما يكون لدينا أساليب جاهزة ، يمكننا المضي قدما في استخراج النص من وثيقة Word.
استخراج النص بين الفقرات من وثيقة كلمة {# استخراج النص بين الفقرات}
لاستخراج المحتوى بين الفقرتين في وثيقة Word DOCX، اتبع هذه الخطوات:
- قم بتحميل مستند Word باستخدام فئة Document.
- احصل على إشارات إلى الفقرات التي تبدأ وتنتهي باستخدام طريقة Document.FirstSection.Body.GetChild(NodeType.PARAGRAPH، int، boolean).
- اتصل بالطريقة ExtractContent(startPara، endPara، True) لاستخراج العقد إلى كائن.
- استخدم طريقة المساعدة GenerateDocument(Document, extractedNodes) لإنشاء وثيقة مع المحتوى المستخرج.
- حفظ المستند الجديد باستخدام طريقة Document.Save(string).
فيما يلي نموذج من الرمز يظهر كيفية استخراج النص بين الفقرات السابعة و الحادية عشرة في وثيقة Word:
استخراج النص بين أنواع مختلفة من النود
يمكنك أيضًا استخراج المحتوى بين أنواع مختلفة من العقد.على سبيل المثال، دعونا استخراج المحتوى بين الفقرة والجدول ونحفظه في وثيقة Word الجديدة.
- قم بتحميل مستند Word باستخدام فئة Document.
- احصل على إشارات إلى عقدة البداية والنهاية باستخدام طريقة Document.FirstSection.Body.GetChild(NodeType، int، boolean).
- استدعاء ExtractContent(startPara، endPara، True) لاستخراج العقد إلى كائن.
- استخدم طريقة المساعدة GenerateDocument(Document, extractedNodes) لإنشاء وثيقة مع المحتوى المستخرج.
- حفظ المستند الجديد باستخدام Document.Save(string).
إليك نموذج الرمز لاستخراج النص بين الفقرة والجدول في C#:
استخراج النص القائم على الأنماط {# استخراج النص بين الفقرات القائم على الأنماط}
لاستخراج المحتوى بين الفقرات استنادا إلى الأنماط، اتبع هذه الخطوات.لإظهار هذا، وسوف نستخرج المحتوى بين “العنوان 1” الأول و “العنوان 3” الأول في وثيقة Word:
- قم بتحميل مستند Word باستخدام فئة Document.
- استخراج الفقرات إلى كائن باستخدام الطريقة المساعدة ParagraphsByStyleName(Document، “عنوان 1”).
- استخراج الفقرات إلى كائن آخر باستخدام ParagraphsByStyleName(وثيقة، “العنوان”).
- اتصل ExtractContent(startPara، endPara، True) مع العناصر الأولى من كلا الفقرتين.
- استخدم طريقة المساعدة GenerateDocument(Document, extractedNodes) لإنشاء وثيقة مع المحتوى المستخرج.
- حفظ المستند الجديد باستخدام Document.Save(string).
فيما يلي عينة من الرمز لاستخراج المحتوى بين الفقرات استنادا إلى الأنماط:
اقرأ المزيد عن استخراج النص
استكشاف سيناريوهات إضافية لاستخراج النص من مستندات Word من خلال هذا المقال الوثائقي.
احصل على مكتبة مجانية لـ Word Text Extractor {# Get-a-Free-API-License}
يمكنك الحصول على A مجانا الترخيص المؤقت استخراج النص دون قيود تقييم.
استنتاجات
Aspose.Words for .NET هي مكتبة متنوعة تسرع عملية استخراج النص من مستندات Word في C#. مع ميزاتها الواسعة و API سهلة الاستخدام، يمكنك العمل بفعالية مع مستندات Word وتلقائيات مختلف سيناريوهات استخراج النص. سواء كنت تطوير التطبيقات التي تتطلب معالجة مستندات Word أو ببساطة استخراج النص، Aspose.Words for .NET هو أداة أساسية للمطورين.
لاستكشاف المزيد من الميزات لـ Aspose.Words ل .NET، انظر الوثائق. إذا كان لديك أي أسئلة ، فاحرص على الوصول إليها من خلال المنتدى.
انظر أيضا
نصيحة: قد ترغب في التحقق من Aspose PowerPoint إلى Word المحول، الذي يظهر العملية الشعبية لتحويل العروض التقديمية إلى مستندات Word.
More in this category
- تحويل Word DOC/DOCX إلى PDF في C# .NET و Aspose.Words' Document Converter Plugin
- إنشاء رمز شريطي في مستندات وورد (.NET، C#) | قراءة رمز شريطي من وورد (.NET)
- استخراج الصور من مستندات Word في C# معالجة الصور التلقائية
- تلقائي التقارير باستخدام C# Mail Merge و Aspose.Words' Mail Merge Plugin
- العثور على واستبدال النص في مستندات الكلمة باستخدام C# تلقائي تحرير الكلمة