
यदि आप इन दस्तावेजों के साथ बातचीत करने वाले सी # अनुप्रयोगों को विकसित कर रहे हैं, तो आपको उनसे पाठ निकालने की आवश्यकता हो सकती है. यह ऐसे उद्देश्यों के लिए हो सकता है जैसे कि पाठ विश्लेषण या एक नए में संकलित किए जाने वाले एक दस्त के विशिष्ट अनुभागों का निष्कर्ष निकालें. इस ब्लॉग पोस्ट में, हम पाठ को वर्ड से प्राप्त करने के तरीकों में डूब जाएंगे.
सामग्री तालिका
- C# पुस्तकालय पाठ निकालने के लिए
- Word दस्तावेजों में पाठ निकालने की समझ
- एक शब्द दस्तावेज़ से पाठ निकालने के लिए कदम-दर-चरण गाइड- अनुच्छेदों के बीच पाठ निकालना
- विभिन्न प्रकार के नोड्स के बीच पाठ निकालना
- स्टाइलों के आधार पर पाठ निकालना
C# पुस्तकालय पाठ निकालने के लिए
.NET के लिए Aspose.Words यह वॉर्ड दस्तावेजों के साथ काम करने के लिए डिज़ाइन की एक शक्तिशाली और उपयोगकर्ता-अनुकूल पुस्तकालय है. यह पाठ निष्कर्षण, वृत्तचित्र निर्माण, हेरफेर, और रूपांतरण सहित सुविधाओं का एक व्यापक सेट प्रदान करता है। .NET के उद्देश्य से Aspose.Words, डेवलपर्स प्रभावी ढंग से वॉलपेपर के विभिन्न पहलुओं को प्रबंधित कर सकते हैं, जिससे यह आपके विकास की जरूरतों के अनुरूप एक अविश्वसनीय उपकरण बन जाता है ।
शुरू करने के लिए, पुस्तकालय डाउनलोड करें या इसे सीधे से स्थापित करें NuGet पैकेज प्रबंधक कंसोल में निम्न कमांड का उपयोग करें:
PM> Install-Package Aspose.Words
शब्द दस्तावेजों में पाठ निकालने को समझना
एक एमएस वर्ड दस्तावेज़ में विभिन्न तत्व शामिल हैं जैसे कि पैराग्राफ, तालिकाएं, और छवियों. इसलिए, पाठ निकालने के लिए आवश्यकताएं विशिष्ट उपयोग के मामले के आधार पर भिन्न हो सकती हैं. आपको अनुच्छेदों, पुस्तक चिह्न, टिप्पणियों और अधिक के बीच टेक्स्ट निकालना हो सकता है.
इसलिए, एक दस्तावेज़ को प्रभावी ढंग से संसाधित करने के लिए, आपको इन नोड्स के साथ काम करने की आवश्यकता होगी. आइए जानते हैं कि विभिन्न परिदृश्यों में वर्ड से पाठ कैसे निकालना है.
एक शब्द दस्तावेज़ से पाठ निकालने के लिए कदम-दर-चरण गाइड
इस खंड में, हम Word दस्तावेजों के लिए एक C# पाठ निकालने का कार्यान्वयन करेंगे. पाठ निष्कर्षण के कार्यप्रवाह में निम्नलिखित चरण शामिल होंगे:
- निकालने की प्रक्रिया में शामिल करने के लिए नोड्स को परिभाषित करें।
- निर्दिष्ट नोड्स के बीच सामग्री निकालना (उत्पत्ति और समाप्ति को शामिल या अस्वीकार करना)।
- क्लोन किए गए निकाले गए नोड्स का उपयोग करके एक नया वर्ड दस्तावेज बनाएं जिसमें निकाली गई सामग्री शामिल है।
आइए एक विधि बनाते हैं जिसे ExtractContent कहा जाता है जो पाठ निकालने के लिए नोड्स और अन्य पैरामीटर को स्वीकार करेगा. इस तरीके से दस्तावेज़ को विभाजित किया जाएगा और निम्नलिखित मापदंडों के आधार पर नॉड्स को क्लोन करेंगे:
**स्टार्टनॉड ** और EndNode ** : ये सामग्री निष्कर्षण के लिए प्रारंभ और अंत बिंदुओं को परिभाषित करते हैं. वे ब्लॉक-स्तर (उदाहरण में, ** पैराग्राफ , * तालिका ) या इनलाइन स्तर के नोड्स हो सकते हैं (जैसे, “रून “, “फ़ील्ड स्टार्ट” या “BookmarkStart”)।- फ़ील्डों के लिए, संबंधित FieldStart ऑब्जेक्ट पर जाएं।
बुकमार्क के लिए, BookmarkStart ** और ** BookmarkEnd कोड का उपयोग करें।
टिप्पणियों के लिए, CommentRangeStart ** औरContact* कोड का उपयोग करें।
IsInclusive : यह पैरामीटर निर्धारित करता है कि क्या मार्करों को निकालने में शामिल किया गया है. यदि गलत सेट किया जाता है और एक ही या लगातार कोड प्रदान किए जाते हैं, तो एक खाली सूची वापस की जाएगी.
यहाँ निर्दिष्ट नोड्स के बीच सामग्री निकालने के लिए ExtractContent विधि का पूर्ण कार्यान्वयन है:
इसके अलावा, पाठ निकालने के काम को सुविधाजनक बनाने के लिए ExtractContent विधि द्वारा कुछ सहायक विधियों की आवश्यकता होती है:
अब जब हमारे तरीके तैयार हैं, तो हम एक Word दस्तावेज़ से पाठ निकालने के लिए आगे बढ़ सकते हैं।
एक शब्द दस्तावेज़ के पैराग्राफों के बीच पाठ निकालना
Word DOCX दस्तावेज़ में दो पैराग्राफ के बीच सामग्री निकालने के लिए, इन चरणों का पालन करें:
- Word दस्तावेज़ को Document क्लास का उपयोग करके लोड करें।
- प्रारंभ और अंत अनुच्छेदों के लिए संदर्भ प्राप्त करें Document.FirstSection.Body.GetChild(NodeType.PARAGRAPH, int, boolean) विधि का उपयोग करके।
- एक वस्तु में नोड्स को निकालने के लिए ExtractContent(startPara, end Para, True) विधि को कॉल करें।
- एक दस्तावेज़ बनाने के लिए GenerateDokument(Document, extractedNodes) सहायक विधि का उपयोग करें, जिसके साथ निकाल दिया गया सामग्री है।
- नए दस्तावेज़ को Document.Save(string) विधि का उपयोग करके सहेजें।
यहाँ एक कोड नमूना दिखाता है कि कैसे एक Word दस्तावेज़ में 7 और 11 पैराग्राफ के बीच पाठ निकालने के लिए:
विभिन्न प्रकार के नोड्स के बीच पाठ निकालना
आप विभिन्न प्रकार के नोड्स के बीच सामग्री भी निकाल सकते हैं. उदाहरण के लिए, हम एक पैराग्राफ और तालिका में सामग्री निकालते हैं और इसे एक नए वर्ड दस्तावेज़ में सहेजते है. कदम निम्नलिखित हैं:
- Word दस्तावेज़ को Document क्लास का उपयोग करके लोड करें।
- प्रारंभ और अंत कोड के लिए संदर्भ प्राप्त करें Document.FirstSection.Body.GetChild(NodeType, int, boolean) विधि का उपयोग करके।
- कॉल करें ExtractContent(startPara, end Para, True) एक वस्तु में नोड्स को निकालने के लिए।
- एक दस्तावेज़ बनाने के लिए GenerateDokument(Document, extractedNodes) सहायक विधि का उपयोग करें, जिसके साथ निकाल दिया गया सामग्री है।
- नए दस्तावेज़ को Document.Save(string) का उपयोग करके सहेजें।
यहाँ C# में एक पैराग्राफ और एक तालिका के बीच पाठ निकालने के लिए कोड नमूना है:
स्टाइल-आधारित पाठ निकालना
स्टाइल-आधारित पैराग्राफों के बीच सामग्री निकालने के लिए, इन चरणों का पालन करें. इस प्रदर्शनी के लिये, हम वर्ड दस्तावेज़ में पहले " शीर्षक 1” और पहला “अध्याय 3” के अंतर में सामग्री निकालेंगे:
- Word दस्तावेज़ को Document क्लास का उपयोग करके लोड करें।
- एक वस्तु में पैराग्राफ निकालने के लिए ** ParagraphsByStyleName(Document, " शीर्षक 1”)** सहायक विधि का उपयोग करें।
- पैराग्राफों को किसी अन्य वस्तु में निकालने के लिए ParagraphsByStyleName(Document, “Heading 3] का उपयोग करें।
- कॉल करें ExtractContent(startPara, end Para, True) दोनों पैराग्राफ से पहले तत्वों के साथ।
- एक दस्तावेज़ बनाने के लिए GenerateDokument(Document, extractedNodes) सहायक विधि का उपयोग करें, जिसके साथ निकाल दिया गया सामग्री है।
- नए दस्तावेज़ को Document.Save(string) का उपयोग करके सहेजें।
यहाँ शैलियों के आधार पर पैराग्राफ के बीच सामग्री निकालने के लिए एक कोड नमूना है:
Read More Text Extraction के बारे में
Word दस्तावेजों से पाठ निकालने के लिए अतिरिक्त परिदृश्यों का पता लगाएं इस दस्तावेज का लेख.
एक मुफ्त Word पाठ एक्सट्रैक्टर लाइब्रेरी प्राप्त करें
आप एक प्राप्त कर सकते हैं मुफ्त अस्थायी लाइसेंस अनुमान लगाने की सीमा के बिना पाठ निकालने के लिए।
Conclusion
.NET के लिए Aspose.Words एक बहुमुखी पुस्तकालय है जो C# में Word दस्तावेजों से पाठ निकालने की प्रक्रिया को सरल बनाता है. इसके विशाल सुविधाओं और उपयोगकर्ता-अनुकूल एपीआई के साथ, आप प्रभावी ढंग से Word फ़ाइलों और विभिन्न पाठ निष्कर्षण परिदृश्यों को स्वचालित कर सकते हैं. चाहे आप उन अनुप्रयोगों का विकास कर रहे हों जिनके लिए Word वॉक प्रसंस्करण की आवश्यकता होती है या बस पाठ निकाला जाता है, .Net के बारे में ASPOSE. Words डेवलपर्स का एक आवश्यक उपकरण है।
.NET के लिए Aspose.Words की अधिक सुविधाओं का पता लगाने के लिये, देखें दस्तावेजयदि आपके कोई प्रश्न हैं, तो हमारे माध्यम से पहुंचने के लिए स्वतंत्र महसूस करें फोरम.
देखें भी
- MS Office के बिना C# में Word दस्तावेजों का निर्माण करें
- C# .NET में टेम्पलेट्स से Word दस्तावेज उत्पन्न करें
** टिप:** आप एस्पोजेस की जांच करना चाहते हैं PowerPoint में शब्द कनवर्टर, जो प्रस्तुतियों को Word दस्तावेजों में परिवर्तित करने की लोकप्रिय प्रक्रिया को दर्शाता है।
More in this category
- Word DOC/DOCX को C# .NET में PDF में परिवर्तित करें Aspose.Words' Document Converter Plugin
- Word दस्तावेजों (.NET, C#) में बारकोड उत्पन्न करें और Word ( .NET) से बार कोड पढ़ें
- C# में Word दस्तावेजों से छवियों को निकालने के लिए स्वचालित छवि प्रसंस्करण
- C# Mail के साथ स्वचालित रिपोर्टिंग Merge Aspose.Words' Mail merge Plugin
- Word दस्तावेजों में पाठ खोजें और प्रतिस्थापित करें C# का उपयोग करके स्वचालित Word संपादन