
पीडीएफ फ़ाइलों से पाठ निकालना दस्तावेज़ प्रसंस्करण कार्यों में एक आम आवश्यकता है. इस लेख में Aspose.PDF के पाठ एक्सट्रैक्टर प्लगइन का उपयोग करने के लिए एक गहराई से मार्गदर्शक प्रदान किया जाता है ताकि C# में प्रभावी और विविध पाठ निष्कर्षण किया जा सके. चाहे आपको पूरे एक वृत्तचित्र, विशिष्ट पृष्ठों या परिभाषित क्षेत्रों की आवश्यकता हो या नहीं, Aspose पल्गिन कम से कम प्रयास के साथ उच्च-प्रदर्शन PDF पाठ निकासी को सुविधाजनक बनाता है।
Aspose.PDF के पाठ निकालने प्लगइन की कुंजी विशेषताएं
- एक पूर्ण पीडीएफ से पाठ निकालना
- विशिष्ट पृष्ठों से पाठ निकालना
- एक विशिष्ट क्षेत्र से पाठ निकालना
- Regex का उपयोग करके खोज और पाठ निकालना
- टेबल डेटा को पाठ के रूप में निकालना
- उजागर किए गए पाठ का संदर्भ
- कम स्मृति उपयोग के साथ पाठ निष्कर्षण को अनुकूलित करें
Aspose.PDF के पाठ एक्सट्रैक्टर प्लगइन की समीक्षा
Aspose.PDF का टेक्स्ट एक्सट्रैक्टर प्लगइन .NET PDF दस्तावेजों से पाठ निकालने के लिए एक मजबूत समाधान है. यह विशेष रूप से .Net अनुप्रयोगों के साथ काम करने वाले डेवलपर्स को डिज़ाइन किया गया है, दोनों .net फ्रेमवर्क और .नेट कोर को पीडीएफ पाठ निष्कर्षण में समर्थित करता है।
- ** शुद्ध मोड** : मूल प्रारूपण और संरचना को बनाए रखते हुए पाठ निकालता है।
- Raw मोड : किसी भी प्रारूपण के बिना पाठ निकालता है।
- ** प्लान मोड** : पाठ निकालता है और सभी प्रारूपण और विशेष पात्रों को हटा देता है।
Aspose.PDF का उपयोग करने के लाभ
- बैच प्रोसेसिंग : एक ही समय में कई पीडीएफ को संसाधित करें।
- अनुकूलित सेटिंग्स : अपनी विशिष्ट जरूरतों के अनुरूप टॉयलेट निष्कर्षण सेटअप को समायोजित करें।
- Seamless Integration : सुचारू कार्यप्रवाह के लिए .NET अनुप्रयोगों के साथ सीधे एकीकृत करता है।
- उच्च-स्पीड प्रदर्शन : न्यूनतम संसाधन खपत के साथ तेजी से, सटीक पाठ निकालने के लिए अनुकूलित।
C# PDF पाठ निकालने के साथ शुरू करें
The .NET के लिए Aspose.PDF पुस्तकालय .NET डेवलपर्स के लिए एक व्यापक उपकरण है जो उच्च प्रदर्शन C# PDF Extract समाधानों की तलाश में हैं. आप इसे NuGet के माध्यम से आसानी से स्थापित कर सकते हैं:
PM> Install-Package Aspose.PDF
वैकल्पिक रूप से, आप डाउनलोड करें DLL इसे सीधे आपके परियोजना में एकीकृत करने के लिए, एक विश्वसनीय C# PDF to Text समाधान प्रदान करें।
C# में एक पूर्ण PDF से पाठ निकालना
सभी पाठ को एक पीडीएफ से निकालने के लिए, इन चरणों का पालन करें:
- PDF का उपयोग करके डाउनलोड करें Document कक्षा है।
- बनाने के लिए A TextAbsorber वस्तु है।
- सभी पृष्ठों पर अवशोषक लागू करें।
- एक फ़ाइल में निकाले गए पाठ को सहेजें।
उदाहरण कोड
PDF में विशिष्ट पृष्ठों से पाठ निकालना
C# का उपयोग करके एक पृष्ठ से पाठ निकालने के लिए, इन चरणों का पालन करें:
- पीडीएफ डाउनलोड करें।
- बनाने के लिए A TextAbsorber.
- इच्छित पृष्ठ पर अवशोषक लागू करें।
- निकाले गए पाठ को बचाएं।
उदाहरण कोड
PDF में विशिष्ट क्षेत्रों से पाठ निकालना
एक पृष्ठ के विशिष्ट क्षेत्रों से पाठ निकालने के लिए, सीधे निर्देशांक निर्धारित करें. इन चरणों का पालन करें:
- पीडीएफ डाउनलोड करें।
- Configure TextSearchOptions परिभाषित क्षेत्र के लिए।
- लागू करें TextAbsorber इस क्षेत्र में।
- निकाले गए पाठ को बचाएं।
उदाहरण कोड
Regex का उपयोग करके पाठ खोज और निकालना
नियमित अभिव्यक्तियों का उपयोग करके एक विशिष्ट पैटर्न के अनुरूप पाठ निकालने के लिए:
- पीडीएफ डाउनलोड करें।
- एक रेगेक्स पैटर्न निर्धारित करें।
- पैटर्न का उपयोग करें TextAbsorber.
- अनुकूलित पाठ टुकड़े निकालने के लिए।
उदाहरण कोड
टेबल डेटा को C# में पाठ के रूप में निकालना
तालिकाओं से सामग्री निकालने के लिए, निम्नलिखित चरणों का उपयोग करें:
- पीडीएफ डाउनलोड करें।
- Use TableAbsorber तालिका संरचनाओं के माध्यम से नाविगेशन करने के लिए।
- पाठ कोशिका से निकालें।
उदाहरण कोड
पीडीएफ में उजागर किए गए पाठ को निकालना
जोर देने वाले पाठ के लिए:
- नोटों के माध्यम से प्रदर्शित करें।
- Filter TextMarkupAnnotation.
- रिटायर करें और उजागर किए गए टुकड़ों को बचाएं।
उदाहरण कोड
कम स्मृति उपयोग के साथ पाठ निकालने का अनुकूलन
1) उपयोग करने के लिए **** और ****:
- Call
absorber.Reset()
प्रत्येक पृष्ठ को संसाधित करने के बाद। - मुफ्त स्मृति का उपयोग पृष्ठों द्वारा किया जाता है
page.FreeMemory()
.
2. उपयोग करने के लिए MemorySaving फैशन :
Set TextExtractionOptions.TextFormattingMode
पीडीएफ पाठ निकालने के दौरान स्मृति का उपयोग करने के लिए।
उदाहरण कोड
मुफ्त C# PDF पाठ निकालने लाइब्रेरी
प्राप्त करें A मुफ्त अस्थायी लाइसेंस .NET के लिए Aspose.PDF तक असीमित पहुंच और प्रभावी C# PDF Text Extraction ** समाधानों की पूरी क्षमता को अनलॉक कर सकते हैं. आप अनुकूलित समाधान, जिनमें शामिल हैं ** C# पाठ PDF में परिवर्तित करें ** और ** PDF से पाठ पढ़ें ** के रूप में विकल्पों का भी पता लगाने में सक्षम हैं, जिसमें ** सी # पाठ पीडीएफ से निकालें ** या ** पीडिएफ पाठ मुफ्त में पढ़ें शामिल है.
Conclusion
Aspose.PDF का टेक्स्ट एक्सट्रैक्टर प्लगइन .NET के लिए विश्वसनीय पाठ निष्कर्षण कार्यों के बारे में एक विविध और प्रभावी समाधान प्रदान करता है. पूरे दस्तावेजों से विशिष्ट पृष्ठों या क्षेत्रों तक पाठ निकालने से, यह प्रक्रिया को सटीकता और गति के साथ सरल बनाता है। यह उपलब्ध सर्वश्रेष्ठ C# PDF Extrakt Text पुस्तकालयों में से एक बन जाता है!