.NET के लिए Aspose.PDF टेक्स्ट एक्सट्रैक्टर प्लगइन एक शक्तिशाली उपकरण है जो डेवलपर्स को विभिन्न प्रारूपों में पीडीएफ दस्तावेजों से पाठ को प्रोग्रामिंग रूप से निकालने की अनुमति देता है. चाहे आपको संरचित, फ्लैट या कच्चे पाठ की आवश्यकता हो, यह प्लेइंग किसी भी काम के प्रवाह में लचीला आउटपुट मोड और बेकार एकीकरण प्रदान करता है।

Introduction

.NET के लिए Aspose.PDF टेक्स्ट एक्सट्रैक्टर प्लगइन को डिज़ाइन किया गया है ताकि डेवलपर्स को अधिकतम लचीलापन के साथ पीडीएफ फ़ाइलों से पाठ सामग्री को आसानी से निकालने में मदद मिल सके. यह उपकरण कई निष्कर्षण मोडों का समर्थन करता है – शुद्ध (संपादित), कच्चे (जैसे-यह), या सीधे (शुद्ध) – इसे विभिन्न उपयोग के मामलों जैसे दस्तावेज़ रूपांतरण, डेटा खनन, और सुलभता में सुधार के अनुकूल बनाता है.

Aspose.PDF पाठ एक्सट्रैक्टर प्लगइन कुंजी विशेषताएं

    • बहुआयामी निष्कर्षण मोड*- अपनी जरूरतों को पूरा करने के लिए शुद्ध (संपादित), कच्चे (स-स) या फ्लैट (शुद्ध) प्रारूपों में पाठ निकालें।
  • बैच पीडीएफ प्रसंस्करण- प्रभावी कार्यप्रवाह के लिए कई पीडीएफ फ़ाइलों को एक साथ संसाधित करें।

    • सरल .NET Integration*- किसी भी C# या .NET परियोजना में प्लगइन को आसानी से एकीकृत करें।

Aspose.PDF पाठ एक्सट्रैक्टर प्लगइन के साथ शुरू करें

  • ** .NET के लिए Aspose.PDF स्थापित करें**NuGet के माध्यम से जोड़ें या अपने .NET समाधान में संग्रह डाउनलोड करें।
  • ** अपनी लाइसेंस सेट करें**असीमित प्रसंस्करण और समर्थन के लिए प्लगइन को सक्षम करें।
  • संपादित करें निष्कर्षण विकल्पUse TextExtractor और TextExtractorOptions क्लास के रूप में इच्छित निष्कर्षण मोड सेट करने के लिए (शुद्ध, रस, प्लेन)।
  • प्रक्रिया और पाठ पुनर्प्राप्त करेंपरिणाम कंटेनर संग्रह के माध्यम से पाठ निष्कर्षण और एक्सेस परिणाम चलाएं।

उदाहरण: PDF (C#) से पाठ निकालना

Aspose.PDF का उपयोग करके एक ही पीडीएफ फ़ाइल से पाठ निकालने के लिए, इस उदाहरण का पालन करें:

using Aspose.Pdf.Plugins;

var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource("C:\\Samples\\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);

उदाहरण: कई पीडीएफ से बैच निकालने का पाठ

कई पीडीएफ फ़ाइलों के बैच प्रसंस्करण के लिए, निम्न उदाहरण का उपयोग करें:

string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}

Cases & Extensions का उपयोग करें

  • PDF to TXT रूपांतरण: इंडेक्सिंग, खोज, या संग्रह के लिए पीडीएफ को स्पष्ट पाठ में स्वचालित रूप से परिवर्तित करें।
  • डेटा खनन: अतिरिक्त प्रसंस्करण या विश्लेषण के लिए तालिका डेटा, बिल, या फॉर्म निकालें।
  • अनुकूलता: स्क्रीन पाठकों या वैकल्पिक प्रारूपों के लिए पढ़ने योग्य सामग्री तैयार करें।
  • बैच प्रोसेसिंग: विशिष्ट डाउनस्ट्रीम कार्यप्रवाहों के लिए निष्कर्षण मोड का उपयोग करें (उदाहरण में, ओसीआर प्री-प्रसंस्करण, इकाई पहचान)।

सर्वश्रेष्ठ अभ्यास

हमेशा आपके आउटपुट आवश्यकताओं के आधार पर उपयुक्त निष्कर्षण मोड का चयन करें. बड़े दस्तावेज़ सेट के लिए, बैच प्रसंस्करण पारगमन को अधिकतम कर सकता है और मैन्युअल प्रयास को कम कर सकते हैं. परीक्षण निकालने के परिणाम वास्तविक दुनिया के पीडीएफ के साथ डेटा सटीकता सुनिश्चित करते हैं।

More in this category