Text Extractor Plugin สําหรับ Aspose.PDF | File Format Processing Plugins for C# .NET Core

Aspose.PDF Text Extractor Plugin for .NET เป็นเครื่องมือที่มีประสิทธิภาพที่ช่วยให้ผู้พัฒนาสามารถ استخراجข้อความจากเอกสาร PDF ในรูปแบบที่แตกต่างกัน ไม่ว่าคุณต้องการโครงสร้างหรือข้อความสด โปรแกรมนี้มีโหมดการส่งออกที่ยืดหยุ่นและการรวมกันอย่างต่อเนื่องในกระบวนการทํางานใด ๆ ของ .NET.

บทนํา

Aspose.PDF Text Extractor Plugin สําหรับ .NET ได้รับการออกแบบมาเพื่อช่วยให้ผู้พัฒนาสามารถ استخراجเนื้อหาข้อความจากไฟล์ PDF ได้อย่างง่ายดายด้วยความยืดหยุ่นสูงสุด เครื่องมือนี้สนับสนุนโหมดการสกัดหลายแบบ - บริสุทธิ์ (รูปแบบ), วัตถุดิบ (เป็น) หรือเรียบ (ทําความสะอาด) - เพื่อให้เหมาะสําหรับการใช้งานต่างๆเช่นการแปลงเอกสารการทําเหมืองแร่ข้อมูลและการปรับปรุงการเข้าถึง.

Aspose.PDF Text Extractor Plugin คุณสมบัติหลัก

โหมดการกัดกร่อนหลายแบบ- สารสกัดข้อความในรูปแบบบริสุทธิ์ (รูปแบบ), วัตถุดิบ (เป็น) หรือเรียบ (ทําความสะอาด) เพื่อตอบสนองความต้องการของคุณ.
Batch การประมวลผล PDF- การประมวลผลไฟล์ PDF หลายไฟล์ในเวลาเดียวกันเพื่อการทํางานที่มีประสิทธิภาพ.
การบูรณาการ .NET ง่าย- Integrate the plugin into any C# or .NET project with ease.

เริ่มต้นด้วย Aspose.PDF Text Extractor Plugin

ติดตั้ง Aspose.PDF สําหรับ .NETเพิ่มผ่าน NuGet หรือดาวน์โหลดชุดไปยังโซลูชัน .NET ของคุณ.
กําหนดค่าใบอนุญาตของคุณเปิดใช้งานปลั๊กอินสําหรับการประมวลผลและสนับสนุนไม่ จํากัด.
การกําหนดค่าตัวเลือกการสกัดใช TextExtractor และ TextExtractorOptions ประเภทการตั้งค่าโหมดการสกัดตามความต้องการ (บริสุทธิ์ Raw, Plain).
กระบวนการและ Retrieve Textดําเนินการการสกัดข้อความและเข้าถึงผลผ่านการเก็บรวบรวมคอนเทนเนอร์ผล.

ตัวอย่าง: สารสกัดข้อความจาก PDF (C#)

เพื่อ extract text from a single PDF file using Aspose.PDF, ต่อไปนี้ ตัวอย่าง:

using Aspose.Pdf.Plugins;

var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource("C:\\Samples\\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);

ตัวอย่าง: สารสกัดข้อความจาก PDF จํานวนมาก

สําหรับการประมวลผลชุดของไฟล์ PDF มากมายใช้ตัวอย่างต่อไปน:

string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}

ใช้ Cases & Extensions

PDF ไปยัง TXT แปลง: การแปลงอัตโนมัติของไฟล์ PDF เพื่อข้อความที่เรียบเพื่อการ indexing, search, หรือ archival.
**การทําเหมืองแร่ข้อมูล:**สกัดข้อมูลตารางบัญชีหรือแบบฟอร์มสําหรับการประมวลผลเพิ่มเติมหรือวิเคราะห.
**การเข้าถึง:**เตรียมเนื้อหาที่สามารถอ่านได้สําหรับผู้อ่านหน้าจอหรือรูปแบบอื่น ๆ.
**การประมวลผลแบทช์:**ใช้โหมดการสกัดสําหรับกระแสทํางานต่ําที่เฉพาะเจาะจง (เช่น OCR Pre-Processing, Entity Recognition).

แนวทางที่ดีที่สุด

เลือกโหมดการสกัดที่เหมาะสมขึ้นอยู่กับความต้องการการผลิตของคุณ สําหรับชุดเอกสารขนาดใหญ่การประมวลผลชุดสามารถเพิ่มประสิทธิภาพการผ่านและลดความพยายามด้วยตนเอง ผลการทดสอบด้วย PDFs ในโลกจริงเพื่อให้แน่ใจว่าข้อมูลถูกต้อง.

บทนํา#

Aspose.PDF Text Extractor Plugin คุณสมบัติหลัก#

เริ่มต้นด้วย Aspose.PDF Text Extractor Plugin#

ตัวอย่าง: สารสกัดข้อความจาก PDF (C#)#

ตัวอย่าง: สารสกัดข้อความจาก PDF จํานวนมาก#

ใช้ Cases & Extensions#

แนวทางที่ดีที่สุด#

More in this category