
การดึงข้อความจากไฟล์ PDF เป็นความต้องการทั่วไปในงานประมวลผลเอกสาร บทความนี้ให้แนวทางเชิงลึกในการใช้ Aspose.PDF’s Text Extractor Plugin สำหรับการดึงข้อความที่มีประสิทธิภาพและหลากหลายใน C# ไม่ว่าคุณจะต้องการดึงข้อความจากเอกสารทั้งหมด หน้าเฉพาะ หรือพื้นที่ที่กำหนดปลั๊กอิน Aspose ช่วยให้การดึงข้อความจาก PDF มีประสิทธิภาพสูงด้วยความพยายามน้อยที่สุด
คุณสมบัติที่ครอบคลุม
- ดึงข้อความจาก PDF ทั้งหมด
- ดึงข้อความจากหน้าที่เฉพาะ
- ดึงข้อความจากพื้นที่เฉพาะ
- ค้นหาและดึงข้อความโดยใช้ Regex
- ดึงข้อมูลตารางเป็นข้อความ
- ดึงข้อความที่เน้น
- ปรับแต่งการดึงข้อความโดยใช้หน่วยความจำน้อย
เน้นปลั๊กอิน Text Extractor ของ Aspose.PDF
Aspose.PDF’s Text Extractor Plugin สำหรับ .NET เป็นโซลูชันที่เชื่อถือได้สำหรับการดึงข้อความจากเอกสาร PDF มันถูกออกแบบมาโดยเฉพาะสำหรับนักพัฒนาที่ทำงานกับแอปพลิเคชัน .NET รองรับการดึงข้อความ PDF ทั้ง .NET Framework และ .NET Core ปลั๊กอินนี้มีโหมดการทำงานสามโหมด:
- โหมดบริสุทธิ์: ดึงข้อความในขณะที่รักษาฟอร์แมตและโครงสร้างเดิม
- โหมดดิบ: ดึงข้อความโดยไม่มีการฟอร์แมต
- โหมดธรรมดา: ดึงข้อความและลบฟอร์แมตและอักขระพิเศษ
ประโยชน์
- รองรับการประมวลผลแบบแบตช์สำหรับ PDF หลายไฟล์
- เสนอการตั้งค่าการดึงข้อมูลที่ปรับแต่งได้เพื่อตอบสนองความต้องการเฉพาะ
- การรวมเข้ากับแอปพลิเคชัน .NET โดยตรงทำให้การทำงานเป็นไปอย่างราบรื่น
- ปรับแต่งสำหรับการดึงข้อความที่รวดเร็วและแม่นยำด้วยการใช้ทรัพยากรน้อยที่สุด
ไลบรารีการดึงข้อความ PDF ใน C#
ไลบรารี Aspose.PDF สำหรับ .NET เป็นเครื่องมือที่ครอบคลุมสำหรับนักพัฒนาที่มองหาการดึงข้อความ PDF ที่มีประสิทธิภาพสูงใน C# คุณสามารถติดตั้งได้ง่ายผ่าน NuGet:
PM> Install-Package Aspose.PDF
หรือคุณสามารถ ดาวน์โหลด DLL เพื่อนำไปใช้โดยตรงในโปรเจ็กต์ของคุณ ซึ่งให้โซลูชันการดึงข้อความ PDF C# ที่เชื่อถือได้
ดึงข้อความจาก PDF ทั้งหมดใน C#
ในการดึงข้อความทั้งหมดจาก PDF ให้ทำตามขั้นตอนเหล่านี้:
- โหลด PDF โดยใช้คลาส Document
- สร้างวัตถุ TextAbsorber
- ใช้ตัวดูดกับทุกหน้า
- บันทึกข้อความที่ดึงออกมาไปยังไฟล์
ตัวอย่างโค้ด
ดึงข้อความจากหน้าที่เฉพาะใน PDF
ในการดึงข้อความจากหน้าหนึ่ง:
- โหลด PDF
- สร้าง TextAbsorber
- ใช้ตัวดูดกับหน้าที่ต้องการ
- บันทึกข้อความที่ดึงออกมา
ตัวอย่างโค้ด
ดึงข้อความจากพื้นที่เฉพาะใน PDF
การดึงข้อความจากพื้นที่เฉพาะของหน้าเกี่ยวข้องกับการกำหนดพิกัดสี่เหลี่ยม ขั้นตอนประกอบด้วย:
- โหลด PDF
- กำหนด TextSearchOptions สำหรับพื้นที่ที่กำหนด
- ใช้ TextAbsorber กับพื้นที่
- บันทึกข้อความที่ดึงออกมา
ตัวอย่างโค้ด
ค้นหาและดึงข้อความโดยใช้ Regex
ในการดึงข้อความที่ตรงกับรูปแบบเฉพาะโดยใช้การแสดงออกปกติ:
- โหลด PDF
- กำหนดรูปแบบ regex
- ใช้รูปแบบโดยใช้ TextAbsorber
- ดึงชิ้นส่วนข้อความที่ตรงกัน
ตัวอย่างโค้ด
ดึงข้อมูลตารางเป็นข้อความใน C#
ในการดึงเนื้อหาตาราง:
- โหลด PDF
- ใช้ TableAbsorber เพื่อนำทางผ่านโครงสร้างตาราง
- ดึงข้อความทีละเซลล์
ตัวอย่างโค้ด
ดึงข้อความที่เน้นใน PDF
ในการดึงข้อความที่เน้น:
- ทำซ้ำผ่านการอนุญาต
- กรอง TextMarkupAnnotation
- ดึงและบันทึกชิ้นส่วนที่เน้น
ตัวอย่างโค้ด
ปรับแต่งการดึงข้อความโดยใช้หน่วยความจำน้อย
i) ใช้ Reset() และ FreeMemory():
- เรียกใช้
absorber.Reset()
หลังจากประมวลผลแต่ละหน้า - ปล่อยหน่วยความจำที่ถือโดยหน้าใช้
page.FreeMemory()
ii) ใช้โหมด MemorySaving:
ตั้งค่า TextExtractionOptions.TextFormattingMode
เพื่อลดการใช้หน่วยความจำในระหว่างการดึงข้อความ PDF
ตัวอย่างโค้ด
ไลบรารีการดึงข้อความ PDF ฟรีใน C#
รับ ใบอนุญาตชั่วคราวฟรี สำหรับการเข้าถึง Aspose.PDF สำหรับ .NET โดยไม่มีข้อจำกัดและปลดล็อกศักยภาพทั้งหมดสำหรับการดึงข้อความ PDF C# ที่มีประสิทธิภาพ
สรุป
ปลั๊กอิน Text Extractor ของ Aspose.PDF สำหรับ .NET เสนอวิธีการที่หลากหลายและมีประสิทธิภาพสำหรับงานการดึงข้อความที่เชื่อถือได้ จากเอกสารทั้งหมดไปยังหน้าหรือพื้นที่เฉพาะ มันทำให้กระบวนการเป็นไปอย่างแม่นยำและรวดเร็ว ทำให้มันเป็นหนึ่งในไลบรารีการดึงข้อความ PDF C# ที่ดีที่สุดที่มีอยู่ ลองใช้วันนี้เพื่อทำให้การทำงานดึงข้อความ PDF ของคุณง่ายขึ้นในราคาเพียง $99!