Extract Text from PDF C#

การดึงข้อความจากไฟล์ PDF เป็นความต้องการทั่วไปในงานประมวลผลเอกสาร บทความนี้ให้แนวทางเชิงลึกในการใช้ Aspose.PDF’s Text Extractor Plugin สำหรับการดึงข้อความที่มีประสิทธิภาพและหลากหลายใน C# ไม่ว่าคุณจะต้องการดึงข้อความจากเอกสารทั้งหมด หน้าเฉพาะ หรือพื้นที่ที่กำหนดปลั๊กอิน Aspose ช่วยให้การดึงข้อความจาก PDF มีประสิทธิภาพสูงด้วยความพยายามน้อยที่สุด


คุณสมบัติที่ครอบคลุม


เน้นปลั๊กอิน Text Extractor ของ Aspose.PDF

Aspose.PDF’s Text Extractor Plugin สำหรับ .NET เป็นโซลูชันที่เชื่อถือได้สำหรับการดึงข้อความจากเอกสาร PDF มันถูกออกแบบมาโดยเฉพาะสำหรับนักพัฒนาที่ทำงานกับแอปพลิเคชัน .NET รองรับการดึงข้อความ PDF ทั้ง .NET Framework และ .NET Core ปลั๊กอินนี้มีโหมดการทำงานสามโหมด:

  1. โหมดบริสุทธิ์: ดึงข้อความในขณะที่รักษาฟอร์แมตและโครงสร้างเดิม
  2. โหมดดิบ: ดึงข้อความโดยไม่มีการฟอร์แมต
  3. โหมดธรรมดา: ดึงข้อความและลบฟอร์แมตและอักขระพิเศษ

ประโยชน์

  • รองรับการประมวลผลแบบแบตช์สำหรับ PDF หลายไฟล์
  • เสนอการตั้งค่าการดึงข้อมูลที่ปรับแต่งได้เพื่อตอบสนองความต้องการเฉพาะ
  • การรวมเข้ากับแอปพลิเคชัน .NET โดยตรงทำให้การทำงานเป็นไปอย่างราบรื่น
  • ปรับแต่งสำหรับการดึงข้อความที่รวดเร็วและแม่นยำด้วยการใช้ทรัพยากรน้อยที่สุด

ไลบรารีการดึงข้อความ PDF ใน C#

ไลบรารี Aspose.PDF สำหรับ .NET เป็นเครื่องมือที่ครอบคลุมสำหรับนักพัฒนาที่มองหาการดึงข้อความ PDF ที่มีประสิทธิภาพสูงใน C# คุณสามารถติดตั้งได้ง่ายผ่าน NuGet:

PM> Install-Package Aspose.PDF

หรือคุณสามารถ ดาวน์โหลด DLL เพื่อนำไปใช้โดยตรงในโปรเจ็กต์ของคุณ ซึ่งให้โซลูชันการดึงข้อความ PDF C# ที่เชื่อถือได้


ดึงข้อความจาก PDF ทั้งหมดใน C#

ในการดึงข้อความทั้งหมดจาก PDF ให้ทำตามขั้นตอนเหล่านี้:

  1. โหลด PDF โดยใช้คลาส Document
  2. สร้างวัตถุ TextAbsorber
  3. ใช้ตัวดูดกับทุกหน้า
  4. บันทึกข้อความที่ดึงออกมาไปยังไฟล์

ตัวอย่างโค้ด


ดึงข้อความจากหน้าที่เฉพาะใน PDF

ในการดึงข้อความจากหน้าหนึ่ง:

  1. โหลด PDF
  2. สร้าง TextAbsorber
  3. ใช้ตัวดูดกับหน้าที่ต้องการ
  4. บันทึกข้อความที่ดึงออกมา

ตัวอย่างโค้ด


ดึงข้อความจากพื้นที่เฉพาะใน PDF

การดึงข้อความจากพื้นที่เฉพาะของหน้าเกี่ยวข้องกับการกำหนดพิกัดสี่เหลี่ยม ขั้นตอนประกอบด้วย:

  1. โหลด PDF
  2. กำหนด TextSearchOptions สำหรับพื้นที่ที่กำหนด
  3. ใช้ TextAbsorber กับพื้นที่
  4. บันทึกข้อความที่ดึงออกมา

ตัวอย่างโค้ด


ค้นหาและดึงข้อความโดยใช้ Regex

ในการดึงข้อความที่ตรงกับรูปแบบเฉพาะโดยใช้การแสดงออกปกติ:

  1. โหลด PDF
  2. กำหนดรูปแบบ regex
  3. ใช้รูปแบบโดยใช้ TextAbsorber
  4. ดึงชิ้นส่วนข้อความที่ตรงกัน

ตัวอย่างโค้ด


ดึงข้อมูลตารางเป็นข้อความใน C#

ในการดึงเนื้อหาตาราง:

  1. โหลด PDF
  2. ใช้ TableAbsorber เพื่อนำทางผ่านโครงสร้างตาราง
  3. ดึงข้อความทีละเซลล์

ตัวอย่างโค้ด


ดึงข้อความที่เน้นใน PDF

ในการดึงข้อความที่เน้น:

  1. ทำซ้ำผ่านการอนุญาต
  2. กรอง TextMarkupAnnotation
  3. ดึงและบันทึกชิ้นส่วนที่เน้น

ตัวอย่างโค้ด


ปรับแต่งการดึงข้อความโดยใช้หน่วยความจำน้อย

i) ใช้ Reset() และ FreeMemory():

  1. เรียกใช้ absorber.Reset() หลังจากประมวลผลแต่ละหน้า
  2. ปล่อยหน่วยความจำที่ถือโดยหน้าใช้ page.FreeMemory()

ii) ใช้โหมด MemorySaving:

ตั้งค่า TextExtractionOptions.TextFormattingMode เพื่อลดการใช้หน่วยความจำในระหว่างการดึงข้อความ PDF

ตัวอย่างโค้ด


ไลบรารีการดึงข้อความ PDF ฟรีใน C#

รับ ใบอนุญาตชั่วคราวฟรี สำหรับการเข้าถึง Aspose.PDF สำหรับ .NET โดยไม่มีข้อจำกัดและปลดล็อกศักยภาพทั้งหมดสำหรับการดึงข้อความ PDF C# ที่มีประสิทธิภาพ


สรุป

ปลั๊กอิน Text Extractor ของ Aspose.PDF สำหรับ .NET เสนอวิธีการที่หลากหลายและมีประสิทธิภาพสำหรับงานการดึงข้อความที่เชื่อถือได้ จากเอกสารทั้งหมดไปยังหน้าหรือพื้นที่เฉพาะ มันทำให้กระบวนการเป็นไปอย่างแม่นยำและรวดเร็ว ทำให้มันเป็นหนึ่งในไลบรารีการดึงข้อความ PDF C# ที่ดีที่สุดที่มีอยู่ ลองใช้วันนี้เพื่อทำให้การทำงานดึงข้อความ PDF ของคุณง่ายขึ้นในราคาเพียง $99!