Extract Text from PDF C#

การสกัดข้อความจากไฟล์ PDF เป็นความต้องการทั่วไปในงานการประมวลผลเอกสาร บทความนี้ให้คําแนะนําอย่างลึกซึ้งเกี่ยวกับการใช้ Aspose.PDF Text Extractor Plugin สําหรับการสกัดข้อความที่มีประสิทธิภาพและหลากหลายใน C# ไม่ว่าคุณต้องการสกัดข้อความจากเอกสารทั้งหมดหน้าเฉพาะหรือภูมิภาคที่กําหนด ปลั๊กอิน Aspose ช่วยให้การสกัดข้อความ PDF ที่มีประสิทธิภาพสูงด้วยความพยายามต่ํา.

คุณสมบัติหลักของ Aspose.PDF Text Extractor Plugin

รายละเอียดของ Aspose.PDF Text Extractor Plugin

Aspose.PDF Text Extractor Plugin for .NET เป็นโซลูชันที่แข็งแกร่งสําหรับการสกัดข้อความจากเอกสาร PDF มันถูกออกแบบมาโดยเฉพาะสําหรับนักพัฒนาที่ทํางานกับแอพ .NET สนับสนุนทั้ง .NET Framework และ .NET Core สําหรับสกัดข้อความ PDF Plugin มีสามโหมดการทํางาน:

  • โหมดบริสุทธิ์: สารสกัดข้อความในขณะที่รักษารูปแบบและโครงสร้างเดิม.
  • โหมดสีแดง: สารสกัดข้อความโดยไม่มีการจัดรูปแบบใด ๆ.
  • **โหมดการวาง **: สารสกัดข้อความและลบรูปแบบและตัวอักษรพิเศษทั้งหมด.

ประโยชน์ของการใช้ Aspose.PDF

  • Batch Processing: จัดการไฟล์ PDF หลายไฟล์ในเวลาเดียวกัน.
  • การตั้งค่าที่กําหนดเอง: กําหนดค่าการสกัดเพื่อตอบสนองความต้องการเฉพาะของคุณ.
  • การบูรณาการแบบไร้สาย: การบูรณาการโดยตรงกับแอพ .NET สําหรับการทํางานที่ราบรื่น.
  • ประสิทธิภาพความเร็วสูง: เหมาะสําหรับการ استخراجข้อความที่รวดเร็วและแม่นยําพร้อมการใช้ทรัพยากรขั้นต่ํา.

เริ่มต้นด้วย C# PDF Text Extraction

อะไร Aspose.PDF สําหรับ .NET ห้องสมุดเป็นเครื่องมือที่ครอบคลุมสําหรับนักพัฒนา .NET ที่กําลังมองหาโซลูชั่นที่มีประสิทธิภาพสูง ** C# PDF Extract** คุณสามารถติดตั้งได้ง่ายผ่าน NuGet:

PM> Install-Package Aspose.PDF

ในทางเลือกคุณสามารถ ดาวน์โหลด DLL เพื่อรวมกันได้โดยตรงในโครงการของคุณให้การแก้ปัญหาที่เชื่อถือได้ C# PDF to Text.

การสกัดข้อความจาก PDF ทั้งหมดใน C#

เพื่อ استخراجข้อความทั้งหมดจาก PDF ทําตามขั้นตอนต่อไปน:

  • ดาวน์โหลด PDF โดยใช กระดาษ หลักสูตร.
  • สร้าง A TextAbsorber วัตถ.
  • แปลงตัวดูดซับไปยังทุกหน้า.
  • เก็บข้อความที่สกัดไปยังไฟล.

ตัวอย่างรหัส

การ extract Text from Specific Pages in PDF

เพื่อ استخراجข้อความจากหน้าเดียวโดยใช้ C# ต่อไปน:

  • ดาวน์โหลด PDF.
  • สร้าง A TextAbsorber.
  • แปลงตัวดูดซับไปยังหน้าที่ต้องการ.
  • เก็บข้อความที่สกัด.

ตัวอย่างรหัส

การสกัดข้อความจากภูมิภาคเฉพาะใน PDF

สําหรับการสกัดข้อความจากพื้นที่ที่เฉพาะเจาะจงของหน้าให้กําหนดแนวตั้งตามขั้นตอนต่อไปน:

  • ดาวน์โหลด PDF.
  • การตั้งค่า TextSearchOptions สําหรับภูมิภาคที่กําหนด.
  • แอพลิเคชัน TextAbsorber สําหรับภูมิภาค.
  • เก็บข้อความที่สกัด.

ตัวอย่างรหัส

ค้นหาและสกัดข้อความโดยใช้ Regex

เพื่อสกัดข้อความที่ตรงกับรูปแบบที่เฉพาะเจาะจงโดยใช้คําอธิบายปกต:

  • ดาวน์โหลด PDF.
  • ปรับแต่งรูปแบบ reggex.
  • ใช้แบบจําลอง TextAbsorber.
  • สารสกัด text fragments.

ตัวอย่างรหัส

การสกัดข้อมูลตารางเป็นข้อความใน C#

เพื่อ استخراجเนื้อหาจากตารางใช้ขั้นตอนต่อไปน:

  • ดาวน์โหลด PDF.
  • ใช TableAbsorber การนําทางผ่านโครงสร้างตาราง.
  • สารสกัดเซลล์ข้อความตามเซลล.

ตัวอย่างรหัส

การสกัดข้อความที่โดดเด่นใน PDF

เพื่อสกัดข้อความที่เน้น:

  • Iterate ผ่านการบันทึก.
  • ฟิล์ม TextMarkupAnnotation.
  • ลบและบันทึกชิ้นส่วนที่โดดเด่น.

ตัวอย่างรหัส

การเพิ่มประสิทธิภาพการ استخراجข้อความด้วยการใช้หน่วยความจําต่ํา

i) ใช **** และ ****:

  • โทรศัพท absorber.Reset() หลังจากประมวลผลแต่ละหน้า.
  • ฟรีหน่วยความจําที่เก็บไว้โดยหน้าที่ใช page.FreeMemory().

ii) ใช MemorySaving โหมด:

ชุด TextExtractionOptions.TextFormattingMode เพื่อเพิ่มประสิทธิภาพการใช้งานของหน่วยความจําในระหว่างการสกัดข้อความ PDF.

ตัวอย่างรหัส

ฟรี C# PDF Text Extraction Library

รับ A ใบอนุญาตชั่วคราวฟร สําหรับการเข้าถึงไม่ จํากัด ไปยัง Aspose.PDF สําหรับ .NET และเปิดตัวศักยภาพเต็มของมันสําหรับการแก้ปัญหาที่มีประสิทธิภาพ C# PDF Text Extraction นอกจากนี้คุณยังสามารถสํารวจตัวเลือกเช่น C# Convert PDF to Text และ c# Read Text from PDF สําหรับโซลูชั่นที่กําหนดเองรวมทั้ง c# Extract Text จาก PDF และ c # Read PDF text Free.

ข้อสรุป

Aspose.PDF’s Text Extractor Plugin for .NET ให้โซลูชันที่หลากหลายและมีประสิทธิภาพสําหรับงานการ استخراجข้อความที่เชื่อถือได้ จากการสกัดข้อความจากเอกสารทั้งหมดไปยังหน้าหรือภูมิภาคที่เฉพาะเจาะจงมันทําให้กระบวนการมีความแม่นยําและรวดเร็ว นี่ทําให้มันเป็นหนึ่งในห้องสมุดที่ดีที่สุด C# PDF Extract Text ที่สามารถใช้ได้ โปรดลองลองวันนี้เพื่อให้การทํางานของ PDF text extraction ของคุณง่ายขึ้นสําหรับเพียง $99!

More in this category