แปลง PDF ที่สแกนเป็น Word ใน C#

บทนำ

ไฟล์ PDF ที่สแกนมักจะเก็บข้อความเป็นภาพ ซึ่งทำให้ไม่สามารถเลือก แก้ไข หรือคัดลอกเนื้อหาได้ หากคุณต้องการ แปลง PDF ที่สแกนเป็นเอกสาร Word ที่แก้ไขได้ เทคโนโลยีการรู้จำอักขระด้วยแสง (OCR) จะให้วิธีที่มีประสิทธิภาพในการดึงข้อความในขณะที่ยังคงรูปแบบดั้งเดิม ในบทความนี้ คุณจะได้เรียนรู้วิธีการ แปลง PDF ที่สแกนเป็น Word (DOCX หรือ DOC) โดยใช้ C# ด้วย Aspose.OCR สำหรับ .NET และ Aspose.Words สำหรับ .NET ไลบรารี

ทำไมต้องแปลง PDF ที่สแกนเป็น Word?

มีเหตุผลหลายประการที่น่าสนใจในการแปลง PDF ที่สแกนเป็นเอกสาร Word:

  • แก้ไขเอกสารที่สแกนได้อย่างง่ายดาย: แก้ไขข้อความโดยไม่ต้องพิมพ์ใหม่ด้วยมือ
  • ดึงข้อความสำหรับการประมวลผลเพิ่มเติม: ใช้ข้อความที่ถูกดึงออกมาสำหรับการวิเคราะห์หรือแอปพลิเคชันอื่นๆ
  • รักษาเลย์เอาต์และรูปแบบ: รักษาโครงสร้างของเอกสารดั้งเดิมในขณะที่ทำให้แก้ไขได้
  • ทำให้การประมวลผลเอกสารที่ใช้ OCR เป็นอัตโนมัติ: รวมฟังก์ชันนี้เข้ากับแอปพลิเคชัน C# ของคุณได้อย่างราบรื่น

สารบัญ

  1. ตั้งค่า OCR API สำหรับการแปลง PDF ที่สแกนเป็น Word
  2. แปลง PDF ที่สแกนเป็นเอกสาร Word ที่แก้ไขได้
  3. การรักษารูปแบบในการแปลง OCR
  4. การจัดการหลายหน้าใน PDF ที่สแกน
  5. ใบอนุญาตสำหรับความแม่นยำของ OCR เต็มรูปแบบ
  6. บทสรุปและแหล่งข้อมูลเพิ่มเติม

1. ตั้งค่า OCR API สำหรับการแปลง PDF ที่สแกนเป็น Word

เพื่อดึงข้อความจาก PDF ที่สแกนและแปลงเป็นเอกสาร Word เราจะใช้:

  • Aspose.OCR สำหรับ .NET – เครื่องมือที่ทรงพลังที่สามารถรู้จำข้อความจากภาพที่สแกนได้
  • Aspose.Words สำหรับ .NET – ไลบรารีนี้จะแปลงข้อความที่ถูกดึงออกมาเป็นรูปแบบ Word

การติดตั้ง

คุณสามารถติดตั้ง APIs เหล่านี้ได้อย่างง่ายดายผ่าน NuGet ด้วยคำสั่งต่อไปนี้:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

นอกจากนี้ คุณยังสามารถดาวน์โหลด DLLs จาก Aspose Downloads Page ได้อีกด้วย


2. แปลง PDF ที่สแกนเป็นเอกสาร Word ที่แก้ไขได้

ทำตามขั้นตอนเหล่านี้เพื่อ แปลงไฟล์ PDF ที่สแกนเป็น Word (DOCX หรือ DOC) ใน C#:

  1. เริ่มต้น OCR ด้วย AsposeOcr
  2. ดึงข้อความ โดยใช้ DocumentRecognitionSettings
  3. เก็บข้อความที่รู้จำได้ ใน StringBuilder
  4. สร้างเอกสาร Word โดยใช้ Aspose.Words
  5. ใช้รูปแบบ และบันทึกเป็น DOCX หรือ DOC

ตัวอย่างโค้ด

นี่คือตัวอย่าง C# ที่แสดงการ แปลง PDF ที่สแกนเป็น Word:


3. การรักษารูปแบบในการแปลง OCR

แม้ว่าการดึงข้อความด้วย OCR จะทรงพลัง แต่ก็อาจไม่สามารถรักษา รูปแบบดั้งเดิม ฟอนต์ และสไตล์ ได้เสมอไป เพื่อให้แน่ใจว่ารูปแบบถูกต้อง ให้พิจารณาเคล็ดลับต่อไปนี้:

  • ใช้สไตล์ย่อหน้า Aspose.Words เพื่อใช้รูปแบบข้อความที่สอดคล้องกัน
  • ตั้งค่าคุณสมบัติฟอนต์ เช่น ขนาด ตัวหนา ตัวเอียง และการจัดตำแหน่ง
  • ปรับขอบหน้าและเลย์เอาต์ เพื่อปรับปรุงผลลัพธ์เอกสาร Word

4. การจัดการหลายหน้าใน PDF ที่สแกน

สำหรับ PDF ที่สแกนหลายหน้า การประมวลผลและรวมข้อความจากทุกหน้าลงในเอกสาร Word เดียวเป็นสิ่งสำคัญ เพื่อให้บรรลุเป้าหมายนี้:

  • วนรอบผ่านแต่ละหน้า ใน PDF ที่สแกน
  • รู้จำข้อความต่อหน้า และเก็บไว้ใน StringBuilder
  • เพิ่มข้อความที่รู้จำได้ ลงในเอกสาร Word

วิธีนี้จะช่วยให้การ แปลง PDF ที่สแกนหลายหน้าเป็น Word เป็นไปอย่างราบรื่น


5. ใบอนุญาตสำหรับความแม่นยำของ OCR เต็มรูปแบบ

โดยค่าเริ่มต้น Aspose.OCR ทำงานในโหมดการประเมิน ซึ่งอาจ จำกัดความแม่นยำในการรู้จำข้อความ เพื่อปลดล็อกศักยภาพเต็มรูปแบบของ API:

🔹 ขอ ใบอนุญาตชั่วคราวฟรี เพื่อวัตถุประสงค์ในการประเมินผล


6. บทสรุปและแหล่งข้อมูลเพิ่มเติม

สรุป

ในคู่มือนี้ เราได้ครอบคลุม:

✅ การตั้งค่า Aspose.OCR สำหรับการประมวลผล PDF ที่สแกน
✅ การดึง ข้อความจาก PDF ที่สแกนใน C#
✅ การแปลง ข้อความที่รู้จำได้เป็นเอกสาร Word ที่มีรูปแบบ
✅ การจัดการ การแปลง PDF ที่สแกนหลายหน้าเป็น Word


โดยการใช้ Aspose.OCR และ Aspose.Words คุณสามารถ แปลง PDF ที่มีพื้นฐานจากภาพเป็นไฟล์ Word ที่แก้ไขได้ ได้อย่างง่ายดาย เริ่มสร้าง ตัวแปลง PDF เป็น Word ที่ขับเคลื่อนด้วย OCR ใน .NET วันนี้ในราคาเพียง 99 ดอลลาร์! 🚀