
บทนำ
ไฟล์ PDF ที่สแกนมักจะเก็บข้อความเป็นภาพ ซึ่งทำให้ไม่สามารถเลือก แก้ไข หรือคัดลอกเนื้อหาได้ หากคุณต้องการ แปลง PDF ที่สแกนเป็นเอกสาร Word ที่แก้ไขได้ เทคโนโลยีการรู้จำอักขระด้วยแสง (OCR) จะให้วิธีที่มีประสิทธิภาพในการดึงข้อความในขณะที่ยังคงรูปแบบดั้งเดิม ในบทความนี้ คุณจะได้เรียนรู้วิธีการ แปลง PDF ที่สแกนเป็น Word (DOCX หรือ DOC) โดยใช้ C# ด้วย Aspose.OCR สำหรับ .NET และ Aspose.Words สำหรับ .NET ไลบรารี
ทำไมต้องแปลง PDF ที่สแกนเป็น Word?
มีเหตุผลหลายประการที่น่าสนใจในการแปลง PDF ที่สแกนเป็นเอกสาร Word:
- แก้ไขเอกสารที่สแกนได้อย่างง่ายดาย: แก้ไขข้อความโดยไม่ต้องพิมพ์ใหม่ด้วยมือ
- ดึงข้อความสำหรับการประมวลผลเพิ่มเติม: ใช้ข้อความที่ถูกดึงออกมาสำหรับการวิเคราะห์หรือแอปพลิเคชันอื่นๆ
- รักษาเลย์เอาต์และรูปแบบ: รักษาโครงสร้างของเอกสารดั้งเดิมในขณะที่ทำให้แก้ไขได้
- ทำให้การประมวลผลเอกสารที่ใช้ OCR เป็นอัตโนมัติ: รวมฟังก์ชันนี้เข้ากับแอปพลิเคชัน C# ของคุณได้อย่างราบรื่น
สารบัญ
- ตั้งค่า OCR API สำหรับการแปลง PDF ที่สแกนเป็น Word
- แปลง PDF ที่สแกนเป็นเอกสาร Word ที่แก้ไขได้
- การรักษารูปแบบในการแปลง OCR
- การจัดการหลายหน้าใน PDF ที่สแกน
- ใบอนุญาตสำหรับความแม่นยำของ OCR เต็มรูปแบบ
- บทสรุปและแหล่งข้อมูลเพิ่มเติม
1. ตั้งค่า OCR API สำหรับการแปลง PDF ที่สแกนเป็น Word
เพื่อดึงข้อความจาก PDF ที่สแกนและแปลงเป็นเอกสาร Word เราจะใช้:
- Aspose.OCR สำหรับ .NET – เครื่องมือที่ทรงพลังที่สามารถรู้จำข้อความจากภาพที่สแกนได้
- Aspose.Words สำหรับ .NET – ไลบรารีนี้จะแปลงข้อความที่ถูกดึงออกมาเป็นรูปแบบ Word
การติดตั้ง
คุณสามารถติดตั้ง APIs เหล่านี้ได้อย่างง่ายดายผ่าน NuGet ด้วยคำสั่งต่อไปนี้:
PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words
นอกจากนี้ คุณยังสามารถดาวน์โหลด DLLs จาก Aspose Downloads Page ได้อีกด้วย
2. แปลง PDF ที่สแกนเป็นเอกสาร Word ที่แก้ไขได้
ทำตามขั้นตอนเหล่านี้เพื่อ แปลงไฟล์ PDF ที่สแกนเป็น Word (DOCX หรือ DOC) ใน C#:
- เริ่มต้น OCR ด้วย
AsposeOcr
- ดึงข้อความ โดยใช้
DocumentRecognitionSettings
- เก็บข้อความที่รู้จำได้ ใน
StringBuilder
- สร้างเอกสาร Word โดยใช้
Aspose.Words
- ใช้รูปแบบ และบันทึกเป็น DOCX หรือ DOC
ตัวอย่างโค้ด
นี่คือตัวอย่าง C# ที่แสดงการ แปลง PDF ที่สแกนเป็น Word:
3. การรักษารูปแบบในการแปลง OCR
แม้ว่าการดึงข้อความด้วย OCR จะทรงพลัง แต่ก็อาจไม่สามารถรักษา รูปแบบดั้งเดิม ฟอนต์ และสไตล์ ได้เสมอไป เพื่อให้แน่ใจว่ารูปแบบถูกต้อง ให้พิจารณาเคล็ดลับต่อไปนี้:
- ใช้สไตล์ย่อหน้า Aspose.Words เพื่อใช้รูปแบบข้อความที่สอดคล้องกัน
- ตั้งค่าคุณสมบัติฟอนต์ เช่น ขนาด ตัวหนา ตัวเอียง และการจัดตำแหน่ง
- ปรับขอบหน้าและเลย์เอาต์ เพื่อปรับปรุงผลลัพธ์เอกสาร Word
4. การจัดการหลายหน้าใน PDF ที่สแกน
สำหรับ PDF ที่สแกนหลายหน้า การประมวลผลและรวมข้อความจากทุกหน้าลงในเอกสาร Word เดียวเป็นสิ่งสำคัญ เพื่อให้บรรลุเป้าหมายนี้:
- วนรอบผ่านแต่ละหน้า ใน PDF ที่สแกน
- รู้จำข้อความต่อหน้า และเก็บไว้ใน
StringBuilder
- เพิ่มข้อความที่รู้จำได้ ลงในเอกสาร Word
วิธีนี้จะช่วยให้การ แปลง PDF ที่สแกนหลายหน้าเป็น Word เป็นไปอย่างราบรื่น
5. ใบอนุญาตสำหรับความแม่นยำของ OCR เต็มรูปแบบ
โดยค่าเริ่มต้น Aspose.OCR ทำงานในโหมดการประเมิน ซึ่งอาจ จำกัดความแม่นยำในการรู้จำข้อความ เพื่อปลดล็อกศักยภาพเต็มรูปแบบของ API:
🔹 ขอ ใบอนุญาตชั่วคราวฟรี เพื่อวัตถุประสงค์ในการประเมินผล
6. บทสรุปและแหล่งข้อมูลเพิ่มเติม
สรุป
ในคู่มือนี้ เราได้ครอบคลุม:
✅ การตั้งค่า Aspose.OCR สำหรับการประมวลผล PDF ที่สแกน
✅ การดึง ข้อความจาก PDF ที่สแกนใน C#
✅ การแปลง ข้อความที่รู้จำได้เป็นเอกสาร Word ที่มีรูปแบบ
✅ การจัดการ การแปลง PDF ที่สแกนหลายหน้าเป็น Word
โดยการใช้ Aspose.OCR และ Aspose.Words คุณสามารถ แปลง PDF ที่มีพื้นฐานจากภาพเป็นไฟล์ Word ที่แก้ไขได้ ได้อย่างง่ายดาย เริ่มสร้าง ตัวแปลง PDF เป็น Word ที่ขับเคลื่อนด้วย OCR ใน .NET วันนี้ในราคาเพียง 99 ดอลลาร์! 🚀