
บทนํา
ไฟล์ PDF ที่สแกนมักจะมีข้อความเป็นภาพทําให้ไม่สามารถเลือกแก้ไขหรือคัดลอกเนื้อหาได้ หากคุณต้องการแปลงไฟล์ PDF ที่สแกนเป็นเอกสาร Word ที่สามารถแก้ไขได้ เทคโนโลยีการรับรู้ตัวอักษรแสง (OCR) มีวิธีที่มีประสิทธิภาพในการสกัดข้อความในขณะที่รักษาการจัดรูปแบบเดิม ในบทความนี้คุณจะเรียนรู้วิธีการแปลงไฟล์ PDF ที่สแกนเป็น Word (DOCX หรือ DOC) โดยใช้ C# ด้วย Aspose.OCR สําหรับ .NET และ Aspose.Words สําหรับห้องสมุด .NET
ทําไมแปลงไฟล์ PDF ที่สแกนเป็น Word
มีเหตุผลที่บังคับหลายอย่างในการแปลงไฟล์ PDF ที่สแกนเป็นเอกสาร Word:
- แก้ไขเอกสารที่สแกนได้อย่างง่ายดาย: เปลี่ยนข้อความโดยไม่ต้องกังวลการคัดลอกด้วยตนเอง
- สกัดข้อความสําหรับการประมวลผลเพิ่มเติม: ใช้ข้อความที่สกัดสําหรับการวิเคราะห์หรือการรวมเข้ากับแอพอื่น ๆ
- บํารุงรักษาการจัดตั้งและรูปแบบ: รักษาโครงสร้างเอกสารเดิมในขณะที่ทําให้สามารถแก้ไขได้
- อัตโนมัติ OCR-based Document Processing: รวมฟังก์ชั่นนี้ได้อย่างราบรื่นในแอพ C# ของคุณ
ตารางเนื้อหา
- การตั้งค่า API OCR สําหรับการสแกน PDF ไปยังการแปลง Word
- แปลงไฟล์ PDF ที่สแกนเป็นเอกสาร Word ที่แก้ไข
- การรักษาการจัดรูปแบบใน OCR การแปลง
- การจัดการหลายหน้าในไฟล์ PDF ที่สแกน
- ใบอนุญาตสําหรับความแม่นยํา OCR ที่สมบูรณ์
- ข้อสรุปและทรัพยากรเพิ่มเติม
1. การตั้งค่า API OCR สําหรับการสแกน PDF ไปยัง การแปลง Word
เพื่อ استخراجข้อความจากไฟล์ PDF ที่สแกนและแปลงเป็นเอกสาร Word เราจะใช้:
- Aspose.OCR for .NET – เครื่องมือที่มีประสิทธิภาพที่ยอมรับข้อความจากภาพสแกน
- Aspose.Words for .NET – ห้องสมุดนี้แปลงข้อความที่สกัดไปเป็นรูปแบบ Word
การติดตั้ง
คุณสามารถติดตั้งแอปพลิเคชันเหล่านี้ได้อย่างง่ายดายผ่าน NuGet ด้วยคําสั่งต่อไปนี้:
PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words
ตัวเลือกคุณสามารถดาวน์โหลด DLLs จาก Aspose ดาวน์โหลดหน้า.
2. แปลงไฟล์ PDF ที่สแกนเป็นเอกสาร Word ที่แก้ไข
ทําตามขั้นตอนต่อไปนี้เพื่อแปลงไฟล์ PDF ที่สแกนเป็น Word (DOCX หรือ DOC) ใน C#:
- เริ่มต้น OCR กับ
AsposeOcr
. - สกัดข้อความ ใช้
DocumentRecognitionSettings
. - จัดส่งข้อความที่ได้รับการยอมรับ ใน a
StringBuilder
. - สร้างเอกสาร Word โดยใช้
Aspose.Words
. - แอปพลิเคชันการจัดรูปแบบ และบันทึกเป็น DOCX หรือ DOC
ตัวอย่างรหัส
นี่คือตัวอย่าง C# ที่แสดงให้เห็นการแปลง PDF ที่สแกนเป็น Word:
3. การรักษาการจัดรูปแบบใน OCR การแปลง
ในขณะที่การสกัดข้อความ OCR มีศักยภาพ แต่ก็อาจไม่เคยรักษารูปแบบต้นฉบับอักษรและรูปแบบ เพื่อให้แน่ใจว่าการสกัดที่ถูกต้องให้คําแนะนําต่อไปนี้:
- ใช้ Aspose.Words Paragraph Styles เพื่อใช้รูปแบบข้อความที่สม่ําเสมอ
- ตั้งค่าคุณสมบัติ font เช่นขนาด, bold, italics, และการสอดคล้อง
- ปรับ margin ของหน้าและ layout สําหรับการผลิตเอกสาร Word ที่ดีขึ้น
4. การจัดการหลายหน้าในไฟล์ PDF ที่สแกน
สําหรับ ไฟล์ PDF ที่สแกนหลายหน้า มันเป็นสิ่งสําคัญที่จะประมวลผลและรวมข้อความจากทุกหน้าลงในเอกสาร Word หนึ่ง เพื่อบรรลุสิ่งนี้:
- เดินผ่านแต่ละหน้า ในไฟล์ PDF ที่สแกน
- ยอมรับข้อความต่อหน้า และเก็บไว้ใน A
StringBuilder
. - เพิ่มข้อความที่ได้รับการยอมรับ ไปยังเอกสาร Word
วิธีนี้ช่วยให้การแปลง PDF เป็น Word หลายหน้าได้
5. ใบอนุญาตสําหรับความแม่นยํา OCR เต็ม
โดยเริ่มต้น Aspose.OCR ทํางานในโหมดการประเมินซึ่งสามารถ จํากัด ความแม่นยําในการรับรู้ข้อความ เพื่อเปิดเปิดตัวศักยภาพเต็มของ API:
✍ขอใบอนุญาตชั่วคราวฟรี (https://purchase.aspose.com/temporary-license) สําหรับวัตถุประสงค์ของการประเมิน
6. ข้อสรุปและทรัพยากรเพิ่มเติม
คําอธิบาย
ในคู่มือนี้เราครอบคลุม:
- การตั้งค่า Aspose.OCR สําหรับการประมวลผล PDF ที่สแกน
- การสกัด ข้อความจากไฟล์ PDF ที่สแกนใน C#
- การแปลง ข้อความที่ได้รับการยอมรับเป็นเอกสาร Word แบบฟอร์ม
- การจัดการ การสแกนหลายหน้า PDF ไปยังการแปลง Word
โดยใช้ Aspose.OCR และ Aspose.Words คุณสามารถแปลงไฟล์ PDF ที่ขึ้นอยู่กับภาพได้อย่างง่ายดายไปเป็นไฟล์ Word ที่สามารถแก้ไขได้ เริ่มต้นสร้างไฟล์ PDF ไปยัง Word Converter ของคุณใน .NET วันนี้สําหรับ $99!
เคล็ดลับเพิ่มเติมสําหรับการสแกนแปลง PDF
หากคุณกําลังมองหาวิธีในการปรับปรุงการทํางานของคุณพิจารณาการใช้ C# OCR PDF to Text ความสามารถหรือ ** C# PDF ไปยัง DOCX** โซลูชั่นสําหรับการประมวลผลที่ทันสมัยมากขึ้น ไม่ว่าคุณต้องการ แปลงไฟล์ PDF ที่สแกนไปยัง Word เพื่อแก้ไข หรือต้องการเพียงแค่ ** แปลงเอกสาร PDF ใน Word** วิธีการเหล่านี้ให้การสนับสนุนที่ไม่มีค่า สําหรับผู้ที่ถาม, วิธีการที่ฉันจะแปลง PDF ของฉันไป Word? เครื่องมือที่กล่าวถึงจะนําคุณผ่านกระบวนการได้อย่างง่ายดาย นอกจากนี้เครื่องมือเช่น c# Text Recognition Library และ PDF To Text Converter ใน C # สามารถทําให้ความต้องการในการประยุกต์ใช้เอกชนของคุณได้ง่ายขึ้น
การสแกน PDF ไปยัง Word Conversion
สุดท้ายสําหรับโซลูชั่นที่กําหนดเองมากขึ้นดูวิธีการแปลงไฟล์ PDF ที่สแกนเป็น Word หรือใช้ C# Text Recognition Library เพื่อปรับปรุงความสามารถในการประมวลผลเอกสารของคุณ เหล่านี้จะแสดงให้เห็นว่ามีประโยชน์สําหรับทุกคนที่จัดการกับเนื้อหาที่สกปรกเป็นประจํา นอกจากนี้คุณยังสามารถใช้เครื่องมือ C# PDF ไปยัง DOCXเพื่อช่วยให้การแปลงได้ง่ายหรือเชื่อมต่อกับวิธีการของ C # OCR PDF เป็นข้อความ ในการซับซ้อนกระบวนการทํางานของการสกัดข้อความจากภาพ