Convert Scanned PDF to Word in C#

บทนํา

ไฟล์ PDF ที่สแกนมักจะมีข้อความเป็นภาพทําให้ไม่สามารถเลือกแก้ไขหรือคัดลอกเนื้อหาได้ หากคุณต้องการแปลงไฟล์ PDF ที่สแกนเป็นเอกสาร Word ที่สามารถแก้ไขได้ เทคโนโลยีการรับรู้ตัวอักษรแสง (OCR) มีวิธีที่มีประสิทธิภาพในการสกัดข้อความในขณะที่รักษาการจัดรูปแบบเดิม ในบทความนี้คุณจะเรียนรู้วิธีการแปลงไฟล์ PDF ที่สแกนเป็น Word (DOCX หรือ DOC) โดยใช้ C# ด้วย Aspose.OCR สําหรับ .NET และ Aspose.Words สําหรับห้องสมุด .NET

ทําไมแปลงไฟล์ PDF ที่สแกนเป็น Word

มีเหตุผลที่บังคับหลายอย่างในการแปลงไฟล์ PDF ที่สแกนเป็นเอกสาร Word:

  • แก้ไขเอกสารที่สแกนได้อย่างง่ายดาย: เปลี่ยนข้อความโดยไม่ต้องกังวลการคัดลอกด้วยตนเอง
  • สกัดข้อความสําหรับการประมวลผลเพิ่มเติม: ใช้ข้อความที่สกัดสําหรับการวิเคราะห์หรือการรวมเข้ากับแอพอื่น ๆ
  • บํารุงรักษาการจัดตั้งและรูปแบบ: รักษาโครงสร้างเอกสารเดิมในขณะที่ทําให้สามารถแก้ไขได้
  • อัตโนมัติ OCR-based Document Processing: รวมฟังก์ชั่นนี้ได้อย่างราบรื่นในแอพ C# ของคุณ

ตารางเนื้อหา

1. การตั้งค่า API OCR สําหรับการสแกน PDF ไปยัง การแปลง Word

เพื่อ استخراجข้อความจากไฟล์ PDF ที่สแกนและแปลงเป็นเอกสาร Word เราจะใช้:

  • Aspose.OCR for .NET – เครื่องมือที่มีประสิทธิภาพที่ยอมรับข้อความจากภาพสแกน
  • Aspose.Words for .NET – ห้องสมุดนี้แปลงข้อความที่สกัดไปเป็นรูปแบบ Word

การติดตั้ง

คุณสามารถติดตั้งแอปพลิเคชันเหล่านี้ได้อย่างง่ายดายผ่าน NuGet ด้วยคําสั่งต่อไปนี้:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

ตัวเลือกคุณสามารถดาวน์โหลด DLLs จาก Aspose ดาวน์โหลดหน้า.

2. แปลงไฟล์ PDF ที่สแกนเป็นเอกสาร Word ที่แก้ไข

ทําตามขั้นตอนต่อไปนี้เพื่อแปลงไฟล์ PDF ที่สแกนเป็น Word (DOCX หรือ DOC) ใน C#:

  • เริ่มต้น OCR กับ AsposeOcr.
  • สกัดข้อความ ใช้ DocumentRecognitionSettings.
  • จัดส่งข้อความที่ได้รับการยอมรับ ใน a StringBuilder.
  • สร้างเอกสาร Word โดยใช้ Aspose.Words.
  • แอปพลิเคชันการจัดรูปแบบ และบันทึกเป็น DOCX หรือ DOC

ตัวอย่างรหัส

นี่คือตัวอย่าง C# ที่แสดงให้เห็นการแปลง PDF ที่สแกนเป็น Word:

3. การรักษาการจัดรูปแบบใน OCR การแปลง

ในขณะที่การสกัดข้อความ OCR มีศักยภาพ แต่ก็อาจไม่เคยรักษารูปแบบต้นฉบับอักษรและรูปแบบ เพื่อให้แน่ใจว่าการสกัดที่ถูกต้องให้คําแนะนําต่อไปนี้:

  • ใช้ Aspose.Words Paragraph Styles เพื่อใช้รูปแบบข้อความที่สม่ําเสมอ
  • ตั้งค่าคุณสมบัติ font เช่นขนาด, bold, italics, และการสอดคล้อง
  • ปรับ margin ของหน้าและ layout สําหรับการผลิตเอกสาร Word ที่ดีขึ้น

4. การจัดการหลายหน้าในไฟล์ PDF ที่สแกน

สําหรับ ไฟล์ PDF ที่สแกนหลายหน้า มันเป็นสิ่งสําคัญที่จะประมวลผลและรวมข้อความจากทุกหน้าลงในเอกสาร Word หนึ่ง เพื่อบรรลุสิ่งนี้:

  • เดินผ่านแต่ละหน้า ในไฟล์ PDF ที่สแกน
  • ยอมรับข้อความต่อหน้า และเก็บไว้ใน A StringBuilder.
  • เพิ่มข้อความที่ได้รับการยอมรับ ไปยังเอกสาร Word

วิธีนี้ช่วยให้การแปลง PDF เป็น Word หลายหน้าได้

5. ใบอนุญาตสําหรับความแม่นยํา OCR เต็ม

โดยเริ่มต้น Aspose.OCR ทํางานในโหมดการประเมินซึ่งสามารถ จํากัด ความแม่นยําในการรับรู้ข้อความ เพื่อเปิดเปิดตัวศักยภาพเต็มของ API:

✍ขอใบอนุญาตชั่วคราวฟรี (https://purchase.aspose.com/temporary-license) สําหรับวัตถุประสงค์ของการประเมิน

6. ข้อสรุปและทรัพยากรเพิ่มเติม

คําอธิบาย

ในคู่มือนี้เราครอบคลุม:

  • การตั้งค่า Aspose.OCR สําหรับการประมวลผล PDF ที่สแกน
  • การสกัด ข้อความจากไฟล์ PDF ที่สแกนใน C#
  • การแปลง ข้อความที่ได้รับการยอมรับเป็นเอกสาร Word แบบฟอร์ม
  • การจัดการ การสแกนหลายหน้า PDF ไปยังการแปลง Word

โดยใช้ Aspose.OCR และ Aspose.Words คุณสามารถแปลงไฟล์ PDF ที่ขึ้นอยู่กับภาพได้อย่างง่ายดายไปเป็นไฟล์ Word ที่สามารถแก้ไขได้ เริ่มต้นสร้างไฟล์ PDF ไปยัง Word Converter ของคุณใน .NET วันนี้สําหรับ $99!

เคล็ดลับเพิ่มเติมสําหรับการสแกนแปลง PDF

หากคุณกําลังมองหาวิธีในการปรับปรุงการทํางานของคุณพิจารณาการใช้ C# OCR PDF to Text ความสามารถหรือ ** C# PDF ไปยัง DOCX** โซลูชั่นสําหรับการประมวลผลที่ทันสมัยมากขึ้น ไม่ว่าคุณต้องการ แปลงไฟล์ PDF ที่สแกนไปยัง Word เพื่อแก้ไข หรือต้องการเพียงแค่ ** แปลงเอกสาร PDF ใน Word** วิธีการเหล่านี้ให้การสนับสนุนที่ไม่มีค่า สําหรับผู้ที่ถาม, วิธีการที่ฉันจะแปลง PDF ของฉันไป Word? เครื่องมือที่กล่าวถึงจะนําคุณผ่านกระบวนการได้อย่างง่ายดาย นอกจากนี้เครื่องมือเช่น c# Text Recognition Library และ PDF To Text Converter ใน C # สามารถทําให้ความต้องการในการประยุกต์ใช้เอกชนของคุณได้ง่ายขึ้น

การสแกน PDF ไปยัง Word Conversion

สุดท้ายสําหรับโซลูชั่นที่กําหนดเองมากขึ้นดูวิธีการแปลงไฟล์ PDF ที่สแกนเป็น Word หรือใช้ C# Text Recognition Library เพื่อปรับปรุงความสามารถในการประมวลผลเอกสารของคุณ เหล่านี้จะแสดงให้เห็นว่ามีประโยชน์สําหรับทุกคนที่จัดการกับเนื้อหาที่สกปรกเป็นประจํา นอกจากนี้คุณยังสามารถใช้เครื่องมือ C# PDF ไปยัง DOCXเพื่อช่วยให้การแปลงได้ง่ายหรือเชื่อมต่อกับวิธีการของ C # OCR PDF เป็นข้อความ ในการซับซ้อนกระบวนการทํางานของการสกัดข้อความจากภาพ

More in this category