เอกสาร PDF เป็นส่วนสำคัญของกระบวนการทางธุรกิจต่างๆ ซึ่งมักต้องการการเข้าถึงเนื้อหาที่สแกนด้วยโปรแกรม การดึงข้อความจากไฟล์ PDF ที่สแกนสามารถเป็นงานที่ซับซ้อน ซึ่งเน้นความจำเป็นในการใช้เครื่องมือที่มีประสิทธิภาพ ในบทแนะนำนี้ เราจะสำรวจ วิธีการ OCR เอกสาร PDF และดึงข้อความจาก PDF ใน C# โดยใช้ Aspose.OCR for .NET API ซึ่งเป็น ห้องสมุด C# OCR PDF extraction ที่เชื่อถือได้และมีให้ทดลองใช้งานฟรี

สิ่งที่คุณจะได้เรียนรู้

ในบทความนี้ เราจะครอบคลุมหัวข้อต่อไปนี้:

  1. ภาพรวมของ Aspose.OCR for .NET API
  2. ขั้นตอนการ OCR PDF และดึงข้อความ
  3. วิธีการดำเนินการ OCR บน PDF และบันทึกข้อความ
  4. การแปลง OCR PDF เป็น Word
  5. การแปลง OCR PDF เป็น JSON

ภาพรวมของ Aspose.OCR for .NET API

เราจะใช้ Aspose.OCR for .NET API ซึ่งเป็น .NET PDF OCR API ที่แข็งแกร่งออกแบบมาเพื่อจดจำข้อความจากภาพที่สแกน รูปภาพจากสมาร์ทโฟน และภาพหน้าจอ โดยส่งคืนผลลัพธ์ในรูปแบบเอกสารต่างๆ API นี้ไม่เพียงแต่แปลงภาพเป็นข้อความ แต่ยังสร้าง PDF ที่ค้นหาได้จากการสแกนและแก้ไขข้อผิดพลาดการสะกดในข้อความที่จดจำ ทำให้เป็นหนึ่งใน โซลูชัน C# PDF OCR ที่เร็วที่สุดในราคาเพียง $99

API มีคลาส AsposeOcr ที่ให้วิธีการหลายอย่างสำหรับการดำเนินการ OCR โดยเฉพาะวิธี RecognizePdf(string, DocumentRecognitionSettings) ซึ่งมีความสำคัญสำหรับการดึงข้อความจากเอกสาร PDF ที่กำหนด คลาส DocumentRecognitionSettings ช่วยให้สามารถปรับแต่งกระบวนการจดจำได้ ในขณะที่คลาส RecognitionResult จะรวมผลลัพธ์ของการจดจำ

คุณสามารถ ดาวน์โหลด DLL ของ API หรือทำการติดตั้งผ่าน NuGet:

PM> Install-Package Aspose.OCR

ขั้นตอนการ OCR PDF และดึงข้อความใน C#

เพื่อดำเนินการ OCR บนเอกสาร PDF และดึงข้อความที่จดจำ ให้ทำตามขั้นตอนเหล่านี้:

  1. สร้างอินสแตนซ์ของคลาส AsposeOcr
  2. เริ่มต้นอ็อบเจ็กต์ของคลาส DocumentRecognitionSettings
  3. ระบุภาษาสำหรับ OCR
  4. รับ RecognitionResult โดยการเรียกใช้วิธี RecognizePdf() โดยส่งพาธของภาพและอ็อบเจ็กต์ DocumentRecognitionSettings
  5. วนลูปผ่านรายการ RecognitionResult เพื่อแสดงข้อความที่ระบุ

นี่คือตัวอย่างที่แสดง วิธีการ OCR เอกสาร PDF และดึงข้อความที่จดจำใน C#:

OCR PDF และดึงข้อความจาก PDF ใน C#

วิธีการดำเนินการ OCR บน PDF และบันทึกข้อความใน C#

เพื่อดำเนินการ OCR บนเอกสาร PDF และบันทึกข้อความที่จดจำ ให้ทำตามขั้นตอนเหล่านี้:

  1. สร้างอินสแตนซ์ของคลาส AsposeOcr
  2. เริ่มต้นอ็อบเจ็กต์ของคลาส DocumentRecognitionSettings
  3. ระบุภาษาสำหรับ OCR
  4. เรียกใช้วิธี RecognizePdf() เพื่อรับ RecognitionResult
  5. บันทึกข้อความโดยใช้วิธี SaveMultipageDocument() ซึ่งต้องการพาธไฟล์เอาต์พุต SaveFormat และอ็อบเจ็กต์ RecognitionResult

นี่คือตัวอย่างที่แสดง วิธีการ OCR เอกสาร PDF และบันทึกข้อความที่จดจำใน C#:

ดำเนินการ OCR บน PDF และบันทึกข้อความใน C#

การแปลง OCR PDF เป็น Word ใน C#

เพื่อแปลงเอกสาร PDF ที่สแกนเป็น Word ให้ทำตามขั้นตอนเดียวกับที่ได้กล่าวไว้ก่อนหน้านี้ แต่ระบุ SaveFormat.Docx ในขั้นตอนสุดท้าย

นี่คือตัวอย่างที่แสดง วิธีการ OCR PDF และบันทึกข้อความที่จดจำเป็นเอกสาร Word ใน C#:

OCR PDF และแปลง PDF ที่สแกนเป็น Word ใน C#

การแปลง OCR PDF เป็น JSON ใน C#

เพื่อบันทึกข้อความที่จดจำจากเอกสาร PDF ในไฟล์ JSON ให้ทำตามขั้นตอนก่อนหน้านี้โดยเปลี่ยนเพียงระบุ SaveFormat.Json ในขั้นตอนสุดท้าย

นี่คือตัวอย่างที่แสดง วิธีการ OCR PDF และบันทึกข้อความที่จดจำเป็นไฟล์ JSON ใน C#:

รับใบอนุญาตทดลองใช้งานฟรี

คุณสามารถ ขอใบอนุญาตชั่วคราวฟรี เพื่อประเมิน Aspose.OCR for .NET API โดยไม่มีข้อจำกัด

บทสรุป

ในบทแนะนำนี้ เราได้เรียนรู้วิธีการดำเนินการ OCR บนเอกสาร PDF และดึงข้อความจาก PDF ใน C# เรายังสำรวจวิธีการบันทึกข้อความที่จดจำเป็นไฟล์ TXT, DOCX, และ JSON สำหรับข้อมูลเพิ่มเติมเกี่ยวกับ Aspose.OCR for .NET API โปรดตรวจสอบ เอกสาร หากคุณมีคำถามใดๆ สามารถติดต่อเราได้ที่ ฟอรัม

ดูเพิ่มเติม

โดยการใช้ Aspose.OCR for .NET API คุณสามารถดำเนินการ OCR PDF ที่มีความแม่นยำสูงใน C# สำหรับแอปพลิเคชันต่างๆ รวมถึงการประมวลผลใบแจ้งหนี้และการจัดการแบบฟอร์ม โซลูชัน .NET PDF OCR ที่มีราคาไม่แพง นี้เหมาะสำหรับนักพัฒนาที่ต้องการรวมความสามารถ OCR PDF เข้ากับแอปพลิเคชันของตนอย่างมีประสิทธิภาพ