
เอกสาร PDF เป็นส่วนสำคัญของกระบวนการทางธุรกิจต่างๆ ซึ่งมักต้องการการเข้าถึงเนื้อหาที่สแกนด้วยโปรแกรม การดึงข้อความจากไฟล์ PDF ที่สแกนสามารถเป็นงานที่ซับซ้อน ซึ่งเน้นความจำเป็นในการใช้เครื่องมือที่มีประสิทธิภาพ ในบทแนะนำนี้ เราจะสำรวจ วิธีการ OCR เอกสาร PDF และดึงข้อความจาก PDF ใน C# โดยใช้ Aspose.OCR for .NET API ซึ่งเป็น ห้องสมุด C# OCR PDF extraction ที่เชื่อถือได้และมีให้ทดลองใช้งานฟรี
สิ่งที่คุณจะได้เรียนรู้
ในบทความนี้ เราจะครอบคลุมหัวข้อต่อไปนี้:
- ภาพรวมของ Aspose.OCR for .NET API
- ขั้นตอนการ OCR PDF และดึงข้อความ
- วิธีการดำเนินการ OCR บน PDF และบันทึกข้อความ
- การแปลง OCR PDF เป็น Word
- การแปลง OCR PDF เป็น JSON
ภาพรวมของ Aspose.OCR for .NET API
เราจะใช้ Aspose.OCR for .NET API ซึ่งเป็น .NET PDF OCR API ที่แข็งแกร่งออกแบบมาเพื่อจดจำข้อความจากภาพที่สแกน รูปภาพจากสมาร์ทโฟน และภาพหน้าจอ โดยส่งคืนผลลัพธ์ในรูปแบบเอกสารต่างๆ API นี้ไม่เพียงแต่แปลงภาพเป็นข้อความ แต่ยังสร้าง PDF ที่ค้นหาได้จากการสแกนและแก้ไขข้อผิดพลาดการสะกดในข้อความที่จดจำ ทำให้เป็นหนึ่งใน โซลูชัน C# PDF OCR ที่เร็วที่สุดในราคาเพียง $99
API มีคลาส AsposeOcr ที่ให้วิธีการหลายอย่างสำหรับการดำเนินการ OCR โดยเฉพาะวิธี RecognizePdf(string, DocumentRecognitionSettings) ซึ่งมีความสำคัญสำหรับการดึงข้อความจากเอกสาร PDF ที่กำหนด คลาส DocumentRecognitionSettings ช่วยให้สามารถปรับแต่งกระบวนการจดจำได้ ในขณะที่คลาส RecognitionResult จะรวมผลลัพธ์ของการจดจำ
คุณสามารถ ดาวน์โหลด DLL ของ API หรือทำการติดตั้งผ่าน NuGet:
PM> Install-Package Aspose.OCR
ขั้นตอนการ OCR PDF และดึงข้อความใน C#
เพื่อดำเนินการ OCR บนเอกสาร PDF และดึงข้อความที่จดจำ ให้ทำตามขั้นตอนเหล่านี้:
- สร้างอินสแตนซ์ของคลาส AsposeOcr
- เริ่มต้นอ็อบเจ็กต์ของคลาส DocumentRecognitionSettings
- ระบุภาษาสำหรับ OCR
- รับ RecognitionResult โดยการเรียกใช้วิธี RecognizePdf() โดยส่งพาธของภาพและอ็อบเจ็กต์ DocumentRecognitionSettings
- วนลูปผ่านรายการ RecognitionResult เพื่อแสดงข้อความที่ระบุ
นี่คือตัวอย่างที่แสดง วิธีการ OCR เอกสาร PDF และดึงข้อความที่จดจำใน C#:
วิธีการดำเนินการ OCR บน PDF และบันทึกข้อความใน C#
เพื่อดำเนินการ OCR บนเอกสาร PDF และบันทึกข้อความที่จดจำ ให้ทำตามขั้นตอนเหล่านี้:
- สร้างอินสแตนซ์ของคลาส AsposeOcr
- เริ่มต้นอ็อบเจ็กต์ของคลาส DocumentRecognitionSettings
- ระบุภาษาสำหรับ OCR
- เรียกใช้วิธี RecognizePdf() เพื่อรับ RecognitionResult
- บันทึกข้อความโดยใช้วิธี SaveMultipageDocument() ซึ่งต้องการพาธไฟล์เอาต์พุต SaveFormat และอ็อบเจ็กต์ RecognitionResult
นี่คือตัวอย่างที่แสดง วิธีการ OCR เอกสาร PDF และบันทึกข้อความที่จดจำใน C#:
การแปลง OCR PDF เป็น Word ใน C#
เพื่อแปลงเอกสาร PDF ที่สแกนเป็น Word ให้ทำตามขั้นตอนเดียวกับที่ได้กล่าวไว้ก่อนหน้านี้ แต่ระบุ SaveFormat.Docx ในขั้นตอนสุดท้าย
นี่คือตัวอย่างที่แสดง วิธีการ OCR PDF และบันทึกข้อความที่จดจำเป็นเอกสาร Word ใน C#:
การแปลง OCR PDF เป็น JSON ใน C#
เพื่อบันทึกข้อความที่จดจำจากเอกสาร PDF ในไฟล์ JSON ให้ทำตามขั้นตอนก่อนหน้านี้โดยเปลี่ยนเพียงระบุ SaveFormat.Json ในขั้นตอนสุดท้าย
นี่คือตัวอย่างที่แสดง วิธีการ OCR PDF และบันทึกข้อความที่จดจำเป็นไฟล์ JSON ใน C#:
รับใบอนุญาตทดลองใช้งานฟรี
คุณสามารถ ขอใบอนุญาตชั่วคราวฟรี เพื่อประเมิน Aspose.OCR for .NET API โดยไม่มีข้อจำกัด
บทสรุป
ในบทแนะนำนี้ เราได้เรียนรู้วิธีการดำเนินการ OCR บนเอกสาร PDF และดึงข้อความจาก PDF ใน C# เรายังสำรวจวิธีการบันทึกข้อความที่จดจำเป็นไฟล์ TXT, DOCX, และ JSON สำหรับข้อมูลเพิ่มเติมเกี่ยวกับ Aspose.OCR for .NET API โปรดตรวจสอบ เอกสาร หากคุณมีคำถามใดๆ สามารถติดต่อเราได้ที่ ฟอรัม
ดูเพิ่มเติม
- แปลงภาพหน้าจอเป็นข้อความด้วย OCR ใน C#
- OCR รูปภาพเป็นข้อความและการแก้ไขการสะกดใน C#
- แปลง PDF ที่สแกนเป็น PDF ที่ค้นหาได้ด้วย OCR ใน C#
โดยการใช้ Aspose.OCR for .NET API คุณสามารถดำเนินการ OCR PDF ที่มีความแม่นยำสูงใน C# สำหรับแอปพลิเคชันต่างๆ รวมถึงการประมวลผลใบแจ้งหนี้และการจัดการแบบฟอร์ม โซลูชัน .NET PDF OCR ที่มีราคาไม่แพง นี้เหมาะสำหรับนักพัฒนาที่ต้องการรวมความสามารถ OCR PDF เข้ากับแอปพลิเคชันของตนอย่างมีประสิทธิภาพ