Aspose.OCR for .NET มีโซลูชั่นที่แข็งแกร่งสําหรับปัญหานี้โดยช่วยให้ผู้พัฒนาสามารถ استخراجข้อความจากภาพและทําให้พวกเขาสามารถค้นหาได้ โพสต์บล็อกนี้จะแนะนําคุณผ่านกระบวนการตั้งค่าสภาพแวดล้อมการพัฒนาของคุณการกําหนดค่าการรับรู้การสกัดข้อความในชุดสร้างหรืออัปเดตอินเด็กซ์ค้นหาการรวมฟังก์ชั่นการค้นหากับตัวดูไฟล์และเพิ่มการจัดการข้อผิดพลาดที่มั่นคง ในตอนท้ายของบทเรียนนี้คุณจะมีความเข้าใจอย่างครอบคลุมเกี่ยวกับวิธีการทําให้เอกสารที่สแกนสามารถมองหาได้โดยใช้ Asposa.ocR สําหรับ .Net
ตัวอย่างที่สมบูรณ
คู่มือขั้นตอน
ขั้นตอนที่ 1: สร้างสภาพแวดล้อมการพัฒนาของคุณ
เพื่อเริ่มต้นกับ Aspose.OCR สําหรับ .NET คุณต้องมีสภาพแวดล้อมการพัฒนาที่ตั้งขึ้น นี่รวมถึงการติดตั้ง SDK ที่จําเป็นและคุณสมบัติใด ๆ คุณสามารถดาวน์โหลดเวอร์ชันล่าสุดของ Asposa.ocR จากเว็บไซต์อย่างเป็นทางการและเพิ่มมันไปยังโครงการของคุณผ่าน NuGet หรือโดยการอ้างอิง DLL โดยตรง
ขั้นตอนที่ 2: จัดการไฟล์ Archive ของคุณ
ก่อนที่คุณจะเริ่มการประมวลผลเอกสารให้จัดไฟล์ที่สแกนไว้ในโครงสร้างไดเรกทอรีที่มีความหมายสําหรับกระบวนการทํางานของคุณ นี่อาจขึ้นอยู่กับวันที่ประเภทเอกชนหรือข้อกําหนดอื่น ๆ ที่เกี่ยวข้อง ให้แน่ใจว่าไฟล์ทั้งหมดสามารถเข้าถึงได้จากแอพลิเคชันของคุณและจะอยู่ในรูปแบบที่สนับสนุนโดย Aspose.OCR (เช่น JPEG, PNG, TIFF ฯลฯ )
ขั้นตอนที่ 3: การตั้งค่าการยอมรับ
Aspose.OCR ช่วยให้คุณสามารถปรับปรุงกระบวนการรับรู้เพื่อตอบสนองความต้องการเฉพาะของคุณ คุณสามารถกําหนดการตั้งค่าเช่นภาษาประเภทอักษรและตัวเลือกการประมวลผลภาพก่อน ตัวอย่างเช่นหากคุณกําลังทํางานกับเอกสารในภาษาอังกฤษคุณจะกําหนดภาษาเป็น “ภาษาไทย” นอกจากนี้คุณอาจต้องการปรับเปลี่ยนการกําหนดค่า DPI เพื่อตรวจจับข้อความที่ดีขึ้นบนภาพที่มีความละเอียดสูง
// Step 2: Organize scanned document files into a directory structure
string inputDirectory = @"C:\ScannedDocuments\2023\Invoices";
string[] supportedFormats = { ".jpg", ".png", ".tiff" };
// Get all supported files from the directory
var files = Directory.GetFiles(inputDirectory)
.Where(f => supportedFormats.Contains(Path.GetExtension(f), StringComparer.OrdinalIgnoreCase))
.ToArray();
ขั้นตอน 4: การสกัดข้อความในชุด
เมื่อการตั้งค่าของคุณมีการกําหนดค่าคุณสามารถเริ่มต้นการสกัดข้อความจากเอกสารของคุณ Aspose.OCR สนับสนุนการประมวลผลชุดซึ่งหมายความว่าคุณจะสามารถจัดการไฟล์หลายไฟล์ในเวลาเดียวกัน สิ่งนี้เป็นประโยชน์โดยเฉพาะอย่างยิ่งสําหรับไฟล์ที่สแกนได้ขนาดใหญ่ คุณสามารถระบุไดเรกทอรีที่มีภาพของคุณและปล่อยให้ Asposa.ocRจัดการกับสิ่งอื่น ๆ
// Step 3: Configuring Recognition Settings
ocrEngine.SetLanguage(Language.English);
ocrEngine.SetImagePreprocessing(ImagePreprocessingOptions.Denoising);
ocrEngine.SetResolution(300); // Set DPI for better text detection
ขั้นตอน 5: สร้างหรืออัปเดตเครื่องหมายค้นหา
หลังจากดึงข้อความจากเอกสารของคุณคุณต้องสร้างหรืออัปเดตตัวอักษรค้นหาที่ช่วยให้ผู้ใช้สามารถค้นหาข้อมูลที่เกี่ยวข้องได้อย่างรวดเร็วขึ้นอยู่กับการค้นหาคําหลัก ซึ่งหมายถึงการจัดเก็บข้อความที่สกัดในรูปแบบที่สามารถมองหาได้เช่นฐานข้อมูลหรือไฟล์ index inverter
// Step 4: Extract text in batch from a directory of images
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\results";
ocrEngine.RecognizeMultiple(inputDirectory, outputDirectory);
ขั้นตอนที่ 6: การรวมการค้นหากับ Archive Viewer
เพื่อให้เอกสารที่สามารถค้นหาได้เข้าถึงผู้ใช้สุดท้ายคุณต้องรวมฟังก์ชั่นการค้นหา into an archive viewer application นี่อาจเป็นอินเตอร์เฟซเว็บหรือแอพเดสก์ท็อป ผู้ชมควรอนุญาตให้ผู้ใช้งานค้นหาผ่านข้อความที่ดัชนีและดูเอกลักษณ์ที่สแกนที่เกี่ยวข้อง
// Step 5: Building or Updating a Search Index
// Store extracted text in a searchable format (e.g., database or inverted index file)
string extractedText = ocrEngine.RecognizePage("scannedDocument.png").CodeText;
File.WriteAllText("searchIndex.txt", extractedText);
ขั้นตอน 7: เพิ่มการจัดการข้อผิดพลาด
สุดท้ายมันเป็นสิ่งสําคัญที่จะเพิ่มการจัดการข้อผิดพลาดที่แข็งแกร่งไปยังแอปของคุณเพื่อให้แน่ใจว่ามันสามารถจัดการปัญหาที่ไม่คาดหวังเช่นไฟล์ที่รบกวนหรือข้อบกพร่องเครือข่าย นี่รวมถึงการบันทึกข้อเสียเพื่อวัตถุประสงค์การปลดลวดและให้ข้อความข้อเท็จจริงที่เป็นมิตรกับผู้ใช้เมื่อจําเป็น
แนวทางที่ดีที่สุด
ทําให้เอกสารสแกนสามารถค้นหาได้เป็นวิธีที่แข็งแกร่งในการปรับปรุงความสามารถในการใช้งานของไฟล์ดิจิตอล โดยการปฏิบัติตามขั้นตอนที่ระบุไว้ในบทเรียนนี้คุณสามารถใช้ Aspose.OCR สําหรับ .NET เพื่อสกัดข้อความจากภาพและบูรณาการลงในรูปแบบที่สามารถมองหาได้ โปรดจําไว้ที่จะทดสอบแอพพลิเคชันของคุณอย่างละเอียดด้วยประเภทต่างๆของเนื้อหาและภายใต้เงื่อนไขที่แตกต่างกันเพื่อให้แน่ใจว่ามีความน่าเชื่อถือ นอกจากนี้ยังพิจารณาคุณสมบัติการดําเนินการเช่นการประเมินคุณภาพ OCR และการแก้ไขอัตโนมัติเพื่อเพิ่มความแม่นยําของกระบวนการสกปรกข้อความของคุณ