การประมวลผลเอกสารอัตโนมัติสามารถเพิ่มประสิทธิภาพและความแม่นยําในอุตสาหกรรมต่าง ๆ จากบริการทางกฎหมายและทางการเงินไปจนถึงการดูแลสุขภาพและการผลิต เครื่องมือที่มีประสิทธิภาพสําหรับงานนี้คือ Aspose.OCR สําหรับ .NET ซึ่งช่วยให้ผู้พัฒนาสามารถ استخراجข้อความจากเนื้อหาที่สแกนและภาพที่มีความถูกต้องสูง การสอนนี้แสดงให้เห็นว่าวิธีการตั้งค่าและใช้ Asposa.ocR เพื่อใช้ .Net เพื่อปรับปรุงการดําเนินการกระดาษด้วยตนเองรวมทั้งการดําเนินงาน OCR และการบูรณาการกับระบบบุคคลที่สาม

ตัวอย่างที่สมบูรณ

ต่อไปนี้เป็นตัวอย่างที่สมบูรณ์ (ถูกโฮสต์เป็นฮอร์โมน) ที่แสดงให้เห็นวิธีการใช้ Aspose.OCR สําหรับ .NET เพื่อดําเนินการ OCR บนภาพหลายภาพในตารางและบันทึกข้อความที่สกัดไปยังไฟล์ข้อความที่เกี่ยวข้อง ตัวอย่างนี้คือ แหล่งของความจริง สําหรับขั้นตอนต่อไปนี้

คู่มือขั้นตอน

ขั้นตอนที่ 1: เริ่มต้นเครื่องยนต์ OCR

สร้างและกําหนดเครื่องยนต์ OCR การตั้งค่าภาษาที่ต้องการ (ภาษาอังกฤษในตัวอย่างนี้)

// Step 1: Initialize the OCR Engine
using Aspose.Ocr;

using (Ocr ocrEngine = new Ocr())
{
    // Set language and other configurations if needed
    ocrEngine.Language = Language.English;

    // (Continue with steps below inside this using block)
}

ขั้นตอนที่ 2: ดาวน์โหลดภาพสําหรับการประมวลผล

กําหนดไดเรกทอรี input/output ให้แน่ใจว่าโฟลเดอร์ output มีอยู่และรายชื่อไฟล์ภาพ

// Step 2: Load Images for Processing
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\text";

if (!Directory.Exists(outputDirectory))
{
    Directory.CreateDirectory(outputDirectory);
}

// Get all files from the input directory (same pattern as the gist)
// TIP: to restrict to specific formats, replace "*.*" with "*.png" or "*.jpg"
string[] imageFiles = Directory.GetFiles(
    inputDirectory,
    "*.*",
    SearchOption.TopDirectoryOnly
);

ขั้นตอนที่ 3: ทํา OCR บนแต่ละภาพ

Iterate บนไฟล์และรับรู้ข้อความโดยใช้ RecognizeImage(string path).

// Step 3: Perform OCR on Each Image
foreach (string imageFile in imageFiles)
{
    try
    {
        // Recognize text from the image (exactly as in the gist)
        string recognizedText = ocrEngine.RecognizeImage(imageFile);

        // Proceed to Step 4: save text to disk...
    }
    catch (Exception ex)
    {
        Console.WriteLine($"Error processing {imageFile}: {ex.Message}");
    }
}

ขั้นตอน 4: บันทึกข้อความที่สกัดไปยังไฟล์

สร้างการตอบสนอง .txt ไฟล์สําหรับแต่ละภาพที่ประมวลผล

// Step 4: Save Extracted Text to Files
string outputFilePath = Path.Combine(
    outputDirectory,
    Path.GetFileNameWithoutExtension(imageFile) + ".txt"
);

File.WriteAllText(outputFilePath, recognizedText);

Console.WriteLine($"Processed: {imageFile} -> {outputFilePath}");

เคล็ดลับ & Tweaks

  • รูปแบบกรอง: ใช้รูปแบบเช่น "*.png" หรือ "*.jpg" ลบไฟล์ที่ไม่ใช่ภาพ
  • ** Subfolders ใหม่**: เปลี่ยน SearchOption.TopDirectoryOnly ไปยัง SearchOption.AllDirectories.
  • การส่งออกของเรือที่ว่างเปล่า: ถ้า string.IsNullOrWhiteSpace(recognizedText)เข้าสู่ระบบและดําเนินการต่อไป
  • พารามิเตอร์แบทช์: ใช้ Parallel.ForEach(imageFiles, file => { ... }) สําหรับการแข่งขันเร็วขึ้น (ความคิด I / O และใบอนุญาต)

โดยทําตามขั้นตอนเหล่านี้คุณสามารถอัตโนมัติชุด OCR กับ Aspose.OCR สําหรับ .NET และส่งออกไฟล์ข้อความบริสุทธิ์สําหรับการประมวลผลด้านล่าง

More in this category