Aspose.OCR برای .NET یک راه حل قدرتمند برای این مشکل را با اجازه دادن به توسعه دهندگان برای استخراج متن از تصاویر و آنها را قابل جستجو است. این پست وبلاگ شما را از طریق فرآیند تنظیم محیط توسعه خود را راهنمایی خواهد کرد، تنظیم تنظیمات تشخیص، کشیدن متن در مجموعه، ساخت و یا به روز رسانی یک شاخص جستجو، ادغام عملکرد جستجو با یک مرورگر آرشیو، و اضافه کردن مدیریت خطای قوی.

نمونه کامل

راهنمای گام به گام

مرحله اول: محیط توسعه خود را ایجاد کنید

برای شروع با Aspose.OCR برای .NET، شما نیاز به یک محیط توسعه تنظیم شده است. این شامل نصب SDK های مورد نیاز و هر گونه وابستگی. شما می توانید آخرین نسخه از ASPOSE.OKR از وب سایت رسمی دانلود و آن را به پروژه خود را از طریق NuGet و یا با اشاره به DLL به طور مستقیم.

مرحله دوم: تنظیم فایل های آرشیو

قبل از شروع پردازش اسناد، فایل های اسکن شده خود را به یک ساختار دایرکتوری که برای جریان کار شما منطقی است سازماندهی کنید. این می تواند بر اساس تاریخ، نوع سند یا هر معیار مربوطه باشد. اطمینان حاصل کنید که تمام فایل ها از برنامه شما در دسترس هستند و در فرمت پشتیبانی شده توسط Aspose.OCR (مانند JPEG، PNG، TIFF، و غیره) هستند.

مرحله سوم: تنظیم تنظیمات شناختی

Aspose.OCR اجازه می دهد تا شما را به تمیز کردن فرآیند تشخیص به نیازهای خاص خود را. شما می توانید تنظیمات مانند زبان، نوع فونت، و گزینه های پیش پردازش تصویر تنظیم کنید. به عنوان مثال، اگر شما با اسناد به زبان انگلیسی کار می کنید، شما تنظیم زبان به “انگلیسی”.

// Step 2: Organize scanned document files into a directory structure
string inputDirectory = @"C:\ScannedDocuments\2023\Invoices";
string[] supportedFormats = { ".jpg", ".png", ".tiff" };

// Get all supported files from the directory
var files = Directory.GetFiles(inputDirectory)
                     .Where(f => supportedFormats.Contains(Path.GetExtension(f), StringComparer.OrdinalIgnoreCase))
                     .ToArray();

مرحله 4: استخراج متن در باتچ

هنگامی که تنظیمات شما تنظیم شده است، شما می توانید شروع به استخراج متن از اسناد خود را. Aspose.OCR پشتیبانی از پردازش مجموعه، که به این معنی است که شما ممکن است چندین فایل به طور همزمان. این به ویژه مفید برای آرشیو های بزرگ اسناری.

// Step 3: Configuring Recognition Settings
ocrEngine.SetLanguage(Language.English);
ocrEngine.SetImagePreprocessing(ImagePreprocessingOptions.Denoising);
ocrEngine.SetResolution(300); // Set DPI for better text detection

مرحله 5: ایجاد یا به روز رسانی یک شاخص جستجو

پس از استخراج متن از اسناد خود، شما نیاز به ساخت و یا به روز رسانی یک شاخص جستجو که به کاربران اجازه می دهد تا به سرعت پیدا کردن مستندات مربوطه بر اساس جستجوی کلمات کلیدی.

// Step 4: Extract text in batch from a directory of images
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\results";

ocrEngine.RecognizeMultiple(inputDirectory, outputDirectory);

مرحله 6: ادغام جستجو با یک مرورگر آرشیو

برای دستیابی به اسناد قابل جستجو به کاربران نهایی، شما نیاز به یکپارچه سازی عملکرد جستجو در یک برنامه مرورگر آرشیو. این می تواند یک رابط کاربری مبتنی بر وب یا برنامه دسکتاپ باشد. بازدید کننده باید کاربران را قادر به جستجو از طریق متن فهرست شده و مشاهده اسنای مربوطه.

// Step 5: Building or Updating a Search Index
// Store extracted text in a searchable format (e.g., database or inverted index file)
string extractedText = ocrEngine.RecognizePage("scannedDocument.png").CodeText;
File.WriteAllText("searchIndex.txt", extractedText);

مرحله هفتم: اضافه کردن خطا

در نهایت، مهم است که مدیریت خطا قوی را به برنامه خود اضافه کنید تا اطمینان حاصل شود که می تواند با مهربانی با مشکلات غیرمنتظره مانند فایل های فاسد یا خطای شبکه برخورد کند.این شامل اشتباهات ثبت نام برای اهداف تخلیه و ارائه پیام های اشتباه دوستانه برای کاربر در صورت لزوم است.

بهترین شیوه‌ها

ساختن اسناد اسکن شده قابل جستجو یک راه قدرتمند برای بهبود قابلیت استفاده از آرشیو های دیجیتال است. با پیروی از مراحل ذکر شده در این راهنمای، شما می توانید Aspose.OCR برای .NET برای استخراج متن از تصاویر و ادغام آن را به یک فرمت جستجو می شود. به یاد داشته باشید که به طور کامل برنامه خود را با انواع مختلف مستندات و در شرایط مختلف برای اطمینان از قابلیت های قابل اعتماد تست. علاوه بر این، در نظر گرفتن اجرای ویژگی هایی مانند ارزیابی کیفیت OCR و اصلاح اتوماتیک به منظور بهبود بیشتر دقت فرآیند برداشت متن.

More in this category