يوفر Aspose.OCR for .NET حلًا قويًّا لهذه المشكلة من خلال تمكين المطورين من استخراج النص من الصور وجعلها قابلة للبحث.سوف يرشدك هذا المنشور عبر عملية إعداد بيئة التطوير الخاصة بك ، وتكوين إجراءات التعرف ، واستخراج نص في مجموعة ، وبناء أو تحديث مؤشر البحث ، ودمج وظيفة البحث مع مرشح الأرشيف ، وإضافة قوية لمعالجة الأخطاء.

نموذج كامل

دليل خطوة بخطوة

الخطوة 1: وضع بيئتك التنموية

لبدء مع Aspose.OCR ل .NET ، تحتاج إلى بيئة تطوير محددة. وهذا يشمل تثبيت SDK المطلوب وأي إدمان. يمكنك تنزيل أحدث إصدار من Asposa.ocR من الموقع الرسمي وإضافته إلى مشروعك عبر NuGet أو عن طريق الإشارة إلى DLL مباشرة.

الخطوة 2: تنظيم ملفات الأرشيف الخاصة بك

قبل البدء في معالجة المستندات ، قم بتنظيم ملفات الوثيقة التي تم فحصها في بنية الدليل التي تجعل تدفق عملك معقولًا.يمكن أن يعتمد هذا على التاريخ أو نوع الوثة أو أي معايير أخرى ذات صلة.تأكد من أن جميع الملفات متاحة من تطبيقك وأنها متوفرة في تنسيق يدعم Aspose.OCR (مثل JPEG و PNG و TIFF وما إلى ذلك).

الخطوة الثالثة: تعيين إعدادات التعرف

Aspose.OCR يسمح لك لتنظيف عملية التعرف لتتناسب مع احتياجاتك المحددة.يمكنك تكوين الإعدادات مثل اللغة، نوع الخط، وخيارات المعالجة المسبقة للصورة.على سبيل المثال، إذا كنت تعمل مع المستندات باللغة الإنجليزية، وسوف تقوم بتعيين اللغة إلى “الإنجليزي”.وبالإضافة إلى ذلك، قد ترغب في تعديل إعداد DPI لتحسين الكشف عن النص على الصور عالية الدقة.

// Step 2: Organize scanned document files into a directory structure
string inputDirectory = @"C:\ScannedDocuments\2023\Invoices";
string[] supportedFormats = { ".jpg", ".png", ".tiff" };

// Get all supported files from the directory
var files = Directory.GetFiles(inputDirectory)
                     .Where(f => supportedFormats.Contains(Path.GetExtension(f), StringComparer.OrdinalIgnoreCase))
                     .ToArray();

الخطوة 4: استخراج النص في المجموعة

بمجرد تكوين إعداداتك ، يمكنك البدء في استخراج النص من المستندات الخاصة بك. يدعم Aspose.OCR معالجة المجموعات ، مما يعني أنك تستطيع معالجتها عدة ملفات في وقت واحد. وهذا مفيد بشكل خاص لأرشيفات كبيرة من الوثائق المسحوبة.

// Step 3: Configuring Recognition Settings
ocrEngine.SetLanguage(Language.English);
ocrEngine.SetImagePreprocessing(ImagePreprocessingOptions.Denoising);
ocrEngine.SetResolution(300); // Set DPI for better text detection

الخطوة 5: بناء أو تحديث مؤشر البحث

بعد استخراج النص من مستنداتك، تحتاج إلى إنشاء أو تحديث مؤشر البحث الذي يسمح للمستخدمين للعثور بسرعة على الوثائق ذات الصلة استنادا إلى بحث الكلمات الرئيسية.

// Step 4: Extract text in batch from a directory of images
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\results";

ocrEngine.RecognizeMultiple(inputDirectory, outputDirectory);

الخطوة 6: دمج البحث مع متصفح الأرشيف

لجعل المستندات القابلة للبحث متاحة للمستخدمين النهائيين، تحتاج إلى دمج وظيفة البحث في تطبيق المراقب الأرشيف.هذا يمكن أن يكون واجهة على شبكة الإنترنت أو تطبيق سطح المكتب.يجب أن يسمح المشاهد المستخدمون بالبحث من خلال النص المنصوص عليه ومشاهدة الوثائق المسجلة ذات الصلة.

// Step 5: Building or Updating a Search Index
// Store extracted text in a searchable format (e.g., database or inverted index file)
string extractedText = ocrEngine.RecognizePage("scannedDocument.png").CodeText;
File.WriteAllText("searchIndex.txt", extractedText);

الخطوة 7: إضافة خطأ التعامل

وأخيرًا ، من المهم إضافة معالجة خطأ قوية إلى تطبيقك للتأكد من أنه يمكن التعامل بحسن نية مع المشاكل غير المتوقعة مثل الملفات المكسورة أو أخطاء الشبكة.

أفضل الممارسات

إن جعل المستندات المسجلة قابلة للبحث هو وسيلة قوية لتحسين سهولة الاستخدام في الأرشيفات الرقمية. من خلال اتباع الخطوات المذكورة في هذا الدليل، يمكنك استخدام Aspose.OCR ل .NET لاستخراج النص من الصور وإدراجها في تنسيق قابل للمبحث. تذكر اختبار تطبيقك بعناية مع أنواع مختلفة من الوثائق وفي ظل ظروف مختلفة لضمان الموثوقية.

More in this category