مدارک PDF جزئی جدایی‌ناپذیر از فرآیندهای مختلف کسب‌وکار هستند و اغلب نیاز به دسترسی برنامه‌نویسی به محتوای اسکن‌شده آن‌ها وجود دارد. استخراج متن از فایل‌های PDF اسکن‌شده می‌تواند یک کار پیچیده باشد و نیاز به ابزارهای مؤثر را نشان می‌دهد. در این آموزش، ما به نحوه OCR مدارک PDF و استخراج متن از PDF در C# با استفاده از Aspose.OCR for .NET API که یک کتابخانه استخراج OCR PDF C# پیشرو و برای ارزیابی رایگان در دسترس است، خواهیم پرداخت.

آنچه خواهید آموخت

در این مقاله، ما به موضوعات زیر خواهیم پرداخت:

  1. مروری بر Aspose.OCR for .NET API
  2. مراحل OCR PDF و استخراج متن
  3. نحوه انجام OCR بر روی PDF و ذخیره متن
  4. تبدیل OCR PDF به Word
  5. تبدیل OCR PDF به JSON

مروری بر Aspose.OCR for .NET API

ما از Aspose.OCR for .NET API استفاده خواهیم کرد، که یک API OCR PDF .NET قوی است که برای شناسایی متن از تصاویر اسکن‌شده، عکس‌های گوشی‌های هوشمند و اسکرین‌شات‌ها طراحی شده و نتایج را در فرمت‌های مختلف سند بازمی‌گرداند. این API نه تنها تصاویر را به متن تبدیل می‌کند، بلکه PDF‌های قابل جستجو از اسکن‌ها ایجاد کرده و هرگونه اشتباه املایی در متن شناسایی‌شده را تصحیح می‌کند و آن را به یکی از سریع‌ترین راه‌حل‌های OCR PDF C# موجود با قیمت 99 دلار تبدیل می‌کند.

این API شامل کلاس AsposeOcr است که روش‌های متعددی برای عملیات OCR ارائه می‌دهد. به‌ویژه، متد RecognizePdf(string, DocumentRecognitionSettings) برای استخراج متن از یک سند PDF مشخص ضروری است. کلاس DocumentRecognitionSettings اجازه می‌دهد که فرایند شناسایی سفارشی شود، در حالی که کلاس RecognitionResult نتایج شناسایی را در بر می‌گیرد.

شما می‌توانید DLL API را دانلود کنید یا آن را از طریق NuGet نصب کنید:

PM> Install-Package Aspose.OCR

مراحل OCR PDF و استخراج متن در C#

برای انجام OCR بر روی مدارک PDF و استخراج متن شناسایی‌شده، مراحل زیر را دنبال کنید:

  1. یک نمونه از کلاس AsposeOcr ایجاد کنید.
  2. یک شی از کلاس DocumentRecognitionSettings را مقداردهی کنید.
  3. زبان برای OCR را مشخص کنید.
  4. با فراخوانی متد RecognizePdf() و ارسال مسیر تصویر و شی DocumentRecognitionSettings، RecognitionResult را به‌دست آورید.
  5. از لیست RecognitionResult برای نمایش متن شناسایی‌شده استفاده کنید.

در اینجا یک مثال برای نحوه OCR مدارک PDF و استخراج متن شناسایی‌شده در C# آورده شده است:

OCR PDF و استخراج متن از PDF در C#

نحوه انجام OCR بر روی PDF و ذخیره متن در C#

برای انجام OCR بر روی مدارک PDF و ذخیره متن شناسایی‌شده، مراحل زیر را دنبال کنید:

  1. یک نمونه از کلاس AsposeOcr ایجاد کنید.
  2. یک شی از کلاس DocumentRecognitionSettings را مقداردهی کنید.
  3. زبان برای OCR را مشخص کنید.
  4. متد RecognizePdf() را برای به‌دست آوردن RecognitionResult فراخوانی کنید.
  5. متن را با استفاده از متد SaveMultipageDocument() ذخیره کنید که نیاز به مسیر فایل خروجی، SaveFormat و شی RecognitionResult دارد.

در اینجا یک مثال برای نحوه OCR مدارک PDF و ذخیره متن شناسایی‌شده در C# آورده شده است:

انجام OCR بر روی PDF و ذخیره متن در C#

تبدیل OCR PDF به Word در C#

برای تبدیل مدارک PDF اسکن‌شده به Word، مراحل مشابهی که قبلاً توضیح داده شد را دنبال کنید، اما در مرحله نهایی SaveFormat.Docx را مشخص کنید.

در اینجا یک مثال برای نحوه OCR PDF و ذخیره متن شناسایی‌شده به عنوان سند Word در C# آورده شده است:

OCR PDF و تبدیل PDF اسکن‌شده به Word در C#

تبدیل OCR PDF به JSON در C#

برای ذخیره متن شناسایی‌شده از مدارک PDF در یک فایل JSON، مراحل قبلی را دنبال کنید با این تغییر که فقط SaveFormat.Json را در مرحله نهایی مشخص کنید.

در اینجا یک مثال برای نحوه OCR PDF و ذخیره متن شناسایی‌شده به عنوان فایل JSON در C# آورده شده است:

دریافت مجوز ارزیابی رایگان

شما می‌توانید یک مجوز موقتی رایگان دریافت کنید تا API Aspose.OCR for .NET را بدون هیچ محدودیتی ارزیابی کنید.

نتیجه‌گیری

در این آموزش، یاد گرفتیم که چگونه OCR را بر روی مدارک PDF انجام دهیم و متن را از PDF در C# استخراج کنیم. ما همچنین بررسی کردیم که چگونه متن شناسایی‌شده را به عنوان فایل TXT، DOCX و JSON ذخیره کنیم. برای اطلاعات بیشتر در مورد API Aspose.OCR for .NET، به مستندات آن مراجعه کنید. اگر سوالی دارید، می‌توانید با ما در فروم تماس بگیرید.

همچنین ببینید

با استفاده از Aspose.OCR for .NET API، می‌توانید OCR PDF با دقت بالا را در C# برای برنامه‌های مختلف، از جمله پردازش فاکتورها و مدیریت فرم‌ها پیاده‌سازی کنید. این راه‌حل OCR PDF .NET مقرون‌به‌صرفه برای توسعه‌دهندگانی که به دنبال ادغام قابلیت‌های OCR PDF در برنامه‌های خود به‌طور مؤثر هستند، مناسب است.