
مدارک PDF جزئی جداییناپذیر از فرآیندهای مختلف کسبوکار هستند و اغلب نیاز به دسترسی برنامهنویسی به محتوای اسکنشده آنها وجود دارد. استخراج متن از فایلهای PDF اسکنشده میتواند یک کار پیچیده باشد و نیاز به ابزارهای مؤثر را نشان میدهد. در این آموزش، ما به نحوه OCR مدارک PDF و استخراج متن از PDF در C# با استفاده از Aspose.OCR for .NET API که یک کتابخانه استخراج OCR PDF C# پیشرو و برای ارزیابی رایگان در دسترس است، خواهیم پرداخت.
آنچه خواهید آموخت
در این مقاله، ما به موضوعات زیر خواهیم پرداخت:
- مروری بر Aspose.OCR for .NET API
- مراحل OCR PDF و استخراج متن
- نحوه انجام OCR بر روی PDF و ذخیره متن
- تبدیل OCR PDF به Word
- تبدیل OCR PDF به JSON
مروری بر Aspose.OCR for .NET API
ما از Aspose.OCR for .NET API استفاده خواهیم کرد، که یک API OCR PDF .NET قوی است که برای شناسایی متن از تصاویر اسکنشده، عکسهای گوشیهای هوشمند و اسکرینشاتها طراحی شده و نتایج را در فرمتهای مختلف سند بازمیگرداند. این API نه تنها تصاویر را به متن تبدیل میکند، بلکه PDFهای قابل جستجو از اسکنها ایجاد کرده و هرگونه اشتباه املایی در متن شناساییشده را تصحیح میکند و آن را به یکی از سریعترین راهحلهای OCR PDF C# موجود با قیمت 99 دلار تبدیل میکند.
این API شامل کلاس AsposeOcr است که روشهای متعددی برای عملیات OCR ارائه میدهد. بهویژه، متد RecognizePdf(string, DocumentRecognitionSettings) برای استخراج متن از یک سند PDF مشخص ضروری است. کلاس DocumentRecognitionSettings اجازه میدهد که فرایند شناسایی سفارشی شود، در حالی که کلاس RecognitionResult نتایج شناسایی را در بر میگیرد.
شما میتوانید DLL API را دانلود کنید یا آن را از طریق NuGet نصب کنید:
PM> Install-Package Aspose.OCR
مراحل OCR PDF و استخراج متن در C#
برای انجام OCR بر روی مدارک PDF و استخراج متن شناساییشده، مراحل زیر را دنبال کنید:
- یک نمونه از کلاس AsposeOcr ایجاد کنید.
- یک شی از کلاس DocumentRecognitionSettings را مقداردهی کنید.
- زبان برای OCR را مشخص کنید.
- با فراخوانی متد RecognizePdf() و ارسال مسیر تصویر و شی DocumentRecognitionSettings، RecognitionResult را بهدست آورید.
- از لیست RecognitionResult برای نمایش متن شناساییشده استفاده کنید.
در اینجا یک مثال برای نحوه OCR مدارک PDF و استخراج متن شناساییشده در C# آورده شده است:
نحوه انجام OCR بر روی PDF و ذخیره متن در C#
برای انجام OCR بر روی مدارک PDF و ذخیره متن شناساییشده، مراحل زیر را دنبال کنید:
- یک نمونه از کلاس AsposeOcr ایجاد کنید.
- یک شی از کلاس DocumentRecognitionSettings را مقداردهی کنید.
- زبان برای OCR را مشخص کنید.
- متد RecognizePdf() را برای بهدست آوردن RecognitionResult فراخوانی کنید.
- متن را با استفاده از متد SaveMultipageDocument() ذخیره کنید که نیاز به مسیر فایل خروجی، SaveFormat و شی RecognitionResult دارد.
در اینجا یک مثال برای نحوه OCR مدارک PDF و ذخیره متن شناساییشده در C# آورده شده است:
تبدیل OCR PDF به Word در C#
برای تبدیل مدارک PDF اسکنشده به Word، مراحل مشابهی که قبلاً توضیح داده شد را دنبال کنید، اما در مرحله نهایی SaveFormat.Docx را مشخص کنید.
در اینجا یک مثال برای نحوه OCR PDF و ذخیره متن شناساییشده به عنوان سند Word در C# آورده شده است:
تبدیل OCR PDF به JSON در C#
برای ذخیره متن شناساییشده از مدارک PDF در یک فایل JSON، مراحل قبلی را دنبال کنید با این تغییر که فقط SaveFormat.Json را در مرحله نهایی مشخص کنید.
در اینجا یک مثال برای نحوه OCR PDF و ذخیره متن شناساییشده به عنوان فایل JSON در C# آورده شده است:
دریافت مجوز ارزیابی رایگان
شما میتوانید یک مجوز موقتی رایگان دریافت کنید تا API Aspose.OCR for .NET را بدون هیچ محدودیتی ارزیابی کنید.
نتیجهگیری
در این آموزش، یاد گرفتیم که چگونه OCR را بر روی مدارک PDF انجام دهیم و متن را از PDF در C# استخراج کنیم. ما همچنین بررسی کردیم که چگونه متن شناساییشده را به عنوان فایل TXT، DOCX و JSON ذخیره کنیم. برای اطلاعات بیشتر در مورد API Aspose.OCR for .NET، به مستندات آن مراجعه کنید. اگر سوالی دارید، میتوانید با ما در فروم تماس بگیرید.
همچنین ببینید
- تبدیل اسکرینشات به متن با OCR در C#
- OCR تصویر به متن و تصحیح املایی در C#
- تبدیل PDF اسکنشده به PDF قابل جستجو با OCR در C#
با استفاده از Aspose.OCR for .NET API، میتوانید OCR PDF با دقت بالا را در C# برای برنامههای مختلف، از جمله پردازش فاکتورها و مدیریت فرمها پیادهسازی کنید. این راهحل OCR PDF .NET مقرونبهصرفه برای توسعهدهندگانی که به دنبال ادغام قابلیتهای OCR PDF در برنامههای خود بهطور مؤثر هستند، مناسب است.