
مقدمه
فایلهای PDF اسکن شده معمولاً متن را به صورت تصویر ذخیره میکنند، که این امر انتخاب، ویرایش یا کپی کردن محتوا را غیرممکن میسازد. اگر نیاز دارید PDFهای اسکن شده را به اسناد Word قابل ویرایش تبدیل کنید، فناوری شناسایی کاراکتر نوری (OCR) راهی کارآمد برای استخراج متن در حالی که فرمت اصلی حفظ میشود، ارائه میدهد. در این مقاله، یاد خواهید گرفت که چگونه به صورت برنامهنویسی PDFهای اسکن شده را به Word (DOCX یا DOC) با استفاده از C# و کتابخانههای Aspose.OCR برای .NET و Aspose.Words برای .NET تبدیل کنید.
چرا PDFهای اسکن شده را به Word تبدیل کنیم؟
دلایل قانعکنندهای وجود دارد که PDFهای اسکن شده را به اسناد Word تبدیل کنیم:
- ویرایش آسان اسناد اسکن شده: متن را بدون دردسر تایپ مجدد دستی ویرایش کنید.
- استخراج متن برای پردازش بیشتر: از متن استخراج شده برای تحلیل یا سایر برنامهها استفاده کنید.
- حفظ چیدمان و فرمت: ساختار سند اصلی را در حالی که قابل ویرایش میشود، حفظ کنید.
- خودکارسازی پردازش اسناد مبتنی بر OCR: این قابلیت را به راحتی در برنامههای C# خود ادغام کنید.
فهرست مطالب
- راهاندازی API OCR برای تبدیل PDF اسکن شده به Word
- تبدیل PDF اسکن شده به سند Word قابل ویرایش
- حفظ فرمت در تبدیل OCR
- مدیریت صفحات متعدد در PDFهای اسکن شده
- مجوز برای دقت کامل OCR
- نتیجهگیری و منابع اضافی
1. راهاندازی API OCR برای تبدیل PDF اسکن شده به Word
برای استخراج متن از PDFهای اسکن شده و تبدیل آنها به اسناد Word، ما از:
- Aspose.OCR برای .NET – ابزاری قدرتمند که متن را از تصاویر اسکن شده شناسایی میکند.
- Aspose.Words برای .NET – این کتابخانه متن استخراج شده را به فرمت Word تبدیل میکند.
نصب
شما میتوانید به راحتی این APIها را از طریق NuGet با دستورات زیر نصب کنید:
PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words
بهطور جایگزین، میتوانید DLLها را از صفحه دانلود Aspose دانلود کنید.
2. تبدیل PDF اسکن شده به سند Word قابل ویرایش
برای تبدیل فایلهای PDF اسکن شده به Word (DOCX یا DOC) در C# مراحل زیر را دنبال کنید:
- OCR را با
AsposeOcr
راهاندازی کنید. - متن را با استفاده از
DocumentRecognitionSettings
استخراج کنید. - متن شناسایی شده را در یک
StringBuilder
ذخیره کنید. - یک سند Word با استفاده از
Aspose.Words
ایجاد کنید. - فرمت را اعمال کرده و به عنوان DOCX یا DOC ذخیره کنید.
نمونه کد
در اینجا یک مثال C# برای تبدیل PDF اسکن شده به Word آورده شده است:
3. حفظ فرمت در تبدیل OCR
در حالی که استخراج متن OCR قدرتمند است، ممکن است همیشه فرمت، فونتها و سبکهای اصلی را حفظ نکند. برای اطمینان از فرمت دقیق، نکات زیر را در نظر بگیرید:
- از سبکهای پاراگراف Aspose.Words استفاده کنید تا فرمت متن یکسانی را اعمال کنید.
- خصوصیات فونت را تنظیم کنید مانند اندازه، پررنگ، ایتالیک و تراز.
- حاشیههای صفحه و چیدمان را تنظیم کنید تا خروجی سند Word بهبود یابد.
4. مدیریت صفحات متعدد در PDFهای اسکن شده
برای PDFهای اسکن شده چند صفحهای، پردازش و ادغام متن از تمام صفحات به یک سند Word واحد ضروری است. برای دستیابی به این هدف:
- از هر صفحه در PDF اسکن شده عبور کنید.
- متن را در هر صفحه شناسایی کرده و در یک
StringBuilder
ذخیره کنید. - متن شناسایی شده را به سند Word اضافه کنید.
این روش اطمینان میدهد که تبدیل PDF چند صفحهای به Word بهراحتی انجام میشود.
5. مجوز برای دقت کامل OCR
بهطور پیشفرض، Aspose.OCR در حالت ارزیابی کار میکند، که ممکن است دقت شناسایی متن را محدود کند. برای باز کردن پتانسیل کامل API:
🔹 درخواست مجوز موقت رایگان برای اهداف ارزیابی کنید.
6. نتیجهگیری و منابع اضافی
خلاصه
در این راهنما، ما به بررسی موارد زیر پرداختیم:
✅ راهاندازی Aspose.OCR برای پردازش PDF اسکن شده
✅ استخراج متن از PDFهای اسکن شده در C#
✅ تبدیل متن شناسایی شده به یک سند Word فرمتبندی شده
✅ مدیریت تبدیل PDF اسکن شده چند صفحهای به Word
با استفاده از Aspose.OCR و Aspose.Words، شما میتوانید به راحتی PDFهای مبتنی بر تصویر را به فایلهای Word قابل ویرایش تبدیل کنید. امروز شروع به ساخت تبدیلکننده PDF به Word مبتنی بر OCR در .NET کنید فقط با $99! 🚀