
معرفی
فایل های PDF اسکن شده اغلب حاوی متن به عنوان تصاویر هستند، بنابراین انتخاب، ویرایش و یا کپی کردن محتوا غیرممکن است.اگر شما نیاز به تبدیل PDF اسکن شده به اسناد ویرایش شده Word، تکنولوژی تشخیص شخصیت بصری (OCR) ارائه می دهد یک راه موثر برای استخراج متن در حالی که حفظ فرمت اصلی.در این مقاله، شما یاد خواهید گرفت که چگونه به برنامه نویسی تبدیل PDF اسکن شده به Word (DOCX یا DOC) با استفاده از C# با Aspose.OCR برای .NET و Aspose.Words برای کتابخانه های .NET.
چرا PDF های اسکن شده را به Word تبدیل می کنیم؟
چندین دلیل اجباری برای تبدیل PDF های اسکن شده به اسناد Word وجود دارد:
- به راحتی ویرایش اسناد اسکن شده: متن را بدون سرکوب دستی اصلاح کنید.
- نص استخراج برای پردازش بیشتر: از متن استخراج شده برای تجزیه و تحلیل یا ادغام در برنامه های دیگر استفاده کنید.
- حفظ طرح و فرمت: ساختار اسناد اصلی را حفظ کنید در حالی که آن را قابل ویرایش می کند.
- پردازش اسناد مبتنی بر OCR اتوماتیک: این ویژگی را به صورت بی نظیر در برنامه های C# خود ادغام کنید.
جدول محتوا
- تنظیم OCR API برای اسکن PDF به Word Conversion
- تبدیل اسکن شده PDF به ویرایش متن کلمه
- حفظ فرمت در OCR Conversion
- مدیریت صفحات چندگانه در PDF های اسکن شده
- مجوز برای دقت کامل OCR
- نتیجه گیری و منابع اضافی
تنظیم OCR API برای اسکن PDF به Word Conversion
برای استخراج متن از PDF های اسکن شده و تبدیل آنها به اسناد Word، ما از:
- Aspose.OCR برای .NET – یک ابزار قدرتمند که متن را از تصاویر اسکن شده تشخیص می دهد.
- Aspose.Words for .NET – این کتابخانه متن استخراج شده را به فرمت Word تبدیل می کند.
نصب
شما به راحتی می توانید این API ها را از طریق NuGet با دستورالعمل های زیر نصب کنید:
PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words
در غیر این صورت، شما می توانید DLL ها را از دانلود صفحه دانلود.
تبدیل اسکن شده PDF به ویرایش سند کلمه
این مراحل را دنبال کنید تا فایل های PDF اسکن شده را به Word (DOCX یا DOC) در C# تبدیل کنید:
- تولید OCR با
AsposeOcr
. - تصویب متن با استفاده از
DocumentRecognitionSettings
. - تصویری که در آن نوشته شده است در A
StringBuilder
. - ایجاد یک سند کلمه با استفاده از
Aspose.Words
. - فرمت را اعمال کنید و آن را به عنوان DOCX یا DOC ذخیره کنید.
کد نمونه
در اینجا یک مثال C# نشان می دهد اسکن شده PDF به Word تبدیل:
حفظ فرمت در OCR تبدیل
در حالی که استخراج متن OCR قدرتمند است، ممکن است همیشه فرمت اصلی، فونت ها و سبک ها را حفظ نکند.برای اطمینان از فرمت دقیق، نکات زیر را در نظر بگیرید:
- استفاده از Aspose.Words پاراگراف سبک ها برای استفاده از فرمت متن سازگار.
- نمایش ویژگی های فونت مانند اندازه، شجاع، ایتالیایی و هماهنگی.
- محدود کردن محدوده صفحه و طرح برای بهبود خروجی اسناد Word.
مدیریت صفحات چندگانه در PDF های اسکن شده
برای PDF های اسکن شده چند صفحه ای ، پردازش و ترکیب متن از همه صفحات به یک سند Word بسیار مهم است.
- از هر صفحه عبور کنید در PDF اسکن شده.
- تصویر را برای هر صفحه شناسایی کنید و آن را در یک
StringBuilder
. - نص شناسایی شده را به سند کلمه اضافه کنید.
این رویکرد به شما اطمینان می دهد تبدیل چند صفحه PDF به Word.
مجوز برای دقت کامل OCR
به طور پیش فرض، Aspose.OCR در حالت ارزیابی عمل می کند، که می تواند دقت تشخیص متن را محدود کند.
🔹 درخواست مجوز موقت رایگان (https://purchase.aspose.com/temporary-license) برای اهداف ارزیابی.
نتیجه گیری و منابع اضافی
خلاصه
در این راهنمای، ما شامل:
- تنظیم Aspose.OCR برای پردازش PDF اسکن شده
- استخراج متن از PDF های اسکن شده در C#
- تبدیل نص شناخته شده به یک سند Word فرمت شده
- پردازش بسیاری از صفحات اسکن شده PDF به Word تبدیل
با استفاده از Aspose.OCR و Aspose.Words، شما می توانید بدون هیچ مشکلی تبدیل فایل های PDF مبتنی بر تصویر به فایل های ویرایش شده Word. شروع به ساخت فایل های PDF به Word Converter در .NET امروز برای فقط $99!
راهنمایی های اضافی برای تبدیل PDF اسکن شده
اگر شما به دنبال راه هایی برای بهبود جریان کار خود هستید، در نظر بگیرید که با استفاده از قابلیت های C# OCR PDF به متن یا C# PDF to DOCX راه حل برای پردازش پیشرفته تر. آیا شما نیاز به تبدیل فایل های اسکن شده به Word برای ویرایش، و یا به سادگی می خواهید برای تغییر اسناد اسناری شده در Word, این روش ها پشتیبانی ارزشمندی را فراهم می کند. برای کسانی که می پرسند, چگونه من تبدیل یک فایل اسنی به کلمه؟ ابزار ذکر شده شما را از طریق فرآیند بدون تلاش راهنمایی خواهد کرد.
اسکن PDF به Word Conversion
در نهایت، برای راه حل های سفارشی تر، بررسی کنید که چگونه فایل های PDF اسکن شده را به Word تبدیل کنید یا از یک کتابخانه شناسایی متن C# برای بهبود توانایی های پردازش اسناد خود استفاده کنید. این منابع برای هر کسی که به طور منظم با اسکان شده ها برخورد می کند مفید خواهد بود. شما همچنین می توانید از ابزارهای C # PDF به DOCX برای تسهیل تبدیل و یا به روش C # OCR pdf به متن تکیه کنید تا جریان کار استخراج متن از تصاویر را آسان تر کند.