تبدیل PDF اسکن شده به Word در C#

مقدمه

فایل‌های PDF اسکن شده معمولاً متن را به صورت تصویر ذخیره می‌کنند، که این امر انتخاب، ویرایش یا کپی کردن محتوا را غیرممکن می‌سازد. اگر نیاز دارید PDFهای اسکن شده را به اسناد Word قابل ویرایش تبدیل کنید، فناوری شناسایی کاراکتر نوری (OCR) راهی کارآمد برای استخراج متن در حالی که فرمت اصلی حفظ می‌شود، ارائه می‌دهد. در این مقاله، یاد خواهید گرفت که چگونه به صورت برنامه‌نویسی PDFهای اسکن شده را به Word (DOCX یا DOC) با استفاده از C# و کتابخانه‌های Aspose.OCR برای .NET و Aspose.Words برای .NET تبدیل کنید.

چرا PDFهای اسکن شده را به Word تبدیل کنیم؟

دلایل قانع‌کننده‌ای وجود دارد که PDFهای اسکن شده را به اسناد Word تبدیل کنیم:

  • ویرایش آسان اسناد اسکن شده: متن را بدون دردسر تایپ مجدد دستی ویرایش کنید.
  • استخراج متن برای پردازش بیشتر: از متن استخراج شده برای تحلیل یا سایر برنامه‌ها استفاده کنید.
  • حفظ چیدمان و فرمت: ساختار سند اصلی را در حالی که قابل ویرایش می‌شود، حفظ کنید.
  • خودکارسازی پردازش اسناد مبتنی بر OCR: این قابلیت را به راحتی در برنامه‌های C# خود ادغام کنید.

فهرست مطالب

  1. راه‌اندازی API OCR برای تبدیل PDF اسکن شده به Word
  2. تبدیل PDF اسکن شده به سند Word قابل ویرایش
  3. حفظ فرمت در تبدیل OCR
  4. مدیریت صفحات متعدد در PDFهای اسکن شده
  5. مجوز برای دقت کامل OCR
  6. نتیجه‌گیری و منابع اضافی

1. راه‌اندازی API OCR برای تبدیل PDF اسکن شده به Word

برای استخراج متن از PDFهای اسکن شده و تبدیل آن‌ها به اسناد Word، ما از:

  • Aspose.OCR برای .NET – ابزاری قدرتمند که متن را از تصاویر اسکن شده شناسایی می‌کند.
  • Aspose.Words برای .NET – این کتابخانه متن استخراج شده را به فرمت Word تبدیل می‌کند.

نصب

شما می‌توانید به راحتی این APIها را از طریق NuGet با دستورات زیر نصب کنید:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

به‌طور جایگزین، می‌توانید DLLها را از صفحه دانلود Aspose دانلود کنید.


2. تبدیل PDF اسکن شده به سند Word قابل ویرایش

برای تبدیل فایل‌های PDF اسکن شده به Word (DOCX یا DOC) در C# مراحل زیر را دنبال کنید:

  1. OCR را با AsposeOcr راه‌اندازی کنید.
  2. متن را با استفاده از DocumentRecognitionSettings استخراج کنید.
  3. متن شناسایی شده را در یک StringBuilder ذخیره کنید.
  4. یک سند Word با استفاده از Aspose.Words ایجاد کنید.
  5. فرمت را اعمال کرده و به عنوان DOCX یا DOC ذخیره کنید.

نمونه کد

در اینجا یک مثال C# برای تبدیل PDF اسکن شده به Word آورده شده است:


3. حفظ فرمت در تبدیل OCR

در حالی که استخراج متن OCR قدرتمند است، ممکن است همیشه فرمت، فونت‌ها و سبک‌های اصلی را حفظ نکند. برای اطمینان از فرمت دقیق، نکات زیر را در نظر بگیرید:

  • از سبک‌های پاراگراف Aspose.Words استفاده کنید تا فرمت متن یکسانی را اعمال کنید.
  • خصوصیات فونت را تنظیم کنید مانند اندازه، پررنگ، ایتالیک و تراز.
  • حاشیه‌های صفحه و چیدمان را تنظیم کنید تا خروجی سند Word بهبود یابد.

4. مدیریت صفحات متعدد در PDFهای اسکن شده

برای PDFهای اسکن شده چند صفحه‌ای، پردازش و ادغام متن از تمام صفحات به یک سند Word واحد ضروری است. برای دستیابی به این هدف:

  • از هر صفحه در PDF اسکن شده عبور کنید.
  • متن را در هر صفحه شناسایی کرده و در یک StringBuilder ذخیره کنید.
  • متن شناسایی شده را به سند Word اضافه کنید.

این روش اطمینان می‌دهد که تبدیل PDF چند صفحه‌ای به Word به‌راحتی انجام می‌شود.


5. مجوز برای دقت کامل OCR

به‌طور پیش‌فرض، Aspose.OCR در حالت ارزیابی کار می‌کند، که ممکن است دقت شناسایی متن را محدود کند. برای باز کردن پتانسیل کامل API:

🔹 درخواست مجوز موقت رایگان برای اهداف ارزیابی کنید.


6. نتیجه‌گیری و منابع اضافی

خلاصه

در این راهنما، ما به بررسی موارد زیر پرداختیم:

✅ راه‌اندازی Aspose.OCR برای پردازش PDF اسکن شده
✅ استخراج متن از PDFهای اسکن شده در C#
✅ تبدیل متن شناسایی شده به یک سند Word فرمت‌بندی شده
✅ مدیریت تبدیل PDF اسکن شده چند صفحه‌ای به Word


با استفاده از Aspose.OCR و Aspose.Words، شما می‌توانید به راحتی PDFهای مبتنی بر تصویر را به فایل‌های Word قابل ویرایش تبدیل کنید. امروز شروع به ساخت تبدیل‌کننده PDF به Word مبتنی بر OCR در .NET کنید فقط با $99! 🚀