Convert Scanned PDF to Word in C#

Giới thiệu

Các tệp PDF quét thường chứa văn bản như hình ảnh, khiến không thể chọn, chỉnh sửa hoặc sao chép nội dung. Nếu bạn cần chuyển đổi PDF quét sang tài liệu Word có thể chỉnh sửa, công nghệ nhận dạng nhân vật quét (OCR) cung cấp một cách hiệu quả để rút văn bản trong khi duy trì định dạng ban đầu. Trong bài viết này, bạn sẽ tìm hiểu làm thế nào để chuyển đổi PDF quét thành Word (DOCX hoặc DOC) bằng cách sử dụng C# với Aspose.OCR cho .NET và Aspose.Words cho .NET thư viện.

Tại sao chuyển đổi PDF được quét sang Word?

Có một số lý do bắt buộc để chuyển đổi PDF được quét sang tài liệu Word:

  • Hơn dễ dàng chỉnh sửa các tài liệu được quét: Thay đổi văn bản mà không có lỗ hổng của bản vẽ thủ công.
  • Tin xuất để xử lý thêm: Sử dụng văn bản xuất để phân tích hoặc tích hợp vào các ứng dụng khác.
  • Giữ bố trí và định dạng: Giữ cấu trúc của tài liệu ban đầu trong khi làm cho nó có thể chỉnh sửa.
  • Tự động xử lý tài liệu dựa trên OCR: Tích hợp chức năng này một cách dễ dàng vào các ứng dụng C# của bạn.

Bảng nội dung

Cài đặt API OCR cho PDF Scanned sang Word Conversion

Để lấy văn bản từ các PDF được quét và chuyển đổi chúng thành tài liệu Word, chúng tôi sẽ sử dụng:

  • Aspose.OCR for .NET – Một công cụ mạnh mẽ nhận ra văn bản từ hình ảnh được quét.
  • Aspose.Words for .NET – Thư viện này chuyển đổi văn bản thu được thành định dạng Word.

Cài đặt

Bạn có thể dễ dàng cài đặt các API này thông qua NuGet với các lệnh sau:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

Ngoài ra, bạn có thể tải về DLL từ Aspose Downloads Trang.

Chuyển đổi PDF được quét sang tài liệu Word chỉnh sửa

Thực hiện các bước sau để chuyển đổi các tập tin PDF được quét sang Word (DOCX hoặc DOC) trong C#:

  • Initialize OCR với AsposeOcr.
  • Sử dụng văn bản DocumentRecognitionSettings.
  • Thông tin được công nhận trong a StringBuilder.
  • Tạo một tài liệu Word bằng cách sử dụng Aspose.Words.
  • Hãy áp dụng định dạng và lưu như DOCX hoặc DOC.

Mẫu mã

Dưới đây là ví dụ về C# cho thấy chuyển đổi PDF được quét sang Word:

3. duy trì định dạng trong OCR chuyển đổi

Trong khi chiết xuất văn bản OCR mạnh mẽ, nó có thể không phải lúc nào cũng giữ lại định dạng ban đầu, phông chữ và phong cách. Để đảm bảo định dạng chính xác, hãy xem xét các mẹo sau:

  • Sử dụng Aspose.Words Paragraph Styles để áp dụng định dạng văn bản nhất quán.
  • Cài đặt các thuộc tính phông chữ chẳng hạn như kích thước, dũng cảm, italics, và phù hợp.
  • Tùy chỉnh margin và layout của trang để cải thiện kết quả tài liệu Word.

4. xử lý nhiều trang trong PDF được quét

Đối với PDF được quét nhiều trang, điều quan trọng là phải xử lý và kết hợp văn bản từ tất cả các trang vào một tài liệu Word duy nhất.

  • Đi qua mỗi trang trong PDF được quét.
  • Nhận biết văn bản mỗi trang và lưu nó trong một StringBuilder.
  • Hãy thêm văn bản được công nhận vào tài liệu Word.

Cách tiếp cận này đảm bảo chuyển đổi PDF đa trang sang Word.

Giấy phép cho độ chính xác OCR đầy đủ

Theo mặc định, Aspose.OCR hoạt động trong chế độ đánh giá, có thể hạn chế độ xác nhận văn bản. Để mở khóa tiềm năng đầy đủ của API:

✍ Yêu cầu một Tự do Giấy phép tạm thời cho mục đích đánh giá.

Kết luận và tài nguyên bổ sung

Tổng hợp

Trong hướng dẫn này, chúng tôi bao gồm:

  • Cài đặt Aspose.OCR cho việc xử lý PDF được quét
  • Tiết xuất text từ các PDF được quét trong C#
  • Chuyển đổi thiết định văn bản thành một tài liệu Word định dạng
  • Quản lý nhiều trang quét PDF sang Word chuyển đổi

Bằng cách sử dụng Aspose.OCR và Aspose.Words, bạn có thể dễ dàng chuyển đổi PDF dựa trên hình ảnh sang các tệp Word có thể chỉnh sửa. Bắt đầu xây dựng PDF sang Word converter trong .NET hôm nay chỉ với $99!

Thêm lời khuyên cho chuyển đổi PDF quét

Nếu bạn đang tìm kiếm cách để cải thiện dòng công việc của bạn, hãy xem xét việc sử dụng các khả năng C# OCR PDF sang văn bản hoặc C# PDF đến DOCX giải pháp để xử lý nâng cao hơn. Cho dù bạn cần chuyển đổi PDF được quét sang Word để chỉnh sửa, hoặc chỉ đơn giản là muốn biến đổi tài liệu PDF có trình duyệt thành Word , các phương pháp này cung cấp hỗ trợ vô giá. Đối với những người hỏi, làm thế nào tôi chuyển một PDF bị quát sang Văn bản?, các công cụ được đề cập sẽ hướng dẫn bạn thông qua quá trình một cách nhanh chóng.

Tải PDF sang Word Conversion

Cuối cùng, cho các giải pháp tùy chỉnh hơn, hãy tìm hiểu làm thế nào để chuyển đổi tệp PDF được quét sang Word hoặc sử dụng một thư viện nhận dạng văn bản C# để cải thiện khả năng xử lý tài liệu của bạn. Các tài nguyên này sẽ có lợi cho bất cứ ai thường xuyên đối phó với các tập tin được scan. Bạn cũng có thể dùng các công cụ C# PDF đến DOCX để tạo điều kiện hoặc dựa vào một phương pháp c# OCR PDF sang Văn bản cho việc đơn giản hóa dòng công việc thu thập text từ hình ảnh.

More in this category