Chuyển đổi PDF quét sang Word bằng C#

Giới thiệu

Các tệp PDF quét thường lưu trữ văn bản dưới dạng hình ảnh, điều này khiến việc chọn, chỉnh sửa hoặc sao chép nội dung trở nên không thể. Nếu bạn cần chuyển đổi PDF quét thành tài liệu Word có thể chỉnh sửa, công nghệ Nhận diện Ký tự Quang học (OCR) cung cấp một cách hiệu quả để trích xuất văn bản trong khi vẫn giữ nguyên định dạng ban đầu. Trong bài viết này, bạn sẽ học cách chuyển đổi PDF quét sang Word (DOCX hoặc DOC) bằng C# với các thư viện Aspose.OCR cho .NETAspose.Words cho .NET.

Tại sao chuyển đổi PDF quét sang Word?

Có một số lý do thuyết phục để chuyển đổi PDF quét thành tài liệu Word:

  • Dễ dàng chỉnh sửa tài liệu quét: Chỉnh sửa văn bản mà không cần phải gõ lại thủ công.
  • Trích xuất văn bản để xử lý thêm: Sử dụng văn bản đã trích xuất cho phân tích hoặc các ứng dụng khác.
  • Giữ nguyên bố cục và định dạng: Giữ cấu trúc của tài liệu gốc trong khi làm cho nó có thể chỉnh sửa.
  • Tự động hóa quy trình xử lý tài liệu dựa trên OCR: Tích hợp chức năng này vào các ứng dụng C# của bạn một cách liền mạch.

Mục lục

  1. Cài đặt API OCR cho chuyển đổi PDF quét sang Word
  2. Chuyển đổi PDF quét thành tài liệu Word có thể chỉnh sửa
  3. Bảo tồn định dạng trong chuyển đổi OCR
  4. Xử lý nhiều trang trong PDF quét
  5. Giấy phép cho độ chính xác OCR đầy đủ
  6. Kết luận và Tài nguyên bổ sung

1. Cài đặt API OCR cho chuyển đổi PDF quét sang Word

Để trích xuất văn bản từ PDF quét và chuyển đổi chúng thành tài liệu Word, chúng tôi sẽ sử dụng:

  • Aspose.OCR cho .NET – Một công cụ mạnh mẽ nhận diện văn bản từ hình ảnh quét.
  • Aspose.Words cho .NET – Thư viện này chuyển đổi văn bản đã trích xuất thành định dạng Word.

Cài đặt

Bạn có thể dễ dàng cài đặt các API này qua NuGet với các lệnh sau:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

Ngoài ra, bạn có thể tải xuống các DLL từ Trang Tải xuống Aspose.


2. Chuyển đổi PDF quét thành tài liệu Word có thể chỉnh sửa

Thực hiện theo các bước sau để chuyển đổi tệp PDF quét sang Word (DOCX hoặc DOC) bằng C#:

  1. Khởi tạo OCR với AsposeOcr.
  2. Trích xuất văn bản sử dụng DocumentRecognitionSettings.
  3. Lưu trữ văn bản đã nhận diện trong StringBuilder.
  4. Tạo một tài liệu Word sử dụng Aspose.Words.
  5. Áp dụng định dạng và lưu dưới dạng DOCX hoặc DOC.

Mẫu mã

Dưới đây là một ví dụ C# minh họa cho chuyển đổi PDF quét sang Word:


3. Bảo tồn định dạng trong chuyển đổi OCR

Trong khi việc trích xuất văn bản bằng OCR rất mạnh mẽ, nó có thể không luôn luôn giữ nguyên định dạng, phông chữ và kiểu dáng ban đầu. Để đảm bảo định dạng chính xác, hãy xem xét các mẹo sau:

  • Sử dụng kiểu đoạn của Aspose.Words để áp dụng định dạng văn bản nhất quán.
  • Đặt thuộc tính phông chữ như kích thước, in đậm, in nghiêng và căn chỉnh.
  • Điều chỉnh lề trang và bố cục để cải thiện đầu ra tài liệu Word.

4. Xử lý nhiều trang trong PDF quét

Đối với PDF quét nhiều trang, điều quan trọng là phải xử lý và hợp nhất văn bản từ tất cả các trang thành một tài liệu Word duy nhất. Để đạt được điều này:

  • Lặp qua từng trang trong PDF quét.
  • Nhận diện văn bản theo trang và lưu trữ nó trong StringBuilder.
  • Thêm văn bản đã nhận diện vào tài liệu Word.

Cách tiếp cận này đảm bảo chuyển đổi PDF quét nhiều trang sang Word liền mạch.


5. Giấy phép cho độ chính xác OCR đầy đủ

Theo mặc định, Aspose.OCR hoạt động trong chế độ đánh giá, điều này có thể giới hạn độ chính xác nhận diện văn bản. Để mở khóa toàn bộ tiềm năng của API:

🔹 Yêu cầu một Giấy phép Tạm thời Miễn phí cho mục đích đánh giá.


6. Kết luận và Tài nguyên bổ sung

Tóm tắt

Trong hướng dẫn này, chúng ta đã đề cập đến:

✅ Cài đặt Aspose.OCR cho xử lý PDF quét
✅ Trích xuất văn bản từ PDF quét bằng C#
✅ Chuyển đổi văn bản đã nhận diện thành tài liệu Word có định dạng
✅ Xử lý chuyển đổi PDF quét nhiều trang sang Word


Bằng cách tận dụng Aspose.OCR và Aspose.Words, bạn có thể dễ dàng chuyển đổi PDF dựa trên hình ảnh thành tệp Word có thể chỉnh sửa. Bắt đầu xây dựng trình chuyển đổi PDF sang Word dựa trên OCR của bạn trong .NET hôm nay chỉ với $99! 🚀