
Giới thiệu
Các tệp PDF quét thường chứa văn bản như hình ảnh, khiến không thể chọn, chỉnh sửa hoặc sao chép nội dung. Nếu bạn cần chuyển đổi PDF quét sang tài liệu Word có thể chỉnh sửa, công nghệ nhận dạng nhân vật quét (OCR) cung cấp một cách hiệu quả để rút văn bản trong khi duy trì định dạng ban đầu. Trong bài viết này, bạn sẽ tìm hiểu làm thế nào để chuyển đổi PDF quét thành Word (DOCX hoặc DOC) bằng cách sử dụng C# với Aspose.OCR cho .NET và Aspose.Words cho .NET thư viện.
Tại sao chuyển đổi PDF được quét sang Word?
Có một số lý do bắt buộc để chuyển đổi PDF được quét sang tài liệu Word:
- Hơn dễ dàng chỉnh sửa các tài liệu được quét: Thay đổi văn bản mà không có lỗ hổng của bản vẽ thủ công.
- Tin xuất để xử lý thêm: Sử dụng văn bản xuất để phân tích hoặc tích hợp vào các ứng dụng khác.
- Giữ bố trí và định dạng: Giữ cấu trúc của tài liệu ban đầu trong khi làm cho nó có thể chỉnh sửa.
- Tự động xử lý tài liệu dựa trên OCR: Tích hợp chức năng này một cách dễ dàng vào các ứng dụng C# của bạn.
Bảng nội dung
- Cài đặt OCR API cho PDF Scanned sang Word Conversion
- Chuyển đổi PDF được quét thành Word Document
- Bảo tồn định dạng trong OCR Conversion
- Quản lý nhiều trang trong PDF được quét
- Giấy phép cho chính xác OCR đầy đủ
- Kết luận và các nguồn lực bổ sung
Cài đặt API OCR cho PDF Scanned sang Word Conversion
Để lấy văn bản từ các PDF được quét và chuyển đổi chúng thành tài liệu Word, chúng tôi sẽ sử dụng:
- Aspose.OCR for .NET – Một công cụ mạnh mẽ nhận ra văn bản từ hình ảnh được quét.
- Aspose.Words for .NET – Thư viện này chuyển đổi văn bản thu được thành định dạng Word.
Cài đặt
Bạn có thể dễ dàng cài đặt các API này thông qua NuGet với các lệnh sau:
PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words
Ngoài ra, bạn có thể tải về DLL từ Aspose Downloads Trang.
Chuyển đổi PDF được quét sang tài liệu Word chỉnh sửa
Thực hiện các bước sau để chuyển đổi các tập tin PDF được quét sang Word (DOCX hoặc DOC) trong C#:
- Initialize OCR với
AsposeOcr
. - Sử dụng văn bản
DocumentRecognitionSettings
. - Thông tin được công nhận trong a
StringBuilder
. - Tạo một tài liệu Word bằng cách sử dụng
Aspose.Words
. - Hãy áp dụng định dạng và lưu như DOCX hoặc DOC.
Mẫu mã
Dưới đây là ví dụ về C# cho thấy chuyển đổi PDF được quét sang Word:
3. duy trì định dạng trong OCR chuyển đổi
Trong khi chiết xuất văn bản OCR mạnh mẽ, nó có thể không phải lúc nào cũng giữ lại định dạng ban đầu, phông chữ và phong cách. Để đảm bảo định dạng chính xác, hãy xem xét các mẹo sau:
- Sử dụng Aspose.Words Paragraph Styles để áp dụng định dạng văn bản nhất quán.
- Cài đặt các thuộc tính phông chữ chẳng hạn như kích thước, dũng cảm, italics, và phù hợp.
- Tùy chỉnh margin và layout của trang để cải thiện kết quả tài liệu Word.
4. xử lý nhiều trang trong PDF được quét
Đối với PDF được quét nhiều trang, điều quan trọng là phải xử lý và kết hợp văn bản từ tất cả các trang vào một tài liệu Word duy nhất.
- Đi qua mỗi trang trong PDF được quét.
- Nhận biết văn bản mỗi trang và lưu nó trong một
StringBuilder
. - Hãy thêm văn bản được công nhận vào tài liệu Word.
Cách tiếp cận này đảm bảo chuyển đổi PDF đa trang sang Word.
Giấy phép cho độ chính xác OCR đầy đủ
Theo mặc định, Aspose.OCR hoạt động trong chế độ đánh giá, có thể hạn chế độ xác nhận văn bản. Để mở khóa tiềm năng đầy đủ của API:
✍ Yêu cầu một Tự do Giấy phép tạm thời cho mục đích đánh giá.
Kết luận và tài nguyên bổ sung
Tổng hợp
Trong hướng dẫn này, chúng tôi bao gồm:
- Cài đặt Aspose.OCR cho việc xử lý PDF được quét
- Tiết xuất text từ các PDF được quét trong C#
- Chuyển đổi thiết định văn bản thành một tài liệu Word định dạng
- Quản lý nhiều trang quét PDF sang Word chuyển đổi
Bằng cách sử dụng Aspose.OCR và Aspose.Words, bạn có thể dễ dàng chuyển đổi PDF dựa trên hình ảnh sang các tệp Word có thể chỉnh sửa. Bắt đầu xây dựng PDF sang Word converter trong .NET hôm nay chỉ với $99!
Thêm lời khuyên cho chuyển đổi PDF quét
Nếu bạn đang tìm kiếm cách để cải thiện dòng công việc của bạn, hãy xem xét việc sử dụng các khả năng C# OCR PDF sang văn bản hoặc C# PDF đến DOCX giải pháp để xử lý nâng cao hơn. Cho dù bạn cần chuyển đổi PDF được quét sang Word để chỉnh sửa, hoặc chỉ đơn giản là muốn biến đổi tài liệu PDF có trình duyệt thành Word , các phương pháp này cung cấp hỗ trợ vô giá. Đối với những người hỏi, làm thế nào tôi chuyển một PDF bị quát sang Văn bản?, các công cụ được đề cập sẽ hướng dẫn bạn thông qua quá trình một cách nhanh chóng.
Tải PDF sang Word Conversion
Cuối cùng, cho các giải pháp tùy chỉnh hơn, hãy tìm hiểu làm thế nào để chuyển đổi tệp PDF được quét sang Word hoặc sử dụng một thư viện nhận dạng văn bản C# để cải thiện khả năng xử lý tài liệu của bạn. Các tài nguyên này sẽ có lợi cho bất cứ ai thường xuyên đối phó với các tập tin được scan. Bạn cũng có thể dùng các công cụ C# PDF đến DOCX để tạo điều kiện hoặc dựa vào một phương pháp c# OCR PDF sang Văn bản cho việc đơn giản hóa dòng công việc thu thập text từ hình ảnh.
More in this category
- OCR giá rẻ: Các plugin Aspose.OCR tính phí cho .NET
- Tìm kiếm văn bản từ hình ảnh trong C#
- OCR PDF và Trích xuất Văn bản từ PDF trong C# Sử dụng Aspose.OCR cho API .NET
- Chuyển đổi ảnh chụp màn hình thành văn bản với plugin Aspose.OCR $99 trong C#
- Chuyển đổi hình ảnh thành PDF có thể tìm kiếm với OCR sử dụng C#