
Tài liệu PDF là phần không thể thiếu trong nhiều quy trình kinh doanh, thường yêu cầu truy cập lập trình vào nội dung đã quét của chúng. Việc trích xuất văn bản từ các tệp PDF đã quét có thể là một nhiệm vụ phức tạp, làm nổi bật nhu cầu về các công cụ hiệu quả. Trong hướng dẫn này, chúng ta sẽ đi sâu vào cách thực hiện OCR tài liệu PDF và trích xuất văn bản từ PDF trong C# bằng cách sử dụng Aspose.OCR for .NET API, một thư viện C# OCR PDF extraction hàng đầu có sẵn để đánh giá miễn phí.
Những gì bạn sẽ học
Trong bài viết này, chúng ta sẽ đề cập đến các chủ đề sau:
- Tổng quan về Aspose.OCR for .NET API
- Các bước để OCR PDF và trích xuất văn bản
- Cách thực hiện OCR trên PDF và lưu văn bản
- Chuyển đổi OCR PDF sang Word
- Chuyển đổi OCR PDF sang JSON
Tổng quan về Aspose.OCR for .NET API
Chúng ta sẽ sử dụng Aspose.OCR for .NET API, một .NET PDF OCR API mạnh mẽ được thiết kế để nhận diện văn bản từ hình ảnh đã quét, ảnh chụp từ điện thoại thông minh và ảnh chụp màn hình, trả về kết quả ở nhiều định dạng tài liệu khác nhau. API này không chỉ chuyển đổi hình ảnh thành văn bản mà còn tạo các PDF có thể tìm kiếm từ các bản quét và sửa chữa bất kỳ lỗi chính tả nào trong văn bản đã nhận diện, khiến nó trở thành một trong những giải pháp C# PDF OCR nhanh nhất chỉ với 99 đô la.
API có lớp AsposeOcr cung cấp nhiều phương thức cho các hoạt động OCR. Đáng chú ý, phương thức RecognizePdf(string, DocumentRecognitionSettings) rất quan trọng để trích xuất văn bản từ một tài liệu PDF cụ thể. Lớp DocumentRecognitionSettings cho phép tùy chỉnh quy trình nhận diện, trong khi lớp RecognitionResult bao gồm các kết quả của quá trình nhận diện.
Bạn có thể tải xuống DLL của API hoặc cài đặt nó qua NuGet:
PM> Install-Package Aspose.OCR
Các bước để OCR PDF và trích xuất văn bản trong C#
Để thực hiện OCR trên các tài liệu PDF và trích xuất văn bản đã nhận diện, hãy làm theo các bước sau:
- Tạo một thể hiện của lớp AsposeOcr.
- Khởi tạo một đối tượng của lớp DocumentRecognitionSettings.
- Chỉ định ngôn ngữ cho OCR.
- Lấy RecognitionResult bằng cách gọi phương thức RecognizePdf(), truyền đường dẫn hình ảnh và đối tượng DocumentRecognitionSettings.
- Lặp qua danh sách RecognitionResult để hiển thị văn bản đã nhận diện.
Dưới đây là một ví dụ minh họa cách thực hiện OCR tài liệu PDF và trích xuất văn bản đã nhận diện trong C#:
Cách thực hiện OCR trên PDF và lưu văn bản trong C#
Để thực hiện OCR trên các tài liệu PDF và lưu văn bản đã nhận diện, hãy làm theo các bước sau:
- Tạo một thể hiện của lớp AsposeOcr.
- Khởi tạo một đối tượng của lớp DocumentRecognitionSettings.
- Chỉ định ngôn ngữ cho OCR.
- Gọi phương thức RecognizePdf() để lấy RecognitionResult.
- Lưu văn bản bằng cách sử dụng phương thức SaveMultipageDocument(), yêu cầu đường dẫn tệp đầu ra, SaveFormat và đối tượng RecognitionResult.
Dưới đây là một ví dụ minh họa cách thực hiện OCR tài liệu PDF và lưu văn bản đã nhận diện trong C#:
Chuyển đổi OCR PDF sang Word trong C#
Để chuyển đổi các tài liệu PDF đã quét sang Word, hãy làm theo các bước tương tự như đã nêu ở trên, nhưng chỉ định SaveFormat.Docx trong bước cuối cùng.
Dưới đây là một ví dụ minh họa cách thực hiện OCR PDF và lưu văn bản đã nhận diện dưới dạng tài liệu Word trong C#:
Chuyển đổi OCR PDF sang JSON trong C#
Để lưu văn bản đã nhận diện từ các tài liệu PDF vào tệp JSON, hãy làm theo các bước trước đó với sự thay đổi duy nhất là chỉ định SaveFormat.Json trong bước cuối cùng.
Dưới đây là một ví dụ minh họa cách thực hiện OCR PDF và lưu văn bản đã nhận diện dưới dạng tệp JSON trong C#:
Nhận Giấy phép Đánh giá Miễn phí
Bạn có thể nhận giấy phép tạm thời miễn phí để đánh giá Aspose.OCR for .NET API mà không có bất kỳ hạn chế nào.
Kết luận
Trong hướng dẫn này, chúng ta đã học cách thực hiện OCR trên các tài liệu PDF và trích xuất văn bản từ PDF trong C#. Chúng ta cũng đã khám phá cách lưu văn bản đã nhận diện dưới dạng tệp TXT, DOCX và JSON. Để biết thêm thông tin về Aspose.OCR for .NET API, hãy xem tài liệu. Nếu bạn có bất kỳ câu hỏi nào, hãy liên hệ với chúng tôi trên diễn đàn.
Xem Thêm
- Chuyển đổi Ảnh chụp màn hình thành Văn bản với OCR trong C#
- OCR Hình ảnh thành Văn bản và Sửa lỗi Chính tả trong C#
- Chuyển đổi PDF đã quét thành PDF có thể tìm kiếm với OCR trong C#
Bằng cách tận dụng Aspose.OCR for .NET API, bạn có thể triển khai OCR PDF chính xác cao trong C# cho nhiều ứng dụng, bao gồm xử lý hóa đơn và xử lý biểu mẫu. Giải pháp .NET PDF OCR giá cả phải chăng này rất phù hợp cho các nhà phát triển muốn tích hợp khả năng OCR PDF vào ứng dụng của họ một cách hiệu quả.