Các tài liệu PDF là cần thiết trong nhiều quy trình kinh doanh, thường đòi hỏi truy cập lập trình vào nội dung được quét của họ. Việc thu thập văn bản từ các tệp PDF có thể là thách thức, nhấn mạnh nhu cầu của các công cụ hiệu quả. Trong hướng dẫn này, chúng tôi sẽ khám phá ** làm thế nào để OCR PDF và rút text từ PDF trong C#** bằng cách sử dụng đáng tin cậy Aspose.OCR cho .NET API, một thư viện chiết xuất PDF hàng đầu C# OCR có sẵn cho đánh giá miễn phí.

Những gì bạn sẽ học

Trong bài viết này, chúng tôi sẽ bao gồm các chủ đề sau:

Tổng quan về Aspose.OCR cho .NET API

Chúng tôi sẽ sử dụng Aspose.OCR cho .NET API, .

Lửa có tính năng AsposeOcr lớp, cung cấp nhiều phương pháp cho các hoạt động OCR Nhận dạng PDF (string, DocumentRecognitionSettings) phương pháp là cần thiết để lấy văn bản từ một tài liệu PDF cụ thể DocumentRecognitionSettings lớp cho phép tùy chỉnh quá trình nhận thức, trong khi RecognitionResult lớp encapsulates kết quả của sự công nhận.

Bạn có thể Download DLL của API hoặc cài đặt qua NuGet:

PM> Install-Package Aspose.OCR

Bước tới OCR PDF và Tích xuất văn bản trong C#

Để thực hiện OCR trên tài liệu PDF và trích xuất văn bản được công nhận, hãy làm theo các bước sau:

  • Tạo một ví dụ của lớp AsposeOcr.
  • Bắt đầu một đối tượng trong lớp DocumentRecognitionSettings.
  • Định nghĩa ngôn ngữ cho OCR.
  • Nhận RecognitionResult bằng cách sử dụng phương pháp Pdf(), đi qua con đường hình ảnh và DocumentRecognitionSettings đối tượng.
  • Đi qua danh sách RecognitionResult để hiển thị văn bản được xác định.

Dưới đây là một ví dụ minh họa làm thế nào để OCR PDF tài liệu và rút văn bản được công nhận trong C#:

OCR PDF và Extract Text from PDF in C#

Làm thế nào để thực hiện OCR trên PDF và lưu văn bản trong C#

Để thực hiện OCR trên các tài liệu PDF và lưu văn bản được công nhận, hãy làm theo các bước sau:

  • Tạo một ví dụ của lớp AsposeOcr.
  • Bắt đầu một đối tượng trong lớp DocumentRecognitionSettings.
  • Định nghĩa ngôn ngữ cho OCR.
  • Hãy gọi phương pháp RecognizePdf() để có được RecognitionResult.
  • Lưu văn bản bằng cách sử dụng phương pháp SaveMultipageDocument(), đòi hỏi con đường tệp xuất SaveFormat, Và The RecognitionResult đối tượng.

Dưới đây là một ví dụ cho thấy làm thế nào để OCR PDF tài liệu và lưu văn bản được công nhận trong C#:

Thực hiện OCR trên PDF và lưu văn bản trong C#

Chuyển đổi OCR PDF sang Word trong C#

Để chuyển đổi các tài liệu PDF được quét sang Word, hãy làm theo các bước tương tự như đã đề cập ở trên, nhưng hãy chỉ định SaveFormat.Docx trong bước cuối cùng.

Dưới đây là một ví dụ minh họa làm thế nào để OCR PDF và lưu văn bản được công nhận như một tài liệu Word trong C#:

OCR PDF và chuyển đổi PDF được quét sang Word trong C#

Chuyển đổi OCR PDF sang JSON thành C#

Để lưu văn bản được công nhận từ các tài liệu PDF trong một tệp JSON, hãy làm theo các bước trước với sự thay đổi duy nhất là chỉ định SaveFormat.Json trong bước cuối cùng.

Dưới đây là một ví dụ cho thấy làm thế nào để OCR PDF và lưu văn bản được công nhận như một tệp JSON trong C#:

Nhận giấy phép đánh giá miễn phí

Bạn có thể Nhận giấy phép tạm thời miễn phí để đánh giá Aspose.OCR cho .NET API mà không có bất kỳ giới hạn nào.

Kết luận

Trong hướng dẫn này, chúng tôi đã tìm hiểu làm thế nào để thực hiện OCR trên các tài liệu PDF và rút văn bản từ PDF trong C TXT, DOKX, và JSON Để biết thêm thông tin về Aspose.OCR cho .NET API, hãy kiểm tra Tài liệu. Nếu bạn có bất kỳ câu hỏi nào, hãy tự do tiếp cận chúng tôi trên Diễn đàn.

Xem thêm

Bằng cách sử dụng Aspose.OCR cho API .NET, bạn có thể thực hiện độ chính xác cao PDF OCR trong C# cho các ứng dụng khác nhau, bao gồm C# O CR Invoice xử lý và quản lý biểu mẫu. Giải pháp này Nhận lợi .NET PDF Ocr là hoàn hảo cho những nhà phát triển muốn tích hợp OCR PDF khả năng vào các dịch vụ của họ một cách hiệu quả.

Hơn nữa, nếu bạn cần chuyển đổi PDF sang văn bản thành C#, API này cung cấp một giải pháp đơn giản. Đối với những người quan tâm đến khả năng C# OCR PDF để Văn bản , sự tích hợp là vô dụng, cho phép thu thập văn Bản hiệu quả từ các định dạng tài liệu khác nhau.

Nếu bạn đang tìm kiếm một Aspose OCR C# Ví dụ, hướng dẫn này phục vụ như là một nguồn tài nguyên toàn diện. Ngoài ra, cho các nhiệm vụ phức tạp như C# API sử dụng, tutorial này bao gồm tất cả các yếu tố cần thiết để bắt đầu hiệu quả.

Đối với những người muốn đánh giá PDF SDK và công ty phần mềm xử lý tài liệu Aspose trên OCR PDFSDK, hướng dẫn này phục vụ như là một điểm khởi đầu tuyệt vời để hiểu khả năng của nó. Cho dù bạn cần một C# DLL cho sự tích hợp hoặc một** C# OCC tutorials** để chỉ đạo, bạn sẽ tìm thấy tất cả mọi thứ bạn có thể cần để sử dụng hiệu quả API trong các dự án của bạn.

Hơn nữa, nếu bạn muốn tận dụng nhận dạng văn bản C# hoặc sử dụng thư viện OCR cho các ứng dụng khác nhau, bạn có thể khám phá các tính năng mà Aspose cung cấp để hỗ trợ các chức năng này. đánh giá SDK PDF là một cơ hội tuyệt vời để thử nghiệm với các khả năng của Thư viện này, đảm bảo bạn sẽ tìm thấy các giải pháp phù hợp cho nhu cầu của bạn.

Cuối cùng, nếu bạn cần xem văn bản từ PDF trong C#, hoặc sử dụng một OCR API C # , các tính năng C# OCR PDF có sẵn sẽ làm nhanh quá trình phát triển của bạn và cải thiện chức năng của ứng dụng.

More in this category