PDF file là phổ biến bởi vì họ hỗ trợ văn bản, hình ảnh, hoạt hình, video, và các ghi chú khác nhau. tuy nhiên, đối với nhiều tài liệu, bài viết là phần quan trọng nhất. Bài viết này giải thích làm thế nào để chuyển đổi PDF file sang TXT file và, ngược lại, tXT tập tin sang PDF bằng cách sử dụng C# .NET. Chuyển đổi này đặc biệt hữu ích khi bạn cần phải lấy hoặc tập trung chỉ vào nội dung văn Bản của một tài khoản PDF, chẳng hạn như khi thực hiện phân tích vănקסט hoặc chuẩn bị nội bộ để sửa đổi.
Các chủ đề được bao gồm trong hướng dẫn này bao gồm:
- C# TXT sang PDF hoặc PDF sang TXT Converter API
- C# Chuyển đổi PDF sang TXT mà không cần định dạng
- Chuyển đổi PDF sang TXT File với Formatting Routines sử dụng C# hoặc VB.NET
- Chuyển đổi TXT File sang PDF Theo lập trình bằng cách sử dụng C# hoặc VB.NET
Lời khuyên: Bạn cũng có thể quan tâm đến một miễn phí Tải về GIF Converter Điều này cho phép bạn tạo GIF hoạt hình từ văn bản.
C# TXT sang PDF hoặc PDF sang TXT Converter
Chuyển đổi giữa định dạng PDF và TXT là điều cần thiết khi quan tâm chính của bạn nằm trong dữ liệu văn bản trong một tài liệu. Cho dù bạn cần xóa tất cả các định hình để phân tích văn Bản đơn giản hoặc duy trì một số bố trí có cấu trúc, quá trình có thể được hoàn thành với một vài bước dễ dàng bằng cách sử dụng Aspose.PDF cho .NET API này đa dạng và hỗ trợ cả C# và VB.NET, làm cho nó dễ dàng để tích hợp vào các ứng dụng .NET của bạn.
Để cài đặt API trong ứng dụng của bạn, bạn có thể tải xuống các tệp DLL từ Downloads Hoặc sử dụng NuGet Ví dụ, cài đặt nó thông qua Package Manager Console:
PM> Install-Package Aspose.PDF
Một khi API được cài đặt, bạn có thể bắt đầu quá trình chuyển đổi với nhiều cách tiếp cận tùy chỉnh cho các nhu cầu khác nhau.
C# Chuyển đổi PDF sang TXT mà không cần định dạng
Đôi khi, bạn chỉ cần văn bản thô từ một tài liệu PDF mà không cần bất kỳ định dạng bổ sung nào. phương pháp này thu thập văn bản chính xác như nó xuất hiện trong tài liệu, mà không giữ các phông chữ, không gian, hoặc phong cách. Nó đặc biệt hữu ích cho phân tích văn bản, indexing tìm kiếm, hoặc khi bố trí là vô liên quan.
Hướng dẫn sử dụng Raw Text Extraction
Tải về tài liệu nhập PDF: Sử dụng API để tải tệp PDF vào một đối tượng Tài liệu.
Khởi động một StringBuilder: tạo ra một ví dụ về Trang chủ StringBuilder lớp để tích lũy dữ liệu văn bản một cách hiệu quả.
Thông qua mỗi trang PDF: Đi qua tất cả các trang trong tài liệu. cho mỗi trang:
Sử dụng văn bảnDevice để extract text.
Sử dụng The chế độ Raw để đảm bảo rằng định dạng không được áp dụng.
Save the output text: * Lưu văn bản: Viết văn bản tích lũy vào một tệp TXT.
Tóm tắt mã dưới đây mô tả cách chuyển đổi PDF sang tệp TXT bằng cách sử dụng phương pháp khai thác Raw:
thêm Insights
- Hiệu suất và đơn giản: Tiết xuất văn bản thô thường nhanh hơn vì nó không cố gắng phân hoặc áp dụng bất kỳ quy tắc định dạng.
- Sử dụng các trường hợp: Tốt nhất cho việc thu thập nhật ký, indexing tìm kiếm hoặc kịch bản nơi chỉ có nội dung văn bản được yêu cầu.
Chuyển đổi PDF sang TXT File với Formatting Routines bằng cách sử dụng C# hoặc VB.NET
Trong các kịch bản khác, việc duy trì định dạng của văn bản (như các đoạn, dấu hiệu, và cột) là rất quan trọng. phương pháp này áp dụng định dạng thói quen để phản ánh bố trí của tài liệu trong tệp TXT kết quả.
Bước cho Text Extraction với Formatting
Tải về nguồn PDF File: Như trước đây, tải tài liệu PDF vào ứng dụng của bạn.
Khởi động một String Variable: Chuẩn bị một dòng để thu thập kết quả văn bản định dạng.
Từ văn bản sử dụng chế độ định dạng: Đối với mỗi trang, sử dụng Thông tin TextFormattingMode.Pure Tùy chọn: chế độ này cố gắng tái tạo định dạng ban đầu càng gần càng tốt.
Lưu văn bản được định dạng: Xuất bản văn bản thu thập vào một tệp TXT mà giữ định dạng có cấu trúc như đoạn đường, dấu vết, và tab spacing.
Ví dụ mã sau đây cho thấy cách chuyển đổi PDF sang tệp TXT với định dạng văn bản bằng cách sử dụng C#:
So sánh hình ảnh RAW và Pure Extraction
Hình ảnh dưới đây cung cấp một so sánh trực quan của hai chế độ khai thác. ở bên trái, văn bản PDF xuất hiện với định dạng ban đầu của nó (đơn vị sạch), trong khi bên phải hiển thị văn bản thô mà không cần định dạng. so sánh này có thể giúp bạn quyết định phương pháp nào phù hợp tốt nhất với nhu cầu của bạn.

Chuyển đổi TXT File sang PDF Phần mềm bằng cách sử dụng C# hoặc VB.NET
Chuyển đổi một tệp TXT trở lại một PDF là hữu ích khi bạn cần để sản xuất một tài liệu được polished từ nội dung văn bản thẳng. quá trình này liên quan đến việc đọc văn bản và sau đó áp dụng định dạng PDF để tạo ra một tài liệu mà là trực quan hấp dẫn và sẵn sàng để phân phối.
Bước để chuyển đổi TXT sang PDF
Tạo một TextReader Instance: Sử dụng The văn bảnReader lớp để đọc nội dung từ txt file.
Bắt đầu một tài liệu PDF mới và thêm một trang trắng: tạo ra một ví dụ về Tài liệu lớp và thêm một trang mới.
Cài đặt một TextBuilder Object: Sử dụng The Nhà văn TextBuilder để xây dựng các đoạn văn với định dạng mong muốn, chẳng hạn như chữ cái, kích thước và màu sắc.
Đọc và bổ sung mỗi dòng văn bản: Đi qua các dòng trong tệp TXT, dán mỗi dòng vào đối tượng TextBuilder.
Save the Output PDF: Sử dụng The Tài liệu.Save(String) phương pháp để viết tệp PDF cuối cùng vào đĩa.
Tóm tắt mã dưới đây cho thấy cách chuyển đổi tệp TXT sang tài liệu PDF bằng cách sử dụng C#:
Quan điểm Khi Chuyển đổi TXT sang PDF
- Thiết kế và phong cách: Bạn có thể cần điều chỉnh ranh giới, phạm vi dòng và các thuộc tính văn bản khác để đảm bảo rằng PDF được định dạng tốt và dễ đọc.
- Lỗi xử lý: Thực hiện kiểm tra lỗi trong quá trình đọc tập tin và viết các hoạt động để xử lý các kịch bản như các vấn đề truy cập tập tin hoặc mã hóa các lỗi.
Kết luận
Trong bài viết này, chúng tôi đã chứng minh các kỹ thuật để chuyển đổi các tập tin PDF sang TXT và tXT file sang PDF bằng cách sử dụng C# hoặc VB.NET trong .NET Framework. Cho dù bạn chọn chiết xuất văn bản thô cho tốc độ và sự đơn giản hoặc yêu cầu văn Bản định dạng để duy trì bố trí tài liệu, Aspose.PDF cho .NET API cung cấp các giải pháp đáng tin cậy và linh hoạt. Các phương pháp chuyển đổi này là vô giá đối với việc xử lý dữ liệu, lưu trữ tài liệu và khôi phục nội dung.
Nếu bạn có bất kỳ câu hỏi hoặc yêu cầu hỗ trợ thêm, vui lòng truy cập chúng tôi Forum hỗ trợ miễn phí hoặc xem xét các Tài liệu sản phẩm.