PDF’yi TXT’ye C#‘ya dönüştürmek#

Bir programcı olarak, genellikle daha fazla işlem için düz metin olarak PDF dosyalarından içeriği çıkarmanız gerekir, örneğin analiz ve bilgi çıkarma. PDF dosyalarını işleme ve tüm bir PDF’yi TXT formatına dönüştürmek, doğru araçlara sahip olmadığınızda rahatsız edici bir görevdir. Bu yüzden bu blogda, bir PDF dosyasını TXT formatına programlı olarak C#‘da nasıl dönüştüreceğimizi inceleyeceğiz#.
C# Kütüphane PDF’ye TXT Dönüştürme {#Kütüphaneler dönüştürme-DOC-TXT}
[Aspose.Words for .NET][1] geliştiricilerin Word belgeleri ve PDF dahil olmak üzere çeşitli diğer biçimleri ile çalışmasını sağlayan harika bir belge işleme API’dir. özellikleri geniş bir yelpazesiyle, Aspose.Words belge manipülasyonu, dönüşüm ve üretim görevlerini basitleştirir.
Kütüphaneyi aşağıdaki komutu kullanarak [NuGet][5] yerleştirebilirsiniz. veya [Releases][6] bölümünden DLL’yi indirebilirsiniz.
PM> Install-Package Aspose.Words
Bir PDF’yi C#‘da TXT’ye dönüştürün
Aspose.Words for .NET, PDF dosyalarından metin çıkarmanın tüm karmaşık işlemlerini gizler ve aşağıda belirtildiği gibi birkaç adımda PDF’ye TXT dönüşümünü gerçekleştirmenizi sağlar.
- PDF dosyasını indirin.
- PDF’yi tek bir fonksiyon çağrısı ile TXT formatına dönüştürün.
Bu nedenle, bir çift kod çizgisi ile, PDF dosyasında içeriği ne kadar büyük olursa olsun düz bir metin haline dönüştürebilirsiniz. şimdi bu dönüşümü C#‘da gerçekleştirmek için kodu yazalım#.
- İlk olarak, PDF’yi Dokument sınıfını kullanarak yükleyin.
- Sonra, belgeyi Document.Save(filePath) yöntemi kullanarak bir TXT dosyası olarak kaydedin.
Aşağıdaki C# kodu snippet bir PDF’yi TXT formatına dönüştürür.
Ücretsiz API lisansı alın
Değerlendirme kısıtlamaları olmaksızın PDF dosyalarını TXT formatına dönüştürmek için [ücretsiz geçici lisans][2] alabilirsiniz.
Sonuç
Bu blog yazısında, Aspose.Words için .NET kütüphanesi için Aspose.Words’i kullanarak PDF’yi C#‘da TXT’ye nasıl dönüştüreceğimizi keşfettik. yönergelere uymak ve kod kesimi kullanarak, büyük PDF dosyalarını kolayca işleyebilir ve düz metin haline dönüştürebilirsiniz. Aspose.Words belge işleme görevlerini basitleştirir, uygulamalarında çeşitli belge biçimleri ile çalışan geliştiriciler için değerli bir araç haline getirir.
Performans ve Bellek Yönetimi
Büyük PDF dosyalarıyla çalışırken bellek tüketimini kontrol altında tutmak kritik bir gereksinimdir. Aspose.Words, LoadOptions sınıfı aracılığıyla LoadFormat ve Password gibi parametreleri ayarlamaya izin verir, böylece yalnızca gerekli sayfaları belleğe yükleyebilir ve gereksiz veri işleme maliyetini azaltabilirsiniz.
Bellek Kullanımını Azaltma
- Sayfa Bazlı Yükleme:
LoadOptionsiçindePageCountvePageIndexözelliklerini kullanarak sadece hedef sayfaları okuyabilirsiniz. - Akış (Stream) Kullanımı: PDF dosyasını doğrudan bir
FileStreamile açıpDocumentnesnesine geçmek, dosyanın tamamının belleğe alınmasını önler. - Geçici Dosyalar: Çok büyük belgelerde ara sonuçları geçici dosyalara yazarak RAM üzerindeki baskıyı hafifletebilirsiniz.
Bu teknikler, özellikle bulut ortamlarında veya düşük bellekli sunucularda çalışan servisler için dönüşüm süresini ve kaynak tüketimini önemli ölçüde iyileştirir.
Sık Sorulan Sorular
1. Şifre korumalı PDF dosyalarını dönüştürebilir miyim?
Evet. LoadOptions.Password özelliğine PDF’in şifresini sağlayarak dosyayı açabilir ve ardından aynı adımlarla TXT’ye dönüştürebilirsiniz.
2. Çıktı TXT dosyasında orijinal sayfa numaraları korunur mu?
Varsayılan olarak sadece düz metin çıkarılır; sayfa numaraları PDF içinde metin olarak yer alıyorsa çıkarılır, aksi takdirde ek bir işleme gerekebilir. Document.SaveOptions ile SaveFormat.Txt seçildiğinde satır sonları korunur, ancak biçimlendirme kaybolur.
3. Çoklu dil (Unicode) içeren PDF’lerde karakter bozulması yaşanır mı?
Aspose.Words Unicode desteği sunar. Çıktı dosyasının kodlamasını Encoding.UTF8 olarak ayarlamak, tüm karakterlerin doğru şekilde kaydedilmesini sağlar.
4. Dönüşüm sırasında belirli bir bölümü (örneğin sadece bir tablo) çıkarmak mümkün mü?
Evet. Document.GetText() metodundan önce Document içindeki Node ağacını dolaşarak sadece Table tipindeki düğümleri seçebilir ve bunları ayrı bir metin dosyasına yazabilirsiniz.
Bu ek bilgilerle, PDF‑TXT dönüşüm sürecinizi daha güvenli, ölçeklenebilir ve ihtiyacınıza uygun bir hâle getirebilirsiniz.