
Giriş
Scanlanmış PDF dosyaları genellikle resimler olarak metin içerir, içeriği seçmek, düzenlemek veya kopyalamak imkansız hale getirir. scanlanmış PDF’leri düzenlenebilir Word belgelerine dönüştürmeniz gerekiyorsa, Optical Character Recognition (OCR) teknolojisi, orijinal biçimlendirmeyi korurken metin çıkarmanın etkili bir yolunu sunar. bu makalede, programlı olarak Scanlanmış PDF’leri Word’e (DOCX veya DOC) C# ile Aspose.OCR .NET için ve Aspose.Words .NET için kütüphaneler için nasıl dönüştürüleceğinizi öğreneceksiniz.
Neden Scanlanmış PDF’leri Word’e Dönüştürmek?
Scanlanmış PDF’leri Word belgelerine dönüştürmek için birkaç zorunlu neden vardır:
- Skanlanmış Belgeleri Kolayca Düzenle: Manual retyping hassle olmadan metni değiştirin.
- Daha fazla işleme için metin çıkarma: Diğer uygulamalar için analiz veya entegrasyon için çıkarılan metni kullanın.
- Layout ve Formatı tutun: Orijinal belgenin yapısını düzenlenebilir hale getirirken tutun.
- OCR tabanlı otomatik belge işleme: Bu fonksiyonu C# uygulamalarınızda kesintisiz bir şekilde entegre edin.
içerik tablosu
- Scanned PDF to Word Conversion için OCR API’yi ayarlayın
- Scanned PDF’yi Editable Word Document’a dönüştürün
- OCR Dönüşümünde Formatı Korumak
- Scanned PDF’lerde Çeşitli Sayfaları İşleme
- Tam OCR Doğruluk Lisansı
- Sonuç ve Ek Kaynaklar
1. Scanned PDF to Word Conversion için OCR API’yi ayarlayın
Yazıyı taranan PDF’lerden çıkarmak ve bunları Word belgelerine dönüştürmek için, kullanacağız:
- Aspose.OCR for .NET – Tarayıcı görüntülerden metin tanıyan güçlü bir araçtır.
- Aspose.Words for .NET – Bu kütüphane çıkarılan metni Word biçimine dönüştürür.
Kurulum
Bu APIs’leri NuGet aracılığıyla aşağıdaki komutlarla kolayca kurabilirsiniz:
PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words
Alternatif olarak, DLL’leri aşağıdan indirebilirsiniz. Aspose Download Sayfası.
2. Scanned PDF’yi Editable Word Document’a dönüştürün
Bu adımları izleyin scanned PDF files to Word (DOCX or DOC) in C#:
- OCR’yi başlatın ile
AsposeOcr
. - Yazı Ekstraksiyonu Kullanımı
DocumentRecognitionSettings
. - Store tanıdık metin içinde a
StringBuilder
. - Bir Word belgesini oluşturun kullanarak
Aspose.Words
. - Formatı uygulayın ve DOCX veya DOC olarak kaydedin.
Kod örnekleri
İşte scanned PDF to Word conversion gösteren bir C# örneği:
3. OCR dönüşümünde biçimlendirmeyi korumak
OCR metin çıkarımı güçlü olsa da, orijinal biçimlendirme, yazı tipleri ve stillerini her zaman koruyamaz. doğru biçimlendirmeyi sağlamak için aşağıdaki ipuçlarını göz önünde bulundurmalısınız:
- Aspose.Words Paragraph Styles kullanarak tutarlı metin biçimlendirmesi uygulanır.
- Şekil özelliklerini ayarlayın örneğin boyut, cesur, italik ve uyum.
- Daha iyi Word belge çıkışı için sayfa marjlarını ve düzenini ayarlayın.
4. Scanned PDF’lerde Çeşitli Sayfaların İşlenmesi
Çok sayfalık taranan PDF’ler için, tüm sayfadan tek bir Word belgesine metni işleme ve birleştirme önemlidir.
- Skanlı PDF’de her sayfaya gidin.
- Sayfa başına metni tanımlayın ve bir sayfada kaydedin
StringBuilder
. - Kullanılan metni kelime belgesine ekleyin.
Bu yaklaşım sadece çok sayfalık PDF’yi Word’e dönüştürür sağlar.
5. Tam OCR Doğruluğu için lisans
Varsayılan olarak, Aspose.OCR değerlendirme modunda çalışır, metin tanıma doğruluğunu sınırlayabilir. API’nin tam potansiyelini açmak için:
Değerlendirme amacıyla Ücretsiz Geçici Lisans talep edin.
6. Sonuç ve Ek Kaynaklar
Özetle
Bu kılavuzda şunları kapsadık:
- Yükleme Aspose.OCR skanlı PDF işleme için
- C#‘da taranan PDF’lerden metin çıkarma
- tanımlanmış metni formatlanmış bir Word belgesine dönüştürmek
- İşlem Çok sayfa tarama PDF Word dönüştürme
Aspose.OCR ve Aspoze.Words kullanarak, çaba sarf etmeden görüntü tabanlı PDF’leri düzenlenebilir Word dosyalarına dönüştürebilirsiniz. Okr güçlendirilmiş PDF ile Word dönüştürücüsünü bugün sadece $99 için .NET’te inşa etmeye başlayın!
Scanned PDF Conversion için ek ipuçları
Çalışma akışınızı geliştirmek için yollar arıyorsanız, C# OCR PDF to Text yeteneklerini kullanmayı düşünün veya daha ileri işlem için C# PDF do DOCX çözümleri kullanın. Düzenlemek için Scanned PDF’yi Word’e dönüştürmek istiyorsanız ya da sadece Scaned pdf belgesini Word dönüştürebilirseniz, bu yöntemler değerli bir destek sağlar.
PDF’yi Word dönüştürmek için tarama
Son olarak, daha özelleştirilmiş çözümler için canned PDF file to Word nasıl dönüştürüleceğini keşfedin veya C# Text Recognition Library kullanarak belge işleme yeteneklerinizi geliştirin. Bu kaynaklar düzenli olarak tarayıcı belgelerle uğraşan herkes için yararlı olacaktır. dönüşümleri kolaylaştırmak için c# PDF to DOCX araçları da kullanabilirsiniz.