Convert Scanned PDF to Word in C#

Giriş

Scanlanmış PDF dosyaları genellikle resimler olarak metin içerir, içeriği seçmek, düzenlemek veya kopyalamak imkansız hale getirir. scanlanmış PDF’leri düzenlenebilir Word belgelerine dönüştürmeniz gerekiyorsa, Optical Character Recognition (OCR) teknolojisi, orijinal biçimlendirmeyi korurken metin çıkarmanın etkili bir yolunu sunar. bu makalede, programlı olarak Scanlanmış PDF’leri Word’e (DOCX veya DOC) C# ile Aspose.OCR .NET için ve Aspose.Words .NET için kütüphaneler için nasıl dönüştürüleceğinizi öğreneceksiniz.

Neden Scanlanmış PDF’leri Word’e Dönüştürmek?

Scanlanmış PDF’leri Word belgelerine dönüştürmek için birkaç zorunlu neden vardır:

  • Skanlanmış Belgeleri Kolayca Düzenle: Manual retyping hassle olmadan metni değiştirin.
  • Daha fazla işleme için metin çıkarma: Diğer uygulamalar için analiz veya entegrasyon için çıkarılan metni kullanın.
  • Layout ve Formatı tutun: Orijinal belgenin yapısını düzenlenebilir hale getirirken tutun.
  • OCR tabanlı otomatik belge işleme: Bu fonksiyonu C# uygulamalarınızda kesintisiz bir şekilde entegre edin.

içerik tablosu

1. Scanned PDF to Word Conversion için OCR API’yi ayarlayın

Yazıyı taranan PDF’lerden çıkarmak ve bunları Word belgelerine dönüştürmek için, kullanacağız:

Kurulum

Bu APIs’leri NuGet aracılığıyla aşağıdaki komutlarla kolayca kurabilirsiniz:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

Alternatif olarak, DLL’leri aşağıdan indirebilirsiniz. Aspose Download Sayfası.

2. Scanned PDF’yi Editable Word Document’a dönüştürün

Bu adımları izleyin scanned PDF files to Word (DOCX or DOC) in C#:

  • OCR’yi başlatın ile AsposeOcr.
  • Yazı Ekstraksiyonu Kullanımı DocumentRecognitionSettings.
  • Store tanıdık metin içinde a StringBuilder.
  • Bir Word belgesini oluşturun kullanarak Aspose.Words.
  • Formatı uygulayın ve DOCX veya DOC olarak kaydedin.

Kod örnekleri

İşte scanned PDF to Word conversion gösteren bir C# örneği:

3. OCR dönüşümünde biçimlendirmeyi korumak

OCR metin çıkarımı güçlü olsa da, orijinal biçimlendirme, yazı tipleri ve stillerini her zaman koruyamaz. doğru biçimlendirmeyi sağlamak için aşağıdaki ipuçlarını göz önünde bulundurmalısınız:

  • Aspose.Words Paragraph Styles kullanarak tutarlı metin biçimlendirmesi uygulanır.
  • Şekil özelliklerini ayarlayın örneğin boyut, cesur, italik ve uyum.
  • Daha iyi Word belge çıkışı için sayfa marjlarını ve düzenini ayarlayın.

4. Scanned PDF’lerde Çeşitli Sayfaların İşlenmesi

Çok sayfalık taranan PDF’ler için, tüm sayfadan tek bir Word belgesine metni işleme ve birleştirme önemlidir.

  • Skanlı PDF’de her sayfaya gidin.
  • Sayfa başına metni tanımlayın ve bir sayfada kaydedin StringBuilder.
  • Kullanılan metni kelime belgesine ekleyin.

Bu yaklaşım sadece çok sayfalık PDF’yi Word’e dönüştürür sağlar.

5. Tam OCR Doğruluğu için lisans

Varsayılan olarak, Aspose.OCR değerlendirme modunda çalışır, metin tanıma doğruluğunu sınırlayabilir. API’nin tam potansiyelini açmak için:

Değerlendirme amacıyla Ücretsiz Geçici Lisans talep edin.

6. Sonuç ve Ek Kaynaklar

Özetle

Bu kılavuzda şunları kapsadık:

  • Yükleme Aspose.OCR skanlı PDF işleme için
  • C#‘da taranan PDF’lerden metin çıkarma
  • tanımlanmış metni formatlanmış bir Word belgesine dönüştürmek
  • İşlem Çok sayfa tarama PDF Word dönüştürme

Aspose.OCR ve Aspoze.Words kullanarak, çaba sarf etmeden görüntü tabanlı PDF’leri düzenlenebilir Word dosyalarına dönüştürebilirsiniz. Okr güçlendirilmiş PDF ile Word dönüştürücüsünü bugün sadece $99 için .NET’te inşa etmeye başlayın!

Scanned PDF Conversion için ek ipuçları

Çalışma akışınızı geliştirmek için yollar arıyorsanız, C# OCR PDF to Text yeteneklerini kullanmayı düşünün veya daha ileri işlem için C# PDF do DOCX çözümleri kullanın. Düzenlemek için Scanned PDF’yi Word’e dönüştürmek istiyorsanız ya da sadece Scaned pdf belgesini Word dönüştürebilirseniz, bu yöntemler değerli bir destek sağlar.

PDF’yi Word dönüştürmek için tarama

Son olarak, daha özelleştirilmiş çözümler için canned PDF file to Word nasıl dönüştürüleceğini keşfedin veya C# Text Recognition Library kullanarak belge işleme yeteneklerinizi geliştirin. Bu kaynaklar düzenli olarak tarayıcı belgelerle uğraşan herkes için yararlı olacaktır. dönüşümleri kolaylaştırmak için c# PDF to DOCX araçları da kullanabilirsiniz.

More in this category