Převod skenovaných PDF do Wordu v C#

Úvod

Skenované PDF soubory často ukládají text jako obrázky, což znemožňuje výběr, úpravy nebo kopírování obsahu. Pokud potřebujete převést skenované PDF do editovatelných dokumentů Word, technologie optického rozpoznávání znaků (OCR) poskytuje efektivní způsob, jak extrahovat text při zachování původního formátování. V tomto článku se naučíte, jak programově převést skenované PDF na Word (DOCX nebo DOC) pomocí C# s knihovnami Aspose.OCR pro .NET a Aspose.Words pro .NET.

Proč převádět skenované PDF do Wordu?

Existuje několik přesvědčivých důvodů pro převod skenovaných PDF do dokumentů Word:

  • Jednoduchá úprava skenovaných dokumentů: Upravte text bez obtíží s ručním přepisováním.
  • Extrahování textu pro další zpracování: Použijte extrahovaný text pro analýzu nebo jiné aplikace.
  • Zachování rozložení a formátování: Udržujte strukturu původního dokumentu, zatímco jej učiníte editovatelným.
  • Automatizace zpracování dokumentů na základě OCR: Bezproblémově integrujte tuto funkčnost do svých C# aplikací.

Obsah

  1. Nastavení OCR API pro převod skenovaného PDF do Wordu
  2. Převod skenovaného PDF na editovatelný dokument Word
  3. Zachování formátování v OCR převodu
  4. Zpracování více stránek ve skenovaných PDF
  5. Licence pro plnou přesnost OCR
  6. Závěr a další zdroje

1. Nastavení OCR API pro převod skenovaného PDF do Wordu

Pro extrakci textu ze skenovaných PDF a převod na dokumenty Word využijeme:

Instalace

Tyto API můžete snadno nainstalovat prostřednictvím NuGet pomocí následujících příkazů:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

Alternativně si můžete stáhnout DLL z Aspose Downloads Page.


2. Převod skenovaného PDF na editovatelný dokument Word

Postupujte podle těchto kroků pro převod skenovaných PDF souborů na Word (DOCX nebo DOC) v C#:

  1. Inicializujte OCR s AsposeOcr.
  2. Extrahujte text pomocí DocumentRecognitionSettings.
  3. Uložte rozpoznaný text do StringBuilder.
  4. Vytvořte dokument Word pomocí Aspose.Words.
  5. Použijte formátování a uložte jako DOCX nebo DOC.

Ukázka kódu

Zde je příklad v C# demonstrující převod skenovaného PDF na Word:


3. Zachování formátování v OCR převodu

I když je extrakce textu pomocí OCR silná, nemusí vždy zachovat původní formátování, písma a styly. Pro zajištění přesného formátování zvažte následující tipy:

  • Využijte styly odstavců Aspose.Words pro aplikaci konzistentního textového formátování.
  • Nastavte vlastnosti písma, jako je velikost, tučný, kurzíva a zarovnání.
  • Upravte okraje stránky a rozložení pro zlepšení výstupu dokumentu Word.

4. Zpracování více stránek ve skenovaných PDF

Pro vícestránková skenovaná PDF je klíčové zpracovat a sloučit text ze všech stránek do jednoho dokumentu Word. K dosažení tohoto cíle:

  • Procházejte každou stránku ve skenovaném PDF.
  • Rozpoznejte text na stránce a uložte ho do StringBuilder.
  • Přidejte rozpoznaný text do dokumentu Word.

Tento přístup zajišťuje bezproblémový převod vícestránkového PDF do Wordu.


5. Licence pro plnou přesnost OCR

Ve výchozím nastavení Aspose.OCR funguje v hodnotící režimu, který může omezit přesnost rozpoznávání textu. Pro odemčení plného potenciálu API:

🔹 Požádejte o Bezplatnou dočasnou licenci pro hodnotící účely.


6. Závěr a další zdroje

Shrnutí

V této příručce jsme pokryli:

✅ Nastavení Aspose.OCR pro zpracování skenovaných PDF
✅ Extrakci textu ze skenovaných PDF v C#
✅ Převod rozpoznaného textu do formátovaného dokumentu Word
✅ Zpracování vícestránkového skenovaného PDF do Wordu


Využitím Aspose.OCR a Aspose.Words můžete snadno převést PDF založené na obrázcích na editovatelné Word soubory. Začněte budovat svůj OCR-poháněný převodník PDF do Wordu v .NET ještě dnes za pouhých 99 $! 🚀