
Úvod
Skenované PDF soubory často ukládají text jako obrázky, což znemožňuje výběr, úpravy nebo kopírování obsahu. Pokud potřebujete převést skenované PDF do editovatelných dokumentů Word, technologie optického rozpoznávání znaků (OCR) poskytuje efektivní způsob, jak extrahovat text při zachování původního formátování. V tomto článku se naučíte, jak programově převést skenované PDF na Word (DOCX nebo DOC) pomocí C# s knihovnami Aspose.OCR pro .NET a Aspose.Words pro .NET.
Proč převádět skenované PDF do Wordu?
Existuje několik přesvědčivých důvodů pro převod skenovaných PDF do dokumentů Word:
- Jednoduchá úprava skenovaných dokumentů: Upravte text bez obtíží s ručním přepisováním.
- Extrahování textu pro další zpracování: Použijte extrahovaný text pro analýzu nebo jiné aplikace.
- Zachování rozložení a formátování: Udržujte strukturu původního dokumentu, zatímco jej učiníte editovatelným.
- Automatizace zpracování dokumentů na základě OCR: Bezproblémově integrujte tuto funkčnost do svých C# aplikací.
Obsah
- Nastavení OCR API pro převod skenovaného PDF do Wordu
- Převod skenovaného PDF na editovatelný dokument Word
- Zachování formátování v OCR převodu
- Zpracování více stránek ve skenovaných PDF
- Licence pro plnou přesnost OCR
- Závěr a další zdroje
1. Nastavení OCR API pro převod skenovaného PDF do Wordu
Pro extrakci textu ze skenovaných PDF a převod na dokumenty Word využijeme:
- Aspose.OCR pro .NET – Silný nástroj, který rozpoznává text ze skenovaných obrázků.
- Aspose.Words pro .NET – Tato knihovna převádí extrahovaný text do formátu Word.
Instalace
Tyto API můžete snadno nainstalovat prostřednictvím NuGet pomocí následujících příkazů:
PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words
Alternativně si můžete stáhnout DLL z Aspose Downloads Page.
2. Převod skenovaného PDF na editovatelný dokument Word
Postupujte podle těchto kroků pro převod skenovaných PDF souborů na Word (DOCX nebo DOC) v C#:
- Inicializujte OCR s
AsposeOcr
. - Extrahujte text pomocí
DocumentRecognitionSettings
. - Uložte rozpoznaný text do
StringBuilder
. - Vytvořte dokument Word pomocí
Aspose.Words
. - Použijte formátování a uložte jako DOCX nebo DOC.
Ukázka kódu
Zde je příklad v C# demonstrující převod skenovaného PDF na Word:
3. Zachování formátování v OCR převodu
I když je extrakce textu pomocí OCR silná, nemusí vždy zachovat původní formátování, písma a styly. Pro zajištění přesného formátování zvažte následující tipy:
- Využijte styly odstavců Aspose.Words pro aplikaci konzistentního textového formátování.
- Nastavte vlastnosti písma, jako je velikost, tučný, kurzíva a zarovnání.
- Upravte okraje stránky a rozložení pro zlepšení výstupu dokumentu Word.
4. Zpracování více stránek ve skenovaných PDF
Pro vícestránková skenovaná PDF je klíčové zpracovat a sloučit text ze všech stránek do jednoho dokumentu Word. K dosažení tohoto cíle:
- Procházejte každou stránku ve skenovaném PDF.
- Rozpoznejte text na stránce a uložte ho do
StringBuilder
. - Přidejte rozpoznaný text do dokumentu Word.
Tento přístup zajišťuje bezproblémový převod vícestránkového PDF do Wordu.
5. Licence pro plnou přesnost OCR
Ve výchozím nastavení Aspose.OCR funguje v hodnotící režimu, který může omezit přesnost rozpoznávání textu. Pro odemčení plného potenciálu API:
🔹 Požádejte o Bezplatnou dočasnou licenci pro hodnotící účely.
6. Závěr a další zdroje
Shrnutí
V této příručce jsme pokryli:
✅ Nastavení Aspose.OCR pro zpracování skenovaných PDF
✅ Extrakci textu ze skenovaných PDF v C#
✅ Převod rozpoznaného textu do formátovaného dokumentu Word
✅ Zpracování vícestránkového skenovaného PDF do Wordu
Využitím Aspose.OCR a Aspose.Words můžete snadno převést PDF založené na obrázcích na editovatelné Word soubory. Začněte budovat svůj OCR-poháněný převodník PDF do Wordu v .NET ještě dnes za pouhých 99 $! 🚀