Convert Scanned PDF to Word in C#

Úvod

Skenované PDF soubory často obsahují text jako obrázky, takže je nemožné vybrat, upravovat nebo kopírovat obsah. Pokud potřebujete konvertovat skenované PDF do editovatelných dokumentů Word, technologie Optical Character Recognition (OCR) nabízí efektivní způsob, jak extrahovat text při zachování původního formátování. V tomto článku se dozvíte, jak programově konverovat skenované PDF do Word (DOCX nebo DOC) pomocí C# s Aspose.OCR pro .NET a Aspose.Words pro .NET knihovny.

Proč přeměnit skenované PDF na Word?

Existuje několik důvodů pro konverzi skenovaných PDF do dokumentů Word:

  • Easy Edit Scanned Documents: Modifyjte text bez ručního retypingu.
  • Extraktní text pro další zpracování: Použijte extrahovaný text pro analýzu nebo integraci do jiných aplikac.
  • Udržujte rozložení a formátování: Udržujte strukturu původního dokumentu při úprav.
  • Automatické zpracování dokumentů založené na OCR: Integrujte tuto funkci do svých aplikací C.

Tabulka obsahů

Nastavení OCR API pro skenované konverze PDF na Word

Chcete-li extrahovat text z skenovaných PDF a převést je na Wordové dokumenty, použijeme:

Instalace

Tyto API můžete snadno nainstalovat prostřednictvím NuGet pomocí následujících příkaz:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

Alternativně, můžete stáhnout DLL z Stránka Aspose Downloads.

Konvertovat Scaned PDF na Editable Word Document

Postupujte podle následujících kroků, abyste konvertovali skenované PDF soubory na Word (DOCX nebo DOC) v C#:

  • Initializujte OCR s AsposeOcr.
  • Vyložit text pomocí DocumentRecognitionSettings.
  • Store uznávaný text v A StringBuilder.
  • Vytvořte Word dokument pomocí Aspose.Words.
  • Aplikujte formátování a uložte jako DOCX nebo DOC.

Kód vzorek

Zde je příklad C#, který ukazuje scanned PDF to Word conversion:

Udržování formátování v OCR konverzi

Zatímco extrakce textu OCR je silná, nemusí vždy uchovávat původní formátování, písma a styly:

  • Používejte Aspose.Words Paragraph Styles aplikovat konzistentní formátování textu.
  • Nastavení vlastností písma, jako je velikost, odvážnost, italika a vyrovnán.
  • Přizpůsobte stránky a rozložení pro lepší výsledek dokumentu Word.

Zpracování více stránek v skenovaných PDF

Pro vícestránkové skenované PDF je nezbytné zpracovávat a sloužit text ze všech stránek do jediného dokumentu Word:

  • Projděte přes každou stránku v naskenovaném PDF.
  • Poznejte text na stránku a uložte ho v StringBuilder.
  • Připojte uznávaný text k dokumentu Word.

Tento přístup zajišťuje samozřejmě vícestránkový PDF konverzi na Word.

Licence pro úplnou OCR přesnost

Ve výchozím nastavení funguje Aspose.OCR v režimu hodnocení, který může omezit přesnost rozpoznávání textu:

🔹 Požádejte o Free Temporary License pro účely hodnocení.

Závěry a dodatečné zdroje

Shrnutí

V tomto průvodci jsme pokrývali:

  • Nastavení Aspose.OCR pro skenované zpracování PDF
  • Odstranění textu z skenovaných PDF v C#
  • Přeměna rozpoznaného textu na formátovaný Wordový dokument
  • ešení vícestránkové skenování PDF do konverze Word

Prostřednictvím využití Aspose.OCR a Aspose.Words můžete bez námahy konvertovat obrázkové PDF do editovatelných souborů Word. Začněte budovat váš OCR-powered PDF to Word converter v .NET dnes za pouhých $99! 🚀

Další tipy pro skenované konverze PDF

Pokud hledáte způsoby, jak zlepšit váš pracovní tok, uvažujte o využití C# OCR PDF do textu schopností nebo C# PDF na DOCX řešení pro pokročilejší zpracování. Ať už potřebujete konvertovat skáněný PDF v Word pro úpravu, nebo prostě chcete convert skenovaný PDF dokument do Word tyto metody poskytují neocenitelnou podporu. Pro ty, kteří se ptají, jak konvertuji skenované PDF k Word? výše uvedené nástroje vás bez námahy průvodí procesem.

Skenování PDF do konverze slov

Konečně, pro více přizpůsobených řešení, zjistěte, jak konvertovat skenované PDF souboru do Word nebo použít C# Text Recognition Library ke zlepšení vašich schopností zpracování dokumentů. Tyto zdroje se ukáže prospěšné pro každého, kdo se pravidelně vypořádá s skenovanými dokumenty. Můžete také používat nástroje c# PDF do DOCX k usnadnění konverzí nebo spolehnout se na ** C# OCR PDF na Text** metodu pro zjednodušení pracovního toku extrahování textu z obrázků.

More in this category