Convert Scanned PDF to Word in C#

Úvod

Skanované súbory PDF často obsahujú text ako obrázky, takže je nemožné vybrať, upraviť alebo skopírovať obsah. Ak potrebujete konvertovať skenované PDF do editovateľných dokumentov Word, technológia Optical Character Recognition (OCR) ponúka efektívny spôsob, ako extrahovať text pri zachovaní pôvodného formátovania. V tomto článku sa dozviete ako programmaticky konverzovať skané PDF na Word (DOCX alebo DOC) pomocou C# s Aspose.OCr pre .NET a Aspos.Words pre knižnice .NET.

Prečo Convert Scanned PDFs to Word?

Existuje niekoľko dôvodov pre konverziu skenovaných PDF do dokumentov programu Word:

  • Jednoducho upravte skenované dokumenty: Modifikujte text bez nárazu manuálneho replikácie.
  • Extraktný text pre ďalšie spracovanie: Použite extrahovaný text na analýzu alebo integráciu do iných aplikácií.
  • Udržujte rozloženie a formátovanie: Zachujte štruktúru pôvodného dokumentu a zároveň ho upravte.
  • Automatické spracovanie dokumentov založené na OCR: Integrujte túto funkciu do svojich aplikácií C#.

Tabuľka obsahu

Nastavenie OCR API pre skenované PDF na konverziu slova

Ak chcete extrahovať text z skenovaných PDF a premeniť ich na dokumenty programu Word, použijeme:

inštalácia

Tieto API môžete ľahko nainštalovať prostredníctvom NuGet pomocou nasledujúcich príkazov:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

Alternatívne, môžete stiahnuť DLL z Aspose Downloads stránka.

Konvertovať skenované PDF na Editable Word Document

Postupujte podľa týchto krokov pre konvertovanie skenovaných súborov PDF na Word (DOCX alebo DOC) v C#:

  • Initializovať OCR s AsposeOcr.
  • Vytiahnuť text používať DocumentRecognitionSettings.
  • Store uznávaný text v A StringBuilder.
  • Vytvorenie dokumentu Word pomocou Aspose.Words.
  • Aplikovať formátovanie a uložiť ako DOCX alebo DOC.

Šablóna kódu

Tu je príklad C#, ktorý preukazuje scanned PDF to Word conversion:

Udržiavanie formátovania v konverzii OCR

Zatiaľ čo extrakcia textu OCR je silná, nemusí vždy zachovať originálne formátovanie, písma a štýly.

  • Využite Aspose.Words Paragraph Styles na aplikáciu konzistentného formátovania textu.
  • Zadajte vlastnosti písma ako je veľkosť, odvážnosť, italika a zosúladenie.
  • Upraviť hranice stránky a rozloženie pre zlepšenie výstupu dokumentu programu Word.

Spracovanie viacerých stránok v skenovaných PDF

Pre viacstránkové skenované PDF je nevyhnutné spracovať a zlúčiť text zo všetkých stránok do jedného dokumentu programu Word.

  • Prejdite cez každú stránku v skanovanom PDF.
  • Poznajte text na stránku a ukladajte ho v StringBuilder.
  • Pripojiť uznávaný text do dokumentu Word.

Tento prístup zaručuje samozrejmosť viacstránkového PDF na konverziu programu Word.

Licencia pre úplnú presnosť OCR

Predvolene, Aspose.OCR funguje v hodnotení režimu, ktorý môže obmedziť presnosť rozpoznávania textu.

Požiadajte o Free Temporary License na účely hodnotenia.

Záver a dodatočné zdroje

Zhrnutie

V tomto sprievodcovi sme pokrývali:

  • Nastavenie Aspose.OCR pre skenované spracovanie PDF
  • Odstrániť text z skenovaných PDF v C#
  • Konvertovanie rozpoznaného textu na formátovaný Word dokument
  • Spracovanie viacstránkové skenované PDF do konverzie Word

Využívaním Aspose.OCR a Asposa.Words môžete bez námahy konvertovať PDF na báze obrazu na editovateľné súbory programu Word. Začnite budovať váš OCR-powered PDF to Word converter v .NET dnes za len $99!

Ďalšie tipy pre skenovanú konverziu PDF

Ak hľadáte spôsoby, ako zlepšiť váš pracovný tok, uvažujte o využití C# OCR PDF do textu schopností alebo C# PDF na DOCX riešení pre pokročilejšie spracovanie. Či už potrebujete konvertovať skenovaný PDF v Word na úpravu, alebo jednoducho chcete convertované skenované PDF dokumenty do Word, tieto metódy poskytujú neoceniteľnú podporu. Pre tých, ktorí sa pýtajú, ako premeniť skenovanú PDF vo Word? uvedené nástroje vás bez námahy usmernia cez proces.

Skenované PDF na konverziu slov

Konečne, pre viac prispôsobených riešení, skúmajte, ako konvertovať skenované PDF súbory na Word alebo použiť C# Text Recognition Library na zlepšenie schopností spracovania dokumentov. Tieto zdroje sa ukážu užitočné pre každého, kto sa pravidelne zaoberá skenovanými dokumentmi. Môžete tiež používať nástroje c# PDF na DOCX pre uľahčenie konverzie alebo spoliehať sa na ** C# OCR PDF do Text** metódu na zjednodušenie pracovného toku extrakcie textu z obrázkov.

More in this category