Convert Scanned PDF to Word in C#

Introduction

Skandinti PDF failai dažnai turi tekstą kaip vaizdus, todėl neįmanoma pasirinkti, redaguoti ar kopijuoti turinio. Jei jums reikia **konvertuoti skandintus PDF failus į redakcinius Word dokumentus ** , Optical Character Recognition (OCR) technologija siūlo efektyvų būdą ištraukti teksto, išlaikydama originalią formatavimą. Šiame straipsnyje jūs sužinosite, kaip **programuotai konvertuoti skanuotus PDF PDF į Word (DOCX arba DOC) naudojant C# ** su **Aspose.OCR .NET ** ir Apse.Words .Net bibliotekoms.

Kodėl konvertuojami skanūs PDF failai į žodį?

Yra keletas privalomų priežasčių konvertuoti skanytus PDF failus į “Word” dokumentus:

  • ** Lengvai redaguoti skanytus dokumentus** : pakeisti tekstą be rankinio retypingo.
  • Extraktinis tekstas tolesniam apdorojimui : Naudokite ekstrahuotą tekstą analizei ar integracijai į kitas programas.
  • Išsaugokite išdėstymą ir formatavimą : išlaikykite originalaus dokumento struktūrą, o tai leidžia jį redaguoti.
  • Automatinis OCR pagrįstas dokumentų apdorojimas : integruokite šią funkciją į savo C# programas.

Turinio lentelė

1. Įdiegti OCR API skenuoti PDF į Word konvertavimo

Norėdami išgauti tekstą iš skanintų PDF ir konvertuoti juos į “Word” dokumentus, naudosime:

Installation

Galite lengvai įdiegti šias API per NuGet su šiomis komandomis:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

Galite atsisiųsti DLL iš Atsisiųsti puslapį.

Konvertuoti Skanytą PDF į redakcinį žodžio dokumentą

Sekite šiuos žingsnius konvertuoti skanytus PDF failus į Word (DOCX arba DOC) C# :

  • Inicializuokite OCR su AsposeOcr.
  • Teksto ekstraktas naudojant DocumentRecognitionSettings.
  • Store pripažįstamas tekstas a StringBuilder.
  • Sukurti žodžio dokumentą naudojant Aspose.Words.
  • Įveskite formatavimą ir išsaugokite kaip DOCX arba DOC.

Kodas pavyzdys

Štai C# pavyzdys, parodantis skandinuotą PDF į “Word” konvertavimą :

3. išsaugoti formatavimą OCR konvertavimo

Nors OCR teksto ekstrakcija yra galinga, ji ne visada gali išsaugoti originalų formatavimą, fontus ir stilius .

  • Naudokite Aspose.Words straipsnio stilius taikyti nuoseklų teksto formatavimą.
  • Nustatykite fontų savybes , tokias kaip dydis, drąsa, italika ir suderinimas.
  • Nustatykite puslapio ribas ir išdėstymą , kad pagerintumėte “Word” dokumentų gamybą.

Kelios puslapių tvarkymas skenuojamuose PDF failuose

Daugialypės skanytos PDF , svarbu apdoroti ir derinti tekstą iš visų puslapių į vieną “Word” dokumentą.

  • Plaukite per kiekvieną puslapį skenuojamoje PDF.
  • Išpažinkite tekstą per puslapį ir saugokite jį StringBuilder.
  • Įveskite pripažintą tekstą į žodžio dokumentą.

Šis metodas užtikrina nepriekaištingą daugialypį PDF į Word konvertavimą .

Licencija už pilną OCR tikslumą

Pavyzdžiui, Aspose.OCR veikia vertinimo režimu, kuris gali apriboti teksto atpažinimo tikslumą**.

Prašome Nemokamos laikinos licencijos vertinimo tikslais.

Išvada ir papildomi ištekliai

Summary

Šiame vadove mes apimame:

  • Įdiegti Aspose.OCR skanytam PDF apdorojimui
  • Pašalinti tekstą iš skanintų PDF failų C#
  • Konvertuoti pažįstamą tekstą į formatuotą „Word“ dokumentą
  • Apdorojimas Daugialypės skanavimo PDF į Word konvertavimo

Naudodamiesi „Aspose.OCR“ ir „ASPOSE.Words“ galite be pastangų konvertuoti vaizdą pagrįstus PDF failus į redaguojamus „Word“ failas **. Pradėkite kurti savo „OCR-powered PDF to Word converter ** “ .NET šiandien už tik 99$ !

Papildomi patarimai, kaip skenuoti PDF konvertavimą

Jei ieškote būdų, kaip pagerinti savo darbo srautą, apsvarstykite naudojant C# OCR PDF į tekstą ** įgūdžius arba ** C# PDF to DOCX ** sprendimus pažangesniam apdorojimui. Nesvarbu, ar jums reikia konvertuoti skenuotą PDF Word redagavimui ** , arba tiesiog norite ** konvertuotis skanuoto PDF dokumento į Word, šie metodai suteikia neįkainojamą paramą. Tiems, kurie klausia, ** kaip aš konvertuoju skanų PDF Į Word? **minėtus įrankius jūs be pastangų veda per procesas. Be to, tokie įrankiai kaip ** c# Text Recognition Library ir ** PDF to Text Converter in C gali toliau supaprastinti jūsų dokumentų tvarkymo poreikius.

Skanytas PDF į Word konvertavimas

Galiausiai, norėdami gauti daugiau pritaikytų sprendimų, sužinokite, kaip konvertuoti skanytą PDF failą į Word arba naudoti ** C# teksto pripažinimo biblioteką, kad pagerintumėte savo dokumentų apdorojimo pajėgumus. Šie ištekliai bus naudingi visiems, kurie reguliariai susiduria su skanuotais dokumentais. Taip pat galite naudoti *C # PDF į DOCX įrankius konversijoms palengvinti arba pasikliauti ** C # OCR PDF tekstui metodais, siekiant supaprastinti teksto ekstrakcijos darbo srautą iš vaizdų.

More in this category