Convert Scanned PDF to Word in C#

Introduction

Skanētie PDF faili bieži satur tekstu kā attēlus, padarot to neiespējamu izvēlēties, rediģēt vai kopēt saturu.Ja jums ir nepieciešams konvertēt skanētos PDF dokumentus redakcionālos Word dokumentos , Optical Character Recognition (OCR) tehnoloģija piedāvā efektīvu veidu, kā iegūt tekstu, saglabājot oriģinālo formātu.

Kāpēc pārvērst skenētos PDF failus par Word?

Ir vairāki obligāti iemesli, kā pārvērst skenētos PDF dokumentus Word dokumentos:

  • Easy Edit Scanned Documents : Izmaiņas teksts bez manuālās atkārtošanās.
  • Teksta ekstrakts turpmākai apstrādei : Izmanto iegūto tekstu analīzei vai integrācijai citās lietojumprogrammās.
  • Uzturēt izkārtojumu un formatēšanu : saglabāt oriģināla dokumenta struktūru, padarot to rediģējamu.
  • Automātiska OCR balstīta dokumentu apstrāde : integrējiet šo funkciju bez šaubām savā C# lietojumprogrammā.

satura tabula

Iestatīt OCR API skenēšanai PDF uz Word konversiju

Lai iegūtu tekstu no skenētiem PDF un pārvērstu tos Word dokumentos, mēs izmantosim:

Installation

Jūs varat viegli instalēt šīs API caur NuGet ar šādām komandām:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

Alternatīvi, jūs varat lejupielādēt DLL no Aspose lejupielādes lapa.

Konvertēt skenētu PDF uz redakcionālu vārda dokumentu

Izpildiet šos soļus, lai konvertētu skenētos PDF failus Word (DOCX vai DOC) C# :

  • Initialize OCR ar AsposeOcr.
  • Izrakstīt tekstu izmantojot DocumentRecognitionSettings.
  • Store atzīts teksts A StringBuilder.
    • Izveidojiet Word dokumentu* Aspose.Words.
  • ** Pielietojiet formātu** un saglabājiet to kā DOCX vai DOC.

Kods paraugs

Šeit ir C# piemērs, kas demonstrē scanned PDF to Word conversion :

3. saglabāt formātu OCR konversijā

Lai gan OCR teksta ekstrakcija ir spēcīga, tā var ne vienmēr saglabāt oriģinālo formātu, burtu un stilu**.

  • Izmantojiet Aspose.Words Paragraph Styles , lai piemērotu konsekventu teksta formātu.
  • Iestatīt burtu īpašības , piemēram, izmērs, drosme, itāliski un saskaņošana.
  • Saiņojiet lapas maržus un izkārtojumu , lai uzlabotu Word dokumentu iznākumu.

Vairāku lapu apstrāde skenētajos PDF failos

Multi-page skanētiem PDF-iem ir svarīgi apstrādāt un apvienot tekstu no visām lapām vienā Word dokumentā.

  • Iet caur katru lapu skenētajā PDF.
  • Atzīt tekstu pēc lapas un uzglabāt to StringBuilder.
  • ** Pievienojiet atpazīstamo tekstu** vārda dokumentam.

Šis pieeja nodrošina sezināmu vairāku lapu PDF uz Word konversiju .

Licence par pilnīgu OCR precizitāti

Parasti Aspose.OCR darbojas novērtēšanas režīmā, kas var limitēt teksta atpazīšanas precizitāti .

Pieprasīt Bezmaksas pagaidu licences novērtējuma nolūkiem.

6. secinājums un papildu resursi

Summary

Šajā ceļvedī mēs aptveram:

  • Iestatīt Aspose.OCR skenētai PDF apstrādei
  • Izņemot teksti no skenētiem PDF failām C#
  • Konvertējot ** atpazīstamu tekstu formātā Word dokumentā**
  • Darbība vairāku lapu skanēts PDF uz Word konversiju

Izmantojot **Aspose.OCR un Aspoze.Words ** , jūs varat bez pūles **konvertēt attēla balstītos PDF failus uz rediģējamiem Word failiem ** . Sāciet veidot savu **ocr-powered PDF to Word converter ** .NET šodien par tikai $99 !

Papildu padomi skenētai PDF konversijai

Ja jūs meklējat veidus, kā uzlabot savu darba plūsmu, apsveriet, izmantojot **C# OCR PDF uz Teksta ** iespējas vai ** C# PDF līdz DOCX ** risinājumus tālākai apstrādei. Vai jums ir nepieciešams **konvertēt skenētu PDF Word rediģēšanai ** , vai vienkārši vēlaties pārvērst skenēto PDF dokumentu Word , šīs metodes nodrošina vērtīgu atbalstu.

Skanēts PDF uz Word konversiju

Visbeidzot, vairāk pielāgotiem risinājumiem, izpētiet, kā **konvertēt skenēto PDF failu Word ** vai izmantot **C# Teksta atpazīšanas bibliotēku ** , lai uzlabotu jūsu dokumentu apstrādes iespējas. Šie resursi būs noderīgi ikvienam, kas regulāri nodarbojas ar skenētiem dokumentiem. Jūs varat izmantot arī c# PDF līdz DOCX ** rīkus, Lai atvieglotu konversijas vai paļauties uz ** C# OCR PDF uz Tekstu metodi un vienkāršotu teksta ekstrakcijas darba plūsmu no attēlu.

More in this category