
Introduction
Skanētie PDF faili bieži satur tekstu kā attēlus, padarot to neiespējamu izvēlēties, rediģēt vai kopēt saturu.Ja jums ir nepieciešams konvertēt skanētos PDF dokumentus redakcionālos Word dokumentos , Optical Character Recognition (OCR) tehnoloģija piedāvā efektīvu veidu, kā iegūt tekstu, saglabājot oriģinālo formātu.
Kāpēc pārvērst skenētos PDF failus par Word?
Ir vairāki obligāti iemesli, kā pārvērst skenētos PDF dokumentus Word dokumentos:
- Easy Edit Scanned Documents : Izmaiņas teksts bez manuālās atkārtošanās.
- Teksta ekstrakts turpmākai apstrādei : Izmanto iegūto tekstu analīzei vai integrācijai citās lietojumprogrammās.
- Uzturēt izkārtojumu un formatēšanu : saglabāt oriģināla dokumenta struktūru, padarot to rediģējamu.
- Automātiska OCR balstīta dokumentu apstrāde : integrējiet šo funkciju bez šaubām savā C# lietojumprogrammā.
satura tabula
- Iestatīt OCR API, lai skenētu PDF uz Word konversiju
- Konvertēt skenētu PDF uz redakcionālu vārda dokumentu
- Formatēšanas saglabāšana OCR konversijā
- Vairāku lapu apstrāde skenētajos PDF failos
- Pilna OCR precizitāte
- Noslēgums un papildu resursi
Iestatīt OCR API skenēšanai PDF uz Word konversiju
Lai iegūtu tekstu no skenētiem PDF un pārvērstu tos Word dokumentos, mēs izmantosim:
- Aspose.OCR for .NET – spēcīgs rīks, kas atpazīst tekstu no skenētiem attēliem.
- Aspose.Words for .NET – Šī bibliotēka izņemto teksta konvertē Word formātā.
Installation
Jūs varat viegli instalēt šīs API caur NuGet ar šādām komandām:
PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words
Alternatīvi, jūs varat lejupielādēt DLL no Aspose lejupielādes lapa.
Konvertēt skenētu PDF uz redakcionālu vārda dokumentu
Izpildiet šos soļus, lai konvertētu skenētos PDF failus Word (DOCX vai DOC) C# :
- Initialize OCR ar
AsposeOcr
. - Izrakstīt tekstu izmantojot
DocumentRecognitionSettings
. - Store atzīts teksts A
StringBuilder
. - Izveidojiet Word dokumentu*
Aspose.Words
.
- Izveidojiet Word dokumentu*
- ** Pielietojiet formātu** un saglabājiet to kā DOCX vai DOC.
Kods paraugs
Šeit ir C# piemērs, kas demonstrē scanned PDF to Word conversion :
3. saglabāt formātu OCR konversijā
Lai gan OCR teksta ekstrakcija ir spēcīga, tā var ne vienmēr saglabāt oriģinālo formātu, burtu un stilu**.
- Izmantojiet Aspose.Words Paragraph Styles , lai piemērotu konsekventu teksta formātu.
- Iestatīt burtu īpašības , piemēram, izmērs, drosme, itāliski un saskaņošana.
- Saiņojiet lapas maržus un izkārtojumu , lai uzlabotu Word dokumentu iznākumu.
Vairāku lapu apstrāde skenētajos PDF failos
Multi-page skanētiem PDF-iem ir svarīgi apstrādāt un apvienot tekstu no visām lapām vienā Word dokumentā.
- Iet caur katru lapu skenētajā PDF.
- Atzīt tekstu pēc lapas un uzglabāt to
StringBuilder
. - ** Pievienojiet atpazīstamo tekstu** vārda dokumentam.
Šis pieeja nodrošina sezināmu vairāku lapu PDF uz Word konversiju .
Licence par pilnīgu OCR precizitāti
Parasti Aspose.OCR darbojas novērtēšanas režīmā, kas var limitēt teksta atpazīšanas precizitāti .
Pieprasīt Bezmaksas pagaidu licences novērtējuma nolūkiem.
6. secinājums un papildu resursi
Summary
Šajā ceļvedī mēs aptveram:
- Iestatīt Aspose.OCR skenētai PDF apstrādei
- Izņemot teksti no skenētiem PDF failām C#
- Konvertējot ** atpazīstamu tekstu formātā Word dokumentā**
- Darbība vairāku lapu skanēts PDF uz Word konversiju
Izmantojot **Aspose.OCR un Aspoze.Words ** , jūs varat bez pūles **konvertēt attēla balstītos PDF failus uz rediģējamiem Word failiem ** . Sāciet veidot savu **ocr-powered PDF to Word converter ** .NET šodien par tikai $99 !
Papildu padomi skenētai PDF konversijai
Ja jūs meklējat veidus, kā uzlabot savu darba plūsmu, apsveriet, izmantojot **C# OCR PDF uz Teksta ** iespējas vai ** C# PDF līdz DOCX ** risinājumus tālākai apstrādei. Vai jums ir nepieciešams **konvertēt skenētu PDF Word rediģēšanai ** , vai vienkārši vēlaties pārvērst skenēto PDF dokumentu Word , šīs metodes nodrošina vērtīgu atbalstu.
Skanēts PDF uz Word konversiju
Visbeidzot, vairāk pielāgotiem risinājumiem, izpētiet, kā **konvertēt skenēto PDF failu Word ** vai izmantot **C# Teksta atpazīšanas bibliotēku ** , lai uzlabotu jūsu dokumentu apstrādes iespējas. Šie resursi būs noderīgi ikvienam, kas regulāri nodarbojas ar skenētiem dokumentiem. Jūs varat izmantot arī c# PDF līdz DOCX ** rīkus, Lai atvieglotu konversijas vai paļauties uz ** C# OCR PDF uz Tekstu metodi un vienkāršotu teksta ekstrakcijas darba plūsmu no attēlu.