Convert Scanned PDF to Word in C#

Uvod

Skanirani PDF datoteke često sadrže tekst kao slike, čime je nemoguće odabrati, urediti ili kopirati sadržaj. Ako trebate konvertirati skenirane PDF-ove u uređujuće Word dokumente, Optical Character Recognition (OCR) tehnologija nudi učinkovit način za uklanjanje teksta dok se čuva izvorna formatacija.

Zašto pretvoriti skenirane PDF-ove u Word?

Postoji nekoliko važnih razloga za pretvaranje skeniranih PDF-a u Word dokumente:

  • Jednostavno uređivanje skeniranih dokumenata: izmijenite tekst bez ručnog retipiranja.
  • Extract Text za daljnju obradu: Koristite izveden tekst za analizu ili integraciju u druge aplikacije.
  • Udržavanje rasporeda i formatacije: Držite strukturu izvornog dokumenta dok ga možete urediti.
  • Automatska obrada dokumenata na bazi OCR-a: integrirajte ovu funkcionalnost bez sumnje u svoje C# aplikacije.

Tablica sadržaja

1. postavite OCR API za skenirano pretvaranje PDF-a u Word

Da biste izvukli tekst iz skeniranih PDF-a i pretvorili ih u Word dokumente, koristimo:

instalacija

Ove API-e možete lako instalirati putem NuGeta s sljedećim zapovijedima:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

Alternativno, možete preuzeti DLL-ove iz Sljedeći Članak Aspose Downloads.

Konvertiranje skeniranog PDF-a u Editable Word Document

Slijedite ove korake kako biste konvertirali skenirane PDF datoteke u Word (DOCX ili DOC) u C#:

  • Inicializirajte OCR s AsposeOcr.
  • Izbacivanje teksta korištenje DocumentRecognitionSettings.
  • Stoji prepoznatljiv tekst u a StringBuilder.
  • Stvorite Word dokument pomoću Aspose.Words.
  • Aplikirajte formataciju i sačuvajte kao DOCX ili DOC.

Kod uzoraka

Ovdje je primjer C# koji pokazuje scanned PDF to Word conversion:

Održavanje formatacije u OCR konverziji

Iako je OCR tekst ekstrakcija snažna, ne može uvijek sačuvati originalni oblikovanje, fontove i stilove. kako bi se osiguralo točno formiranje, razmotrite sljedeće savjete:

  • Koristite Aspose.Words Paragraph Styles kako biste primijenili dosljednu formataciju teksta.
  • Postavite svojstva fontova kao što su veličina, hrabrosti, italika i usklađenosti.
  • Prilagodite margine stranice i raspored za poboljšanje izvoza Word dokumenta.

4. rukovanje višestrukim stranicama u skeniranim PDF-ovima

Za multi-page skenirane PDF-ove, važno je obrađivati i spajati tekst sa svih stranica u jedan Word dokument.

  • Izađite kroz svaku stranicu u skeniranom PDF-u.
  • Poznajte tekst po stranici i pohranite ga u StringBuilder.
  • Priključite prepoznatljiv tekst na Word dokument.

Ovaj pristup osigurava samo više stranica PDF u Word konverzije.

Licencija za punu točnost OCR

Podrazumevano, Aspose.OCR radi u načinu ocjenjivanja, koji može ograničiti točnost prepoznavanja teksta.

Zatražite Free Temporary License za svrhe ocjenjivanja.

Završetak i dodatni resursi

sažetak

U ovom vodiču pokrivamo:

  • Sastavljanje Aspose.OCR za skeniranu obradu PDF-a
  • Izvlačenje teksta iz skeniranih PDF-a u C#
  • Konvertiranje prepoznatog teksta u formatiran Word dokument
  • Upravljanje Multi-page skeniran PDF u Word konverzija

Korištenjem Aspose.OCR i ASPOSE.Words, možete bez napora konvertirati PDF-ove na temelju slike u uređujuće Word datoteke. Počnite s izgradnjom vašeg OCR-powered PDF to Word converter u .NET danas za samo $99!

Dodatni savjeti za skenirane konverzije PDF-a

Ako tražite načine za poboljšanje vašeg radnog toka, razmislite o korištenju C# OCR PDF u tekst sposobnosti ili C# PDF do DOCX rješenja za napredniju obradu. hoćete li konvertirati skeniranu PDF-u u Word za uređivanje ili jednostavno želite preusmjeriti skenirani PDF dokument na Word, ove metode pružaju neprocjenjivu potporu. Za one koji pitaju, kako pretvorim skenirano PDF v Word? navedene alate će vas bez napora voditi kroz proces.

Skanirano PDF na Word konverzija

Konačno, za više prilagođenih rješenja, proučavajte kako konvertirati skenirane PDF datoteke u Word ili koristiti C# knjižnicu za prepoznavanje teksta kako biste poboljšali svoje sposobnosti obrade dokumenata. Ovi resursi će se pokazati korisnim za bilo koga tko se redovito bavi skeniranim dokumentima. Također možete koristiti C # PDF do DOCX alate kako bi se olakšale konverzije ili se oslanjaju na C # OCR PDF u tekst metodu kako bismo pojednostavili radni tok ekstrakcije tekste iz slika.

More in this category