
Uvod
Skanirani PDF datoteke često sadrže tekst kao slike, čime je nemoguće odabrati, urediti ili kopirati sadržaj. Ako trebate konvertirati skenirane PDF-ove u uređujuće Word dokumente, Optical Character Recognition (OCR) tehnologija nudi učinkovit način za uklanjanje teksta dok se čuva izvorna formatacija.
Zašto pretvoriti skenirane PDF-ove u Word?
Postoji nekoliko važnih razloga za pretvaranje skeniranih PDF-a u Word dokumente:
- Jednostavno uređivanje skeniranih dokumenata: izmijenite tekst bez ručnog retipiranja.
- Extract Text za daljnju obradu: Koristite izveden tekst za analizu ili integraciju u druge aplikacije.
- Udržavanje rasporeda i formatacije: Držite strukturu izvornog dokumenta dok ga možete urediti.
- Automatska obrada dokumenata na bazi OCR-a: integrirajte ovu funkcionalnost bez sumnje u svoje C# aplikacije.
Tablica sadržaja
- Postavite OCR API za skeniranu konverziju PDF-a na Word
- Konvertiranje skeniranog PDF-a u Editable Word Document
- Sadržavanje formata u OCR konverziji
- Rješavanje više stranica u skeniranim PDF-ovima
- Licencija za punu točnost OCR-a
- Završetak i dodatni resursi
1. postavite OCR API za skenirano pretvaranje PDF-a u Word
Da biste izvukli tekst iz skeniranih PDF-a i pretvorili ih u Word dokumente, koristimo:
- Aspose.OCR za .NET – Moćan alat koji prepoznaje tekst iz skeniranih slika.
- Aspose.Words for .NET – Ova knjižnica pretvara izveden tekst u Word format.
instalacija
Ove API-e možete lako instalirati putem NuGeta s sljedećim zapovijedima:
PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words
Alternativno, možete preuzeti DLL-ove iz Sljedeći Članak Aspose Downloads.
Konvertiranje skeniranog PDF-a u Editable Word Document
Slijedite ove korake kako biste konvertirali skenirane PDF datoteke u Word (DOCX ili DOC) u C#:
- Inicializirajte OCR s
AsposeOcr
. - Izbacivanje teksta korištenje
DocumentRecognitionSettings
. - Stoji prepoznatljiv tekst u a
StringBuilder
. - Stvorite Word dokument pomoću
Aspose.Words
. - Aplikirajte formataciju i sačuvajte kao DOCX ili DOC.
Kod uzoraka
Ovdje je primjer C# koji pokazuje scanned PDF to Word conversion:
Održavanje formatacije u OCR konverziji
Iako je OCR tekst ekstrakcija snažna, ne može uvijek sačuvati originalni oblikovanje, fontove i stilove. kako bi se osiguralo točno formiranje, razmotrite sljedeće savjete:
- Koristite Aspose.Words Paragraph Styles kako biste primijenili dosljednu formataciju teksta.
- Postavite svojstva fontova kao što su veličina, hrabrosti, italika i usklađenosti.
- Prilagodite margine stranice i raspored za poboljšanje izvoza Word dokumenta.
4. rukovanje višestrukim stranicama u skeniranim PDF-ovima
Za multi-page skenirane PDF-ove, važno je obrađivati i spajati tekst sa svih stranica u jedan Word dokument.
- Izađite kroz svaku stranicu u skeniranom PDF-u.
- Poznajte tekst po stranici i pohranite ga u
StringBuilder
. - Priključite prepoznatljiv tekst na Word dokument.
Ovaj pristup osigurava samo više stranica PDF u Word konverzije.
Licencija za punu točnost OCR
Podrazumevano, Aspose.OCR radi u načinu ocjenjivanja, koji može ograničiti točnost prepoznavanja teksta.
Zatražite Free Temporary License za svrhe ocjenjivanja.
Završetak i dodatni resursi
sažetak
U ovom vodiču pokrivamo:
- Sastavljanje Aspose.OCR za skeniranu obradu PDF-a
- Izvlačenje teksta iz skeniranih PDF-a u C#
- Konvertiranje prepoznatog teksta u formatiran Word dokument
- Upravljanje Multi-page skeniran PDF u Word konverzija
Korištenjem Aspose.OCR i ASPOSE.Words, možete bez napora konvertirati PDF-ove na temelju slike u uređujuće Word datoteke. Počnite s izgradnjom vašeg OCR-powered PDF to Word converter u .NET danas za samo $99!
Dodatni savjeti za skenirane konverzije PDF-a
Ako tražite načine za poboljšanje vašeg radnog toka, razmislite o korištenju C# OCR PDF u tekst sposobnosti ili C# PDF do DOCX rješenja za napredniju obradu. hoćete li konvertirati skeniranu PDF-u u Word za uređivanje ili jednostavno želite preusmjeriti skenirani PDF dokument na Word, ove metode pružaju neprocjenjivu potporu. Za one koji pitaju, kako pretvorim skenirano PDF v Word? navedene alate će vas bez napora voditi kroz proces.
Skanirano PDF na Word konverzija
Konačno, za više prilagođenih rješenja, proučavajte kako konvertirati skenirane PDF datoteke u Word ili koristiti C# knjižnicu za prepoznavanje teksta kako biste poboljšali svoje sposobnosti obrade dokumenata. Ovi resursi će se pokazati korisnim za bilo koga tko se redovito bavi skeniranim dokumentima. Također možete koristiti C # PDF do DOCX alate kako bi se olakšale konverzije ili se oslanjaju na C # OCR PDF u tekst metodu kako bismo pojednostavili radni tok ekstrakcije tekste iz slika.