
Bevezetés
A szkennelt PDF-fájlok gyakran szöveget tartalmaznak képként, így nem lehet kiválasztani, szerkeszteni vagy másolni a tartalmat. Ha szüksége van a scaned PDFs átalakítására szerkeszthető Word dokumentumokba, az Optical Character Recognition (OCR) technológia hatékony módot kínál a szöveg kivonására, miközben megőrzi az eredeti formázást.
Miért átalakítja a szkennelt PDF-eket a Word-re?
Számos kényszerítő ok van a szkennelt PDF-k Word dokumentumokká történő átalakítására:
- Könnyen szerkesztheti a szkennelt dokumentumokat: A szöveg módosítása kézi retyping hiánya nélkül.
- Extrakt szöveg további feldolgozáshoz: Az elemzéshez vagy más alkalmazásokba való integrációhoz használja a kivont szöveget.
- Layout és formázás fenntartása: Az eredeti dokumentum szerkezetének megőrzése, miközben szerkeszthetővé teszi.
- Automatikus OCR-alapú dokumentumfeldolgozás: integrálja ezt a funkciót a C# alkalmazásokba.
Tartalmak táblája
- Állítsa be az OCR API-t a szkennelt PDF-re a Word-konverzióra
- Átalakítsa a szkennelt PDF-t a szerkeszthető Word dokumentumra
- A formázás megőrzése az OCR konverzióban
- Több oldal kezelése szkennelt PDF-kban
- A teljes OCR pontosság engedélyezése
- Következtetés és további források
1. Állítsa be az OCR API-t a szkennelt PDF-re a Word konverzióra
A szöveg kivonásához a szkennelt PDF-kból és a Word dokumentumokká alakításához a következőket fogjuk használni:
- Aspose.OCR for .NET – Egy hatékony eszköz, amely felismeri a szöveget a szkennelt képekből.
- Aspose.Words for .NET – Ez a könyvtár átalakítja a kivetett szöveget Word formátumba.
telepítés
Ezek az API-k könnyen telepíthetők a NuGet-en keresztül a következő parancsokkal:
PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words
Alternatív módon letöltheti a DLL-t a Aspose letöltés oldal.
2. Átalakítsa a szkennelt PDF-t a szerkeszthető Word-dokumentumra
Kövesse ezeket a lépéseket, hogy konvertálja a szkennelt PDF fájlokat a Word (DOCX vagy DOC) a C#:
- Kezdeményezze az OCR
AsposeOcr
. - Kiválasztott szöveg használata
DocumentRecognitionSettings
. - Store elismert szöveg a
StringBuilder
. - A Word dokumentum létrehozása használata
Aspose.Words
. - Hozzon formázást és mentse DOCX vagy DOC formátumban.
Kód példány
Íme egy C# példa, amely megmutatja a szkennelt PDF-t a Word átalakítására:
3. A formázás megőrzése az OCR átalakításban
Míg az OCR szöveges kivonat erőteljes, nem mindig megőrzi az eredeti formázást, betűtípusokat és stílusokat. A pontos formatervezés biztosítása érdekében vegye figyelembe a következő tippeket:
- Használja Aspose.Words Paragraph Styles alkalmazni következetes szöveges formázás.
- A betűtípus tulajdonságait beállítjuk, mint például a méret, a bátorság, az italika és az alignment.
- Kapcsolja be az oldalsó tartományokat és elrendezést a Word-dokumentumok jobb kimeneteléhez.
4. Több oldal kezelése szkennelt PDF-kban
A többoldalú szkennelt PDF-k esetében elengedhetetlen a szöveg feldolgozása és összes oldalról egyetlen Word-dokumentumba való összekeverése.
- Mindegyik oldalon keresztül járj a szkennelt PDF-ben.
- A szöveg felismerése oldalonként és tárolása a
StringBuilder
. - A felismert szöveg hozzáadása a Word dokumentumhoz.
Ez a megközelítés biztosítja a szél nélküli többoldalú PDF-t a Word konverzióra.
5. A teljes OCR pontosság engedélyezése
Alapértelmezés szerint az Aspose.OCR az értékelési módban működik, amely korlátozhatja a szöveges felismerés pontosságát.
Kérj egy Free Temporary License értékelési célokra.
6. Következtetés és további források
Összefoglaló
Ebben az útmutatóban a következőket fedeztük fel:
- Beállítások Aspose.OCR for scaned PDF processing
- szöveg kivonása a szkennelt PDF-kból a C#-ban
- Konvertálása felismert szöveg formázott Word dokumentum
- kezelése többoldalú szkennelt PDF a Word konverzió
A Aspose.OCR és az ASPOSE.Words használatával könnyedén a képalapú PDF-eket szerkeszthető Word-fájlokra konvertálhatja. indítsa el a OCR-erősített PDF a Word konverterre építését a .NET-ben ma csak $99ért!
További tippek a szkennelt PDF átalakításhoz
Ha olyan módszereket keres, amelyek javítják a munkafolyamatot, fontolja meg a C# OCR PDF a Text képességek használatát, vagy C# PDF DOCX megoldásokkal a továbbfejlesztett feldolgozáshoz. Akár a szkennelt PDF-t a Word-be kell átalakítania a szerkesztéshez vagy egyszerűen szeretné a Scanned PDF dokumentumot a WORD-ba átváltani, ezek a módszertanok értékes támogatást nyújtanak. Azok számára, akik megkérdezik, Hogyan alakítom át a skannált PDF -t?, a fent említett eszközök erőteljesen útmutatják Önt a folyamaton keresztül.
PDF forgatókönyv a Word konverzióra
Végül, a legmegfelelőbb megoldásokhoz vizsgálja meg, hogyan lehet konvertálni a szkennelt PDF fájlt a Word vagy használjon egy C# Text Recognition Library a dokumentumfeldolgozási képességek javítása érdekében. Ezek az erőforrások hasznosnak bizonyulnak bárki számára, aki rendszeresen foglalkozik a skannált dokumentumaival.