Convert Scanned PDF to Word in C#

Bevezetés

A szkennelt PDF-fájlok gyakran szöveget tartalmaznak képként, így nem lehet kiválasztani, szerkeszteni vagy másolni a tartalmat. Ha szüksége van a scaned PDFs átalakítására szerkeszthető Word dokumentumokba, az Optical Character Recognition (OCR) technológia hatékony módot kínál a szöveg kivonására, miközben megőrzi az eredeti formázást.

Miért átalakítja a szkennelt PDF-eket a Word-re?

Számos kényszerítő ok van a szkennelt PDF-k Word dokumentumokká történő átalakítására:

  • Könnyen szerkesztheti a szkennelt dokumentumokat: A szöveg módosítása kézi retyping hiánya nélkül.
  • Extrakt szöveg további feldolgozáshoz: Az elemzéshez vagy más alkalmazásokba való integrációhoz használja a kivont szöveget.
  • Layout és formázás fenntartása: Az eredeti dokumentum szerkezetének megőrzése, miközben szerkeszthetővé teszi.
  • Automatikus OCR-alapú dokumentumfeldolgozás: integrálja ezt a funkciót a C# alkalmazásokba.

Tartalmak táblája

1. Állítsa be az OCR API-t a szkennelt PDF-re a Word konverzióra

A szöveg kivonásához a szkennelt PDF-kból és a Word dokumentumokká alakításához a következőket fogjuk használni:

telepítés

Ezek az API-k könnyen telepíthetők a NuGet-en keresztül a következő parancsokkal:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

Alternatív módon letöltheti a DLL-t a Aspose letöltés oldal.

2. Átalakítsa a szkennelt PDF-t a szerkeszthető Word-dokumentumra

Kövesse ezeket a lépéseket, hogy konvertálja a szkennelt PDF fájlokat a Word (DOCX vagy DOC) a C#:

  • Kezdeményezze az OCR AsposeOcr.
  • Kiválasztott szöveg használata DocumentRecognitionSettings.
  • Store elismert szöveg a StringBuilder.
  • A Word dokumentum létrehozása használata Aspose.Words.
  • Hozzon formázást és mentse DOCX vagy DOC formátumban.

Kód példány

Íme egy C# példa, amely megmutatja a szkennelt PDF-t a Word átalakítására:

3. A formázás megőrzése az OCR átalakításban

Míg az OCR szöveges kivonat erőteljes, nem mindig megőrzi az eredeti formázást, betűtípusokat és stílusokat. A pontos formatervezés biztosítása érdekében vegye figyelembe a következő tippeket:

  • Használja Aspose.Words Paragraph Styles alkalmazni következetes szöveges formázás.
  • A betűtípus tulajdonságait beállítjuk, mint például a méret, a bátorság, az italika és az alignment.
  • Kapcsolja be az oldalsó tartományokat és elrendezést a Word-dokumentumok jobb kimeneteléhez.

4. Több oldal kezelése szkennelt PDF-kban

A többoldalú szkennelt PDF-k esetében elengedhetetlen a szöveg feldolgozása és összes oldalról egyetlen Word-dokumentumba való összekeverése.

  • Mindegyik oldalon keresztül járj a szkennelt PDF-ben.
  • A szöveg felismerése oldalonként és tárolása a StringBuilder.
  • A felismert szöveg hozzáadása a Word dokumentumhoz.

Ez a megközelítés biztosítja a szél nélküli többoldalú PDF-t a Word konverzióra.

5. A teljes OCR pontosság engedélyezése

Alapértelmezés szerint az Aspose.OCR az értékelési módban működik, amely korlátozhatja a szöveges felismerés pontosságát.

Kérj egy Free Temporary License értékelési célokra.

6. Következtetés és további források

Összefoglaló

Ebben az útmutatóban a következőket fedeztük fel:

  • Beállítások Aspose.OCR for scaned PDF processing
  • szöveg kivonása a szkennelt PDF-kból a C#-ban
  • Konvertálása felismert szöveg formázott Word dokumentum
  • kezelése többoldalú szkennelt PDF a Word konverzió

A Aspose.OCR és az ASPOSE.Words használatával könnyedén a képalapú PDF-eket szerkeszthető Word-fájlokra konvertálhatja. indítsa el a OCR-erősített PDF a Word konverterre építését a .NET-ben ma csak $99ért!

További tippek a szkennelt PDF átalakításhoz

Ha olyan módszereket keres, amelyek javítják a munkafolyamatot, fontolja meg a C# OCR PDF a Text képességek használatát, vagy C# PDF DOCX megoldásokkal a továbbfejlesztett feldolgozáshoz. Akár a szkennelt PDF-t a Word-be kell átalakítania a szerkesztéshez vagy egyszerűen szeretné a Scanned PDF dokumentumot a WORD-ba átváltani, ezek a módszertanok értékes támogatást nyújtanak. Azok számára, akik megkérdezik, Hogyan alakítom át a skannált PDF -t?, a fent említett eszközök erőteljesen útmutatják Önt a folyamaton keresztül.

PDF forgatókönyv a Word konverzióra

Végül, a legmegfelelőbb megoldásokhoz vizsgálja meg, hogyan lehet konvertálni a szkennelt PDF fájlt a Word vagy használjon egy C# Text Recognition Library a dokumentumfeldolgozási képességek javítása érdekében. Ezek az erőforrások hasznosnak bizonyulnak bárki számára, aki rendszeresen foglalkozik a skannált dokumentumaival.

More in this category