Convert Scanned PDF to Word in C#

Introducció

Els arxius PDF escanats sovint contenen text com a imatges, la qual cosa fa que sigui impossible seleccionar, editar o copiar el contingut. Si necessiteu convertir PDFs scannats en documents de Word editables, Tecnologia de reconeixement de caràcters òptics (OCR) ofereix una manera eficient d’extreure text mentre conserva el format original.

Per què convertir PDFs escanats en Word?

Hi ha diverses raons obligatòries per convertir els PDFs escanejats en documents de Word:

  • Edicionar fàcilment els documents escanats: Modificar el text sense l’hassle del retipament manual.
  • Texte extracte per a més processament: Utilitza el text extraït per analitzar o integrar-se en altres aplicacions.
  • Mantenir el disseny i la formatació: mantenir l’estructura del document original alhora que es fa editable.
  • Processament automàtic de documents basat en OCR: Integra aquesta funció sense cap dubte en les seves aplicacions C#.

Taula de continguts

Configuració de l’API OCR per a la conversió de PDF a Word

Per extreure text dels PDFs escanats i convertir-los en documents de Word, utilitzarem:

Instal·lació

Podeu instal·lar fàcilment aquestes API a través de NuGet amb els següents comandes:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

Alternativament, podeu descarregar els DLLs de la Descarrega la pàgina.

Convertir PDF escanat a Document Word Editable

Segueix aquests passos per convertir els arxius PDF escanats a Word (DOCX o DOC) en C#:

  • Initialitzar OCR amb AsposeOcr.
  • Extractar text utilitzant DocumentRecognitionSettings.
  • Store reconegut text en un StringBuilder.
  • Crear un document Word utilitzant Aspose.Words.
  • Aplicar el format i guardar com a DOCX o DOC.

Codi de mostra

Aquí teniu un exemple de C# que demostra la conversió de PDF escanada a Word:

Conservació de la formatació en conversió OCR

Encara que l’extracció de text OCR és potent, no sempre pot conservar el format original, fonts i estils. Per assegurar-se de forma exacta, considereu els següents consells:

  • Utilize Aspose.Words Paragraph Styles per aplicar formatatge de text coherent.
  • Set propietats de fonts com ara mida, valentia, italiques i alineament.
  • Ajustar les marges de pàgina i el disseny per millorar la producció del document Word.

Gestió de múltiples pàgines en PDFs escanats

Per a PDFs escanejats de múltiples pàgines, és fonamental processar i fusionar text de totes les pàgs en un únic document de Word.

  • Caminar a través de cada pàgina en el PDF escanejat.
  • Reconeix el text per pàgina i el emmagatzema en un StringBuilder.
  • Aplica el text reconegut al document de la paraula.

Aquest enfocament assegura la conversió de PDF a Word de múltiples pàgines.

Llicència per a la precisió OCR completa

Per default, Aspose.OCR funciona en el mode d’avaluació, que pot limitar la precisió del reconeixement de text. Per desbloquejar el ple potencial de l’API:

🔹 Sol·licita una [Llicència Temporària Gratuïta](https://purchase.aspose.com/llicencia temporal) per a finalitats d’avaluació.

Conclusions i recursos addicionals

Resum

En aquest guia, vam cobrir:

  • Instal·lació Aspose.OCR per a processament de PDF escanat
  • Extracció text de PDFs escanats en C#
  • Convertir Text reconegut en un document formatat de Word
  • Tractament Multi-page scanned PDF to Word conversion

Mitjançant l’aportació de Aspose.OCR i Aspoze.Words, pots convertir amb esforç PDFs basats en imatges en fitxers de Word editables. Començar la construcció del teu PDF a Word converter en .NET avui per només $99!

Consells addicionals per a la conversió de PDF escanada

Si vostè està buscant maneres d’amplir el seu flux de treball, considereu utilitzar C# OCR PDF a Text capacitats o C# PDF al DOCX solucions per a un processament més avançat. sigui que necessiteu convertir PDF escanejat a Word per editar, o simplement voleu Convertir document PDF en Word , aquests mètodes proporcionen un suport inestimable. per als qui pregunten, com es converteix un PDF scanat al Word?, les eines esmentades us guiaran sense esforç a través del procés.

Scanar PDF a Word Conversion

Finalment, per a més solucions personalitzades, exploreu com convertir un fitxer PDF escanejat a Word o utilitzeu una biblioteca de reconeixement de text C# per millorar les seves capacitats de processament de documents. Aquests recursos es mostraran útils per qualsevol persona que gestioni els documents escanats de forma regular. També podeu utilitzar eines de C# PDF a DOCX per facilitar les conversions o confiar en un mètode c# OCR PDF al Text que simplifiqui el flux de treball d’extracció del text de les imatges.

More in this category