Convert Scanned PDF to Word in C#

Introducere

Fișierele PDF scanate conțin adesea text ca imagini, ceea ce face imposibil să selectați, să editați sau să copiați conținutul.Dacă aveți nevoie să convertiți PDF-urile scrise în documente Word editabile, tehnologia Recunoașterii Caracterului Optic (OCR) oferă o modalitate eficientă de a extrage text în timp ce păstrează formatul original.În acest articol, veți învăța cum să conversați în mod programat PDFs scansate în Word (DOCX sau DOC) folosind C# cu Aspose.OCR pentru .NET și Words pentru bibliotecile .NET.

De ce să transformi PDF-urile scanate în Word?

Există mai multe motive obligatorii pentru a converti PDF-urile scanate în documente Word:

  • Easily Edit Scanned Documents: Modifică textul fără hassle de retipare manuală.
  • Texte extracte pentru prelucrarea ulterioară: Utilizați textul extras pentru analiză sau integrare în alte aplicații.
  • Să mențineți layout și formatare: păstrați structura documentului original, făcându-l editabil.
  • Procesarea automată a documentelor bazate pe OCR: Integrați această caracteristică fără întârziere în aplicațiile C#.

Tabelul conținutului

Setarea API-ului OCR pentru PDF scanat în conversie Word

Pentru a extrage textul din PDF-urile scanate și pentru a le converti în documente Word, vom folosi:

Instalare

Puteți instala cu ușurință aceste API prin NuGet cu următoarele comenzi:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

Alternativ, puteți descărca DLL-urile din Aspose pagina de descărcare.

Convertați PDF scanat în Document Word Editable

Urmați aceste pași pentru a converti fișierele PDF scanate în Word (DOCX sau DOC) în C#:

  • Initialize OCR cu AsposeOcr.
  • Texte extract folosind DocumentRecognitionSettings.
  • Store recunoscut text în a StringBuilder.
  • Creați un document Word folosind Aspose.Words.
  • Aplicați formatul și salvați ca DOCX sau DOC.

Sample de cod

Iată un exemplu C# care demonstrează conversia PDF scanată la Word:

Conservarea formatării în OCR Conversion

În timp ce extracția de text OCR este puternică, nu poate păstra întotdeauna formatul original, fonturile și stilurile. Pentru a asigura formarea corectă, luați în considerare următoarele sfaturi:

  • Utilizați Aspose.Words Paragraf Stile pentru a aplica formatul text consistent.
  • Setă proprietăți de font cum ar fi dimensiunea, boldul, italica și alinierea.
  • Adaptați marginea paginii și layout-ul pentru o performanță îmbunătățită a documentului Word.

Gestionarea mai multor pagini în PDF-uri scanate

Pentru PDF-urile scanate pe mai multe pagini, este esențial să procesăm și să combinăm textul din toate paginile într-un singur document Word.

  • Călătorește prin fiecare pagină în PDF scanat.
  • Recunoașteți textul pe pagină și stocați-l într-un StringBuilder.
  • Add recunoscut text la documentul Word.

Această abordare asigură conversia multi-pagini PDF în Word.

Licența pentru precizia completă a OCR

În mod implicit, Aspose.OCR funcționează în modul de evaluare, care poate limita precizia recunoașterii textului.

Request a Free Temporary License pentru scopuri de evaluare.

Conclusie și resurse suplimentare

Rezumatul

În acest ghid, am acoperit:

  • Setare Aspose.OCR pentru prelucrarea PDF scanată
  • Extrage text din PDF-uri scanate în C#
  • Conversie text recunoscut într-un document Word format
  • Gestionarea mai multe pagini scanate PDF în Word conversie

Prin utilizarea Aspose.OCR și Aspoze.Words, puteți converti fără efort PDF-urile pe bază de imagine în fișiere Word editabile. Începeți să construiți PDF-ul dvs. în Word converter în .NET astăzi pentru doar $99!

Sfaturi suplimentare pentru conversia scanată PDF

Dacă căutați modalități de a vă îmbunătăți fluxul de lucru, luați în considerare utilizarea capacităților C# OCR PDF în Text sau C# PDF la DOCX pentru mai multe soluții de prelucrare avansată. fie că aveți nevoie de convert PDF scanat în Word pentru editare, sau pur și simplu doriți să Convert documentul scanat în PDF , aceste metode oferă sprijin inestimabil.

Scanare PDF în Word Conversion

În cele din urmă, pentru mai multe soluții personalizate, explorați cum să convertiți fișierul PDF scanat în Word sau să utilizați o bibliotecă de recunoaștere a textului C# pentru a vă îmbunătăți capacitățile de prelucrare a documentelor. Aceste resurse se vor dovedi benefice pentru oricine se ocupă cu documentele scandate în mod regulat. Puteți folosi, de asemenea, instrumente C# PDF la DOCX pentru facilitarea conversiilor sau se bazează pe o metodă c# OCR PDF în Text de a simplifica fluxul de lucru al extracției text din imagini.

More in this category