Convert Scanned PDF to Word in C#

소개

스캔된 PDF 파일은 종종 이미지로 텍스트를 포함하여 콘텐츠를 선택, 편집 또는 복사하는 것이 불가능합니다. 스캔된 PDF를 편집 가능한 Word 문서로 변환해야 하는 경우, Optical Character Recognition (OCR) 기술은 원본 형식을 유지하는 동안 텍스트를 추출하는 효율적인 방법을 제공합니다.이 기사에서는 **프로젝트적으로 스캔된 PDF를 Word (DOCX 또는 DOC)로 변환하는 방법을 배우게됩니다. Aspose.OCR for .NETAspose.Words for .NET 도서관과 함께 C#**를 사용하여.

왜 스캔 된 PDF를 Word로 변환합니까?

스캔 된 PDF를 Word 문서로 변환하는 몇 가지 강력한 이유가 있습니다 :

  • Scaned Documents 편집하기 쉬운 방법: 수동 리티핑의 흔들림없이 텍스트를 변경합니다.
  • 다음 처리에 대한 텍스트 추출: 분석 또는 다른 응용 프로그램에 통합하기 위해 추출 된 텍스트를 사용합니다.
  • Layout 및 Formatting을 유지하십시오: 원본 문서의 구조를 유지하면서 편집 가능하게 합니다.
  • OCR 기반 자동 문서 처리: 이 기능을 C# 응용 프로그램에 무조건 통합하십시오.

테이블 콘텐츠

스캔된 PDF에서 Word 변환을 위한 OCR API 설정

스캔된 PDF에서 텍스트를 추출하고 Word 문서로 변환하려면 다음을 사용합니다.

  • Aspose.OCR for .NET - 스캔 된 이미지에서 텍스트를 인식하는 강력한 도구입니다.
  • Aspose.Words for .NET – 이 도서관은 추출 된 텍스트를 Word 형식으로 변환합니다.

설치

당신은 쉽게 다음 명령을 통해 NuGet를 통해 이러한 API를 설치할 수 있습니다 :

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

대신, 당신은 DLL에서 다운로드 할 수 있습니다. 아스포스 다운로드 페이지.

스캔된 PDF를 편집된 Word 문서로 변환

다음 단계를 따르십시오 C#로 스캔된 PDF 파일을 Word (DOCX 또는 DOC)로 변환하십시오:

  • OCR를 시작하십시오 AsposeOcr.
  • 텍스트 추출 사용 DocumentRecognitionSettings.
  • Store 인식 된 텍스트 에 A StringBuilder.
  • Word 문서를 만들기 사용하여 Aspose.Words.
  • 포맷을 적용하고 DOCX 또는 DOC로 저장합니다.

코드 샘플

다음은 스캔 된 PDF에서 Word 변환을 보여주는 C# 예입니다.

OCR 변환에서 포맷을 유지하는 방법

OCR 텍스트 추출이 강력하지만 항상 원본 형식, 글꼴 및 스타일을 유지할 수는 없습니다.정확한 형식을 보장하려면 다음 팁을 고려하십시오.

  • Aspose.Words Paragraph Styles를 사용하여 일관된 텍스트 형식을 적용합니다.
  • 그림 속성을 설정하십시오 크기, 용기, 이탈릭 및 조정과 같은.
  • 더 나은 Word 문서 출력을 위해 페이지 마진 및 레이아웃을 조정합니다.

스캔된 PDF에서 여러 페이지를 처리하는 방법

다수 페이지 스캔된 PDF에서는 모든 페이지에서 단일 Word 문서로 텍스트를 처리하고 결합하는 것이 중요합니다.

  • 스캔된 PDF에서 각 페이지를 통과하십시오.
  • 페이지별 텍스트를 인식하고에 저장합니다. StringBuilder.
  • 인식된 텍스트를 Word 문서에 추가합니다.

이 접근 방식은 외부 멀티 페이지 PDF에서 Word 변환을 보장합니다.

완전한 OCR 정확성에 대한 라이센스

기본적으로 Aspose.OCR은 텍스트 인식 정확도를 제한할 수 있는 평가 모드에서 작동합니다. API의 전체 잠재력을 해제하려면:

평가 목적으로 무료 임시 라이센스를 요청합니다.

결론 및 추가 자원

요약

이 가이드에서는 다음을 다루고 있습니다 :

  • 설정 Aspose.OCR 스캔된 PDF 처리
  • C#에서 스캔된 PDF에서 텍스트 추출
  • 인식된 텍스트를 형식화된 Word 문서로 변환
  • 처리 다양한 페이지 스캔 PDF에서 Word 변환

Aspose.OCR 및 ASPOSE.Words를 사용하면 쉽게 사진 기반 PDF를 편집 가능한 Word 파일로 변환할 수 있습니다. OCr가 지원하는 PDF에서 Word 변압기을 .NET에서 오늘 단지 $99에 구축하기 시작하세요!

스캔된 PDF 변환에 대한 추가 팁

작업 흐름을 향상시키는 방법을 찾고 있다면 C# OCR PDF to Text 기능을 사용하거나 더 진보된 처리 용 용도를 고려하십시오. 편집을 위해 스캔된 PDF를 Word로 변환해야 하는지, 또는 단순히 Scaned PDF Document to Word를 바꾸고 싶은지 여부, 이러한 방법은 귀중한 지원을 제공합니다. 질문하는 사람들에게, How do I convert a scanned pdf to word?, 언급된 도구는 절차를 쉽게 안내할 것입니다.

PDF에서 Word 변환으로 스캔

마지막으로, 더 많은 사용자 정의 솔루션을 찾으려면 스캔된 PDF 파일을 Word로 변환하거나 C# 텍스트 인식 라이브러리를 사용하여 문서 처리 능력을 향상시킬 수 있습니다.이 자원은 정기적으로 스캔 된 문서를 다루는 사람에게 유익한 것으로 나타납니다. C# PDF to DOCX 도구를 사용할 수 있으므로 변화를 촉진하거나 C # OCR PDF에서 テキスト 방법에 의존하여 이미지에서 테스트를 추출하는 작업 흐름을 단순화합니다.

More in this category