Convert Scanned PDF to Word in C#

소개

스캔된 PDF 파일은 종종 텍스트를 이미지로 저장하므로 내용을 선택하거나 편집하거나 복사할 수 없습니다. 스캔된 PDF를 편집 가능한 Word 문서로 변환해야 하는 경우, 광학 문자 인식(OCR) 기술은 원래 형식을 유지하면서 텍스트를 추출하는 효율적인 방법을 제공합니다. 이 기사에서는 Aspose.OCR for .NETAspose.Words for .NET 라이브러리를 사용하여 C#으로 스캔된 PDF를 Word(DOCX 또는 DOC)로 프로그래밍 방식으로 변환하는 방법을 배웁니다.

스캔된 PDF를 Word로 변환하는 이유

스캔된 PDF를 Word 문서로 변환하는 데는 여러 가지 설득력 있는 이유가 있습니다:

  • 스캔된 문서 쉽게 편집: 수동으로 다시 입력하는 번거로움 없이 텍스트를 수정합니다.
  • 추가 처리 위한 텍스트 추출: 분석이나 기타 애플리케이션에 사용할 수 있는 추출된 텍스트를 활용합니다.
  • 레이아웃 및 형식 유지: 편집 가능하게 만들면서 원래 문서의 구조를 유지합니다.
  • OCR 기반 문서 처리 자동화: 이 기능을 C# 애플리케이션에 원활하게 통합합니다.

목차

  1. 스캔된 PDF에서 Word로 변환을 위한 OCR API 설정
  2. 스캔된 PDF를 편집 가능한 Word 문서로 변환
  3. OCR 변환에서 형식 유지
  4. 스캔된 PDF에서 여러 페이지 처리
  5. 전체 OCR 정확도를 위한 라이센스
  6. 결론 및 추가 자료

1. 스캔된 PDF에서 Word로 변환을 위한 OCR API 설정

스캔된 PDF에서 텍스트를 추출하고 이를 Word 문서로 변환하기 위해 다음을 활용합니다:

  • Aspose.OCR for .NET – 스캔된 이미지에서 텍스트를 인식하는 강력한 도구입니다.
  • Aspose.Words for .NET – 이 라이브러리는 추출된 텍스트를 Word 형식으로 변환합니다.

설치

다음 명령어를 사용하여 NuGet을 통해 이러한 API를 쉽게 설치할 수 있습니다:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

또는 Aspose 다운로드 페이지에서 DLL을 다운로드할 수 있습니다.


2. 스캔된 PDF를 편집 가능한 Word 문서로 변환

다음 단계를 따라 C#에서 스캔된 PDF 파일을 Word(DOCX 또는 DOC)로 변환합니다:

  1. AsposeOcrOCR 초기화.
  2. DocumentRecognitionSettings를 사용하여 텍스트 추출.
  3. StringBuilder인식된 텍스트 저장.
  4. Aspose.Words를 사용하여 Word 문서 생성.
  5. 형식 적용 및 DOCX 또는 DOC로 저장.

코드 샘플

다음은 스캔된 PDF를 Word로 변환하는 C# 예제입니다:


3. OCR 변환에서 형식 유지

OCR 텍스트 추출은 강력하지만 원래 형식, 글꼴 및 스타일을 항상 유지하지는 않을 수 있습니다. 정확한 형식을 보장하기 위해 다음 팁을 고려하십시오:

  • Aspose.Words 문단 스타일을 활용하여 일관된 텍스트 형식 적용.
  • 글꼴 속성 설정: 크기, 볼드체, 이탤릭체 및 정렬.
  • 페이지 여백 및 레이아웃 조정: 향상된 Word 문서 출력을 위해.

4. 스캔된 PDF에서 여러 페이지 처리

다중 페이지 스캔된 PDF의 경우, 모든 페이지의 텍스트를 처리하고 단일 Word 문서로 병합하는 것이 중요합니다. 이를 달성하기 위해:

  • 스캔된 PDF의 각 페이지를 반복합니다.
  • 페이지별로 텍스트 인식하고 StringBuilder에 저장합니다.
  • 인식된 텍스트를 Word 문서에 추가합니다.

이 접근 방식은 원활한 다중 페이지 PDF에서 Word로 변환을 보장합니다.


5. 전체 OCR 정확도를 위한 라이센스

기본적으로 Aspose.OCR은 평가 모드에서 작동하므로 텍스트 인식 정확도가 제한될 수 있습니다. API의 전체 잠재력을 잠금 해제하려면:

🔹 평가 목적으로 **무료 임시 라이센스**를 요청하십시오.


6. 결론 및 추가 자료

요약

이 가이드에서는 다음을 다루었습니다:

스캔된 PDF 처리를 위한 Aspose.OCR 설정
C#에서 스캔된 PDF의 텍스트 추출
형식이 지정된 Word 문서로 인식된 텍스트 변환
다중 페이지 스캔된 PDF에서 Word로 변환 처리


Aspose.OCR 및 Aspose.Words를 활용하여 이미지 기반 PDF를 편집 가능한 Word 파일로 손쉽게 변환할 수 있습니다. 오늘 $99에 .NET에서 OCR 기반 PDF에서 Word 변환기를 구축하기 시작하세요! 🚀