
소개
스캔된 PDF 파일은 종종 텍스트를 이미지로 저장하므로 내용을 선택하거나 편집하거나 복사할 수 없습니다. 스캔된 PDF를 편집 가능한 Word 문서로 변환해야 하는 경우, 광학 문자 인식(OCR) 기술은 원래 형식을 유지하면서 텍스트를 추출하는 효율적인 방법을 제공합니다. 이 기사에서는 Aspose.OCR for .NET 및 Aspose.Words for .NET 라이브러리를 사용하여 C#으로 스캔된 PDF를 Word(DOCX 또는 DOC)로 프로그래밍 방식으로 변환하는 방법을 배웁니다.
스캔된 PDF를 Word로 변환하는 이유
스캔된 PDF를 Word 문서로 변환하는 데는 여러 가지 설득력 있는 이유가 있습니다:
- 스캔된 문서 쉽게 편집: 수동으로 다시 입력하는 번거로움 없이 텍스트를 수정합니다.
- 추가 처리 위한 텍스트 추출: 분석이나 기타 애플리케이션에 사용할 수 있는 추출된 텍스트를 활용합니다.
- 레이아웃 및 형식 유지: 편집 가능하게 만들면서 원래 문서의 구조를 유지합니다.
- OCR 기반 문서 처리 자동화: 이 기능을 C# 애플리케이션에 원활하게 통합합니다.
목차
- 스캔된 PDF에서 Word로 변환을 위한 OCR API 설정
- 스캔된 PDF를 편집 가능한 Word 문서로 변환
- OCR 변환에서 형식 유지
- 스캔된 PDF에서 여러 페이지 처리
- 전체 OCR 정확도를 위한 라이센스
- 결론 및 추가 자료
1. 스캔된 PDF에서 Word로 변환을 위한 OCR API 설정
스캔된 PDF에서 텍스트를 추출하고 이를 Word 문서로 변환하기 위해 다음을 활용합니다:
- Aspose.OCR for .NET – 스캔된 이미지에서 텍스트를 인식하는 강력한 도구입니다.
- Aspose.Words for .NET – 이 라이브러리는 추출된 텍스트를 Word 형식으로 변환합니다.
설치
다음 명령어를 사용하여 NuGet을 통해 이러한 API를 쉽게 설치할 수 있습니다:
PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words
또는 Aspose 다운로드 페이지에서 DLL을 다운로드할 수 있습니다.
2. 스캔된 PDF를 편집 가능한 Word 문서로 변환
다음 단계를 따라 C#에서 스캔된 PDF 파일을 Word(DOCX 또는 DOC)로 변환합니다:
AsposeOcr
로 OCR 초기화.DocumentRecognitionSettings
를 사용하여 텍스트 추출.StringBuilder
에 인식된 텍스트 저장.Aspose.Words
를 사용하여 Word 문서 생성.- 형식 적용 및 DOCX 또는 DOC로 저장.
코드 샘플
다음은 스캔된 PDF를 Word로 변환하는 C# 예제입니다:
3. OCR 변환에서 형식 유지
OCR 텍스트 추출은 강력하지만 원래 형식, 글꼴 및 스타일을 항상 유지하지는 않을 수 있습니다. 정확한 형식을 보장하기 위해 다음 팁을 고려하십시오:
- Aspose.Words 문단 스타일을 활용하여 일관된 텍스트 형식 적용.
- 글꼴 속성 설정: 크기, 볼드체, 이탤릭체 및 정렬.
- 페이지 여백 및 레이아웃 조정: 향상된 Word 문서 출력을 위해.
4. 스캔된 PDF에서 여러 페이지 처리
다중 페이지 스캔된 PDF의 경우, 모든 페이지의 텍스트를 처리하고 단일 Word 문서로 병합하는 것이 중요합니다. 이를 달성하기 위해:
- 스캔된 PDF의 각 페이지를 반복합니다.
- 페이지별로 텍스트 인식하고
StringBuilder
에 저장합니다. - 인식된 텍스트를 Word 문서에 추가합니다.
이 접근 방식은 원활한 다중 페이지 PDF에서 Word로 변환을 보장합니다.
5. 전체 OCR 정확도를 위한 라이센스
기본적으로 Aspose.OCR은 평가 모드에서 작동하므로 텍스트 인식 정확도가 제한될 수 있습니다. API의 전체 잠재력을 잠금 해제하려면:
🔹 평가 목적으로 **무료 임시 라이센스**를 요청하십시오.
6. 결론 및 추가 자료
요약
이 가이드에서는 다음을 다루었습니다:
✅ 스캔된 PDF 처리를 위한 Aspose.OCR 설정
✅ C#에서 스캔된 PDF의 텍스트 추출
✅ 형식이 지정된 Word 문서로 인식된 텍스트 변환
✅ 다중 페이지 스캔된 PDF에서 Word로 변환 처리
Aspose.OCR 및 Aspose.Words를 활용하여 이미지 기반 PDF를 편집 가능한 Word 파일로 손쉽게 변환할 수 있습니다. 오늘 $99에 .NET에서 OCR 기반 PDF에서 Word 변환기를 구축하기 시작하세요! 🚀