PDF 문서는 다양한 비즈니스 프로세스에 필수적이며, 종종 스캔된 콘텐츠에 대한 프로그래밍적 접근이 필요합니다. 스캔된 PDF 파일에서 텍스트를 추출하는 것은 복잡한 작업이 될 수 있으며, 효과적인 도구의 필요성을 강조합니다. 이 튜토리얼에서는 신뢰할 수 있는 Aspose.OCR for .NET API를 사용하여 C#에서 PDF 문서의 OCR을 수행하고 텍스트를 추출하는 방법을 살펴보겠습니다. 이 API는 무료 평가를 위해 제공되는 주요 C# OCR PDF 추출 라이브러리입니다.

배울 내용

이 기사에서는 다음 주제를 다룰 것입니다:

  1. Aspose.OCR for .NET API 개요
  2. PDF의 OCR 및 텍스트 추출 단계
  3. PDF에서 OCR을 수행하고 텍스트 저장하는 방법
  4. OCR PDF를 Word로 변환하기
  5. OCR PDF를 JSON으로 변환하기

Aspose.OCR for .NET API 개요

우리는 스캔된 이미지, 스마트폰 사진 및 스크린샷에서 텍스트를 인식하도록 설계된 강력한 .NET PDF OCR APIAspose.OCR for .NET API를 활용할 것입니다. 이 API는 이미지를 텍스트로 변환할 뿐만 아니라 스캔에서 검색 가능한 PDF를 생성하고 인식된 텍스트의 철자 오류를 수정하여, 단 $99에 제공되는 가장 빠른 C# PDF OCR 솔루션 중 하나입니다.

이 API는 여러 OCR 작업을 위한 메서드를 제공하는 AsposeOcr 클래스를 특징으로 합니다. 특히, 지정된 PDF 문서에서 텍스트를 추출하는 데 필수적인 RecognizePdf(string, DocumentRecognitionSettings) 메서드가 있습니다. DocumentRecognitionSettings 클래스는 인식 프로세스를 사용자 정의할 수 있도록 하며, RecognitionResult 클래스는 인식 결과를 캡슐화합니다.

API의 DLL을 다운로드하거나 NuGet을 통해 설치할 수 있습니다:

PM> Install-Package Aspose.OCR

PDF의 OCR 및 텍스트 추출 단계 in C#

PDF 문서에서 OCR을 수행하고 인식된 텍스트를 추출하려면 다음 단계를 따르십시오:

  1. AsposeOcr 클래스의 인스턴스를 생성합니다.
  2. DocumentRecognitionSettings 클래스의 객체를 초기화합니다.
  3. OCR을 위한 언어를 지정합니다.
  4. 이미지 경로와 DocumentRecognitionSettings 객체를 전달하여 RecognizePdf() 메서드를 호출하여 RecognitionResult를 얻습니다.
  5. RecognitionResult 목록을 반복하여 식별된 텍스트를 표시합니다.

다음은 C#에서 PDF 문서의 OCR을 수행하고 인식된 텍스트를 추출하는 방법을 설명하는 예시입니다:

C#에서 PDF의 OCR 및 텍스트 추출

PDF에서 OCR을 수행하고 텍스트 저장하는 방법 in C#

PDF 문서에서 OCR을 수행하고 인식된 텍스트를 저장하려면 다음 단계를 따르십시오:

  1. AsposeOcr 클래스의 인스턴스를 생성합니다.
  2. DocumentRecognitionSettings 클래스의 객체를 초기화합니다.
  3. OCR을 위한 언어를 지정합니다.
  4. RecognizePdf() 메서드를 호출하여 RecognitionResult를 얻습니다.
  5. 출력 파일 경로, SaveFormatRecognitionResult 객체를 요구하는 SaveMultipageDocument() 메서드를 사용하여 텍스트를 저장합니다.

다음은 C#에서 PDF 문서의 OCR을 수행하고 인식된 텍스트를 저장하는 방법을 보여주는 예시입니다:

C#에서 PDF에서 OCR을 수행하고 텍스트 저장

OCR PDF를 Word로 변환하기 in C#

스캔된 PDF 문서를 Word로 변환하려면 이전에 설명한 단계와 동일한 단계를 따르되, 마지막 단계에서 SaveFormat.Docx를 지정합니다.

다음은 C#에서 PDF의 OCR을 수행하고 인식된 텍스트를 Word 문서로 저장하는 방법을 설명하는 예시입니다:

C#에서 OCR PDF 및 스캔된 PDF를 Word로 변환

OCR PDF를 JSON으로 변환하기 in C#

PDF 문서에서 인식된 텍스트를 JSON 파일로 저장하려면 이전 단계와 동일한 단계를 따르되, 마지막 단계에서 SaveFormat.Json을 지정합니다.

다음은 C#에서 PDF의 OCR을 수행하고 인식된 텍스트를 JSON 파일로 저장하는 방법을 보여주는 예시입니다:

무료 평가 라이센스 받기

제한 없이 Aspose.OCR for .NET API를 평가할 수 있는 무료 임시 라이센스를 받을 수 있습니다.

결론

이 튜토리얼에서는 PDF 문서에서 OCR을 수행하고 C#에서 PDF에서 텍스트를 추출하는 방법을 배웠습니다. 또한 인식된 텍스트를 TXT, DOCX, 및 JSON 파일로 저장하는 방법을 탐구했습니다. Aspose.OCR for .NET API에 대한 자세한 내용은 문서를 참조하십시오. 질문이 있으시면 포럼으로 문의해 주십시오.

참고 사항

Aspose.OCR for .NET API를 활용하면 청구서 처리 및 양식 처리 등 다양한 애플리케이션에서 C#으로 높은 정확도의 PDF OCR을 구현할 수 있습니다. 이 합리적인 .NET PDF OCR 솔루션은 애플리케이션에 OCR PDF 기능을 효율적으로 통합하려는 개발자에게 적합합니다.