Extract Text from PDF C#

PDF 파일에서 텍스트를 추출하는 것은 문서 처리 작업에서 일반적인 요구사항입니다. 이 문서에서는 C#에서 효율적이고 다재다능한 텍스트 추출을 위해 Aspose.PDF의 텍스트 추출기 플러그인을 사용하는 방법에 대한 심층 가이드를 제공합니다. 전체 문서, 특정 페이지 또는 정의된 영역에서 텍스트를 추출해야 할 경우, Aspose 플러그인은 최소한의 노력으로 고성능 PDF 텍스트 추출을 지원합니다.


다루는 기능


Aspose.PDF의 텍스트 추출기 플러그인 강조

Aspose.PDF의 텍스트 추출기 플러그인 for .NET은 PDF 문서에서 텍스트를 추출하기 위한 신뢰할 수 있는 솔루션입니다. 이는 .NET 애플리케이션에서 작업하는 개발자를 위해 특별히 설계되었으며, .NET Framework와 .NET Core PDF 텍스트 추출을 모두 지원합니다. 이 플러그인은 세 가지 작업 모드를 제공합니다:

  1. 순수 모드: 원래 형식과 구조를 유지하면서 텍스트를 추출합니다.
  2. 원시 모드: 형식 없이 텍스트를 추출합니다.
  3. 일반 모드: 텍스트를 추출하고 형식 및 특수 문자를 제거합니다.

이점

  • 여러 PDF에 대한 배치 처리를 지원합니다.
  • 특정 요구 사항을 충족하기 위한 사용자 정의 가능한 추출 설정을 제공합니다.
  • .NET 애플리케이션과의 직접적인 통합으로 원활한 워크플로우를 보장합니다.
  • 최소한의 자원 사용으로 고속, 정확한 텍스트 추출을 위해 최적화되었습니다.

C# PDF 텍스트 추출 라이브러리

Aspose.PDF for .NET 라이브러리는 고성능 C# PDF 텍스트 추출을 찾는 .NET 개발자를 위한 종합 도구입니다. NuGet을 통해 쉽게 설치할 수 있습니다:

PM> Install-Package Aspose.PDF

또는 DLL을 다운로드하여 프로젝트에 직접 통합하여 신뢰할 수 있는 C# PDF 텍스트 추출 솔루션을 제공할 수 있습니다.


C#에서 전체 PDF에서 텍스트 추출

PDF에서 모든 텍스트를 추출하려면 다음 단계를 따르세요:

  1. Document 클래스를 사용하여 PDF를 로드합니다.
  2. TextAbsorber 객체를 생성합니다.
  3. 모든 페이지에 흡수기를 적용합니다.
  4. 추출된 텍스트를 파일에 저장합니다.

예제 코드


PDF에서 특정 페이지의 텍스트 추출

단일 페이지에서 텍스트를 추출하려면:

  1. PDF를 로드합니다.
  2. TextAbsorber를 생성합니다.
  3. 원하는 페이지에 흡수기를 적용합니다.
  4. 추출된 텍스트를 저장합니다.

예제 코드


PDF에서 특정 영역의 텍스트 추출

페이지의 특정 영역에서 텍스트를 추출하려면 직사각형 좌표를 정의해야 합니다. 단계는 다음과 같습니다:

  1. PDF를 로드합니다.
  2. 정의된 영역에 대한 TextSearchOptions를 구성합니다.
  3. 해당 영역에 TextAbsorber를 적용합니다.
  4. 추출된 텍스트를 저장합니다.

예제 코드


정규 표현식을 사용하여 텍스트 검색 및 추출

특정 패턴과 일치하는 텍스트를 정규 표현식을 사용하여 추출하려면:

  1. PDF를 로드합니다.
  2. 정규 표현식 패턴을 정의합니다.
  3. TextAbsorber를 사용하여 패턴을 적용합니다.
  4. 일치하는 텍스트 조각을 추출합니다.

예제 코드


C#에서 테이블 데이터로 텍스트 추출

테이블 내용을 추출하려면:

  1. PDF를 로드합니다.
  2. TableAbsorber를 사용하여 테이블 구조를 탐색합니다.
  3. 셀 단위로 텍스트를 추출합니다.

예제 코드


PDF에서 강조된 텍스트 추출

강조된 텍스트를 추출하려면:

  1. 주석을 반복합니다.
  2. TextMarkupAnnotation을 필터링합니다.
  3. 강조된 조각을 검색하고 저장합니다.

예제 코드


저메모리 사용으로 텍스트 추출 최적화

i) Reset()FreeMemory() 사용:

  1. 각 페이지를 처리한 후 absorber.Reset()를 호출합니다.
  2. page.FreeMemory()를 사용하여 페이지가 보유한 메모리를 해제합니다.

ii) MemorySaving 모드 사용:

PDF 텍스트 추출 중 메모리 사용을 최적화하기 위해 TextExtractionOptions.TextFormattingMode를 설정합니다.

예제 코드


무료 C# PDF 텍스트 추출 라이브러리

제한 없는 Aspose.PDF for .NET에 대한 무료 임시 라이센스를 받아 효율적인 C# PDF 텍스트 추출을 위한 모든 잠재력을 활용하세요.


결론

Aspose.PDF의 텍스트 추출기 플러그인 for .NET은 신뢰할 수 있는 텍스트 추출 작업을 위한 다재다능하고 효율적인 솔루션을 제공합니다. 전체 문서에서 특정 페이지 또는 영역에 이르기까지, 이 플러그인은 정밀성과 속도로 프로세스를 간소화하여 사용할 수 있는 최고의 C# PDF 텍스트 추출 라이브러리 중 하나입니다. 오늘 사용해 보시고 PDF 텍스트 추출 워크플로우를 단순화하세요, 단 $99입니다!