Aspose.PDF Text Extractor Plugin for .NET은 개발자가 다양한 형식의 PDF 문서에서 텍스트를 프로그래밍적으로 추출 할 수있는 강력한 도구입니다.이 플러그인은 구조화 된, 평평한 또는 원료 문서를 필요로하는지 여부에 관계없이 유연한 출력 모드와 무제한 통합을 제공합니다.
소개
Aspose.PDF Text Extractor Plugin for .NET은 개발자가 최대한의 유연성으로 PDF 파일에서 텍스트 콘텐츠를 쉽게 추출하는 데 도움이되도록 설계되었습니다.이 도구는 수많은 인출 모드를 지원합니다 - 순수 (포맷), 원료 (예) 또는 평평 (깨끗) - 문서 변환, 데이터 광산 및 접근성 개선과 같은 다양한 사용 사례에 적합합니다.
Aspose.PDF 텍스트 추출기 플러그인 키 기능
수많은 추출 모드- 당신의 필요에 맞게 순수한 (포맷), 원료 (as-is) 또는 평면 (깨끗한) 형식으로 텍스트를 추출하십시오.
배치 PDF 처리- 효율적인 작업 흐름을 위해 동시에 여러 PDF 파일을 처리합니다.
간단한 .NET 통합- 플러그인을 C# 또는 .NET 프로젝트에 쉽게 통합하십시오.
Aspose.PDF 텍스트 추출기 플러그인으로 시작
- .NET을 위한 Aspose.PDF 설치NuGet를 통해 .NET 솔루션에 세트를 추가하거나 다운로드합니다.
- 당신의 라이센스를 설정하십시오무제한 처리 및 지원을 위해 플러그인을 활성화합니다.
- 추출 옵션 설정사용하기
TextExtractor
그리고TextExtractorOptions
클래스는 원하는대로 추출 모드를 설정합니다 (순수, 원료, 평평). - 프로세스 및 리트리브 텍스트결과 컨테이너 컬렉션을 통해 텍스트 추출 및 액세스 결과를 실행합니다.
예: PDF에서 텍스트를 추출 (C#)
Aspose.PDF을 사용하여 단일 PDF 파일에서 텍스트를 추출하려면 다음과 같은 예를 따르십시오.
using Aspose.Pdf.Plugins;
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource("C:\\Samples\\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);
예: 여러 PDF에서 배치 추출 텍스트
여러 PDF 파일을 배치 처리하려면 다음과 같은 예를 사용하십시오 :
string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}
Cases & Extensions 사용하기
- PDF에서 TXT로 변환: 인덱스, 검색 또는 아카이브를 위해 PDF를 깔끔한 텍스트로 자동으로 전환합니다.
- 데이터 광산: 추가 처리 또는 분석을 위해 테이블 데이터, 청구서 또는 양식을 추출합니다.
- 접근성: 스크린 리더 또는 대체 형식의 읽을 수 있는 콘텐츠를 준비하십시오.
- Batch Processing: 특정 downstream 작업 흐름을 위해 추출 모드를 사용하십시오 (예 : OCR 사전 처리, 엔티 인식).
모범 사례
항상 출력 요구 사항을 바탕으로 적절한 추출 모드를 선택합니다.대규모 문서 세트의 경우, 배치 처리는 통과량을 최대화하고 수동 노력을 최소화 할 수 있습니다.실제 PDF 결과를 테스트하여 데이터 정확성을 보장하십시오.