단일 PDF에서 데이터를 추출하는 것은 간단하지만 수천 개의 양식으로 채워진 문서의 처리에는 강력한 자동화가 필요합니다. .NET을위한 Aspose.PDF.FormExporter 플러그인은 고량 배치 처리 및 CSV 또는 Excel 파일에 양식을 데이터로 수출 할 수 있도록이 작업을 단순화시킵니다.
소개
오늘날의 데이터 기반 세계에서 PDF 양식에서 정보를 대량으로 추출하는 것은 금융, 인적, 고객 서비스와 같은 다양한 산업 분야에서 일반적인 요구 사항입니다. 수천 개의 PDF에서 데이터를 수동으로 재입기는 시간을 소비하는 것뿐만 아니라 오류에 취약합니다. Aspose.PDF.FormExporter 플러그인은 인출 프로세스를 자동화하고 CSV 또는 Excel 파일에 직접 양식을 필드 데이터로 수출함으로써 강력한 솔루션을 제공 합니다.
왜 자동으로 PDF 양식을 수출합니까?
- 수많은 시간을 저장하십시오: 수동 데이터 재 입력은 오류가 발생하고 느린 것입니다.
- 실시간 분석을 가능하게 합니다: 고객, 인적 자원 또는 금융 데이터를 즉시 통합합니다.
- 강력 작업 흐름: Excel에서 BI 도구, 보고 또는 추가 처리와 통합합니다.
배치 입력 설정: 높은 볼륨 추출 준비
배치 수출 프로세스를 시작하려면 다음 단계를 따르십시오 :
- 디렉토리 입력: 모든 PDF 양식을 하나의 폴더에 넣으십시오 (예 :
/Forms/Input/
). - 출력 파일: 목적지 파일에 대해 결정~”일반적으로
.csv
또는.xlsx
엑셀 입니다. - 플러그인 이니셔티브: 설정
FormExporter
배치 작업을위한 옵션.
using Aspose.Pdf.Plugins;
using System.IO;
// Folder containing input PDF forms
dir string inputDir = "@C:\Forms\Input";
string[] pdfFiles = Directory.GetFiles(inputDir, "*.pdf");
// Output file path (CSV)
string outputCsv = "@C:\Forms\exported-data.csv";
// Create the exporter plugin and options
var exporter = new FormExporter();
var exportOptions = new FormExporterValuesToCsvOptions();
exportOptions.AddOutput(new FileDataSource(outputCsv));
Export Loop : 각 PDF에서 데이터 추출
다음으로, 입력 디렉토리에있는 각 PDF 파일을 통과하고 그들을 처리합니다. FormExporter
:
foreach (var file in pdfFiles)
{
exportOptions.AddInput(new FileDataSource(file));
}
// Batch export all at once
dynamic resultContainer = exporter.Process(exportOptions);
Console.WriteLine($"Exported data from {pdfFiles.Length} PDFs to {outputCsv}");
팁: 수출된 CSV에는 각 양식 필드에 대한 열이 포함된 PDF 당 하나의 라인이 포함됩니다.
오류 처리 및 자동화 팁
- 실패한 필드: PDF가 불일치 형식, 검토 및 사전 유효 구조가 있는 경우.
- 부패한 파일: 예외 처리 추가하여 읽을 수 없는 PDF를 로그 및 스카프합니다.
- 성능: 수천 개의 PDF를 위해, 작업을 배치로 나누십시오 (예를 들어, 한 번에 100 개) 그리고 그 후에 CSV를 결합합니다.
- 파일 이름: 추적 가능성을 위해 각 수출 라인과 함께 PDF 파일 이름을 기록합니다.
고급 시나리오
Excel에 수출하거나 여러 폴더에서 파일을 처리하는 것과 같은 고급 사용 사례를 탐색하십시오.
- Export to Excel: 사용하기
FormExporterValuesToExcelOptions
에 대 한.xlsx
출력 입니다 - 다중 폴더의 프로세스: 서브 디렉토리를 반복적으로 스캔하고 결과를 결합합니다.
- 다른 출처와 데이터를 결합하십시오: 수출 후 SQL 또는 분석 파이프라인으로 CSV 데이터에 연결합니다.
사용 사례 & 최고의 관행
현실 세계 시나리오에 자동화 기술을 적용하십시오 :
- 데이터 분석: 설문 조사, 탑승 또는 피드백 양식을 위한 자동 추출.
- 운영: 대량 수출 청구서, HR 양식 또는 준수 보고서.
- 아카이브: 수출 양식 데이터 보존, 그 다음 플래팅/최적화 PDF와 함께 최적화자.
FAQ
**Q: 스캔된 PDF에서 양식 데이터를 수출할 수 있습니까?**A: 인터랙티브 (AcroForm/XFA) 필드를 가진 PDF만 지원됩니다.스캔된 이미지의 경우 먼저 OCR를 실행한 다음 텍스트 추출 플러그인을 사용합니다.
**Q: 어떻게 수백 또는 수천 개의 파일을 효율적으로 처리합니까?**A: 그룹으로 파일을 배치하고, 가능한 경우 병렬 처리를 사용하며, 항상 수출하지 못한 파일에 대한 오류를 기록합니다.