Экстракция данных из единого PDF проста, но обработка тысяч заполненных форм документов требует прочной автоматизации. Aspose.PDF.FormExporter Plugin для .NET упрощает эту задачу, позволяя высокому объему обрабатывать и экспортировать данные формы в CSV или Excel файлы.
Введение
В современном мире, основанном на данных, извлечение информации из форматов PDF в массе является общим требованием для различных отраслей, таких как финансы, человеческие ресурсы и обслуживание клиентов. Ручно переинтегрирование данных из тысяч PDF не только тратит время, но и подвергается ошибкам. Aspose.PDF.FormExporter Plugin предлагает мощное решение, автоматизируя процесс экстракции и экспортировав данные полевых форм непосредственно в файлы CSV или Excel.
Почему нужно автоматически экспортировать PDF-форма?
- Спасите бесчисленные часы: Ручное повторное введение данных является ошибочным и медленным.
- Смогут аналитики в режиме реального времени: Совместим данные клиентов, человеческих ресурсов или финансов сразу.
- Силовые рабочие потоки: Интегрируйте с инструментами BI, отчетом или дальнейшей обработкой в Excel.
Настройка ввода батареи: подготовка к экстракции высокого объема
Чтобы начать экспортный процесс, следуйте следующим шагам:
- Directory Input: Поставьте все ваши PDF-форматы в одну папку (например,
/Forms/Input/
). - Выходный файл: Решите о целевом файл刓обычно
.csv
или.xlsx
и Excel . - Плугин Инициатива: Настройка
FormExporter
и варианты для батареи операций.
using Aspose.Pdf.Plugins;
using System.IO;
// Folder containing input PDF forms
dir string inputDir = "@C:\Forms\Input";
string[] pdfFiles = Directory.GetFiles(inputDir, "*.pdf");
// Output file path (CSV)
string outputCsv = "@C:\Forms\exported-data.csv";
// Create the exporter plugin and options
var exporter = new FormExporter();
var exportOptions = new FormExporterValuesToCsvOptions();
exportOptions.AddOutput(new FileDataSource(outputCsv));
Export Loop: Экстракция данных из каждого PDF
Далее, итерируйте через каждый PDF-файл в входной директории и обрабатывайте их с помощью FormExporter
:
foreach (var file in pdfFiles)
{
exportOptions.AddInput(new FileDataSource(file));
}
// Batch export all at once
dynamic resultContainer = exporter.Process(exportOptions);
Console.WriteLine($"Exported data from {pdfFiles.Length} PDFs to {outputCsv}");
Тип: Экспортированный CSV будет содержать одну строку по PDF, с колоннами для каждого шаблона формы.
Управление ошибками и автоматизация
- Поле пропущения: Если PDF-файлы имеют несовместимые формы, обзор и предварительно валидированную структуру.
- Коррумпированные файлы: Добавить обработку исключений для записи и пропускать нечитаемые PDF-файлы.
- Перформация: Для тысяч PDF-файлов делайте работу на части (например, 100 в один раз) и затем сливайте CSV.
- Название файла: Зарегистрируйте фамильное имя PDF с каждым экспортируемым строком для отслеживаемости.
Развитые сценарии
Исследуйте передовые случаи использования, такие как экспорт в Excel или обработка файлов из нескольких папок:
- Экспорт в Excel: Использование
FormExporterValuesToExcelOptions
Для.xlsx
и выхода. - Процесс из множества папок: Повторно сканируйте субдиректории и сочетайте результаты.
- Смешайте данные с другими источниками: После экспорта соедините данные CSV с SQL или аналитическими трубами.
Используйте случаи и лучшие практики
Применить методы автоматизации к сценариям реального мира:
- Анализ данных: Автоматическая экстракция для опросов, на борту или обратной связи.
- Операции: Групповые экспортные счета, формы HR или отчеты о соблюдении.
- Архив: Экспорт формулирует данные для хранения, затем флатент/оптимизирует PDF с Оптимизатор.
FAQ
**Q: Можно ли экспортировать данные формы из сканированных PDF-файлов?**Ответ: Поддерживаются только PDF-файлы с интерактивными (AcroForm/XFA) полями. Для сканированных изображений запускайте OCR сначала, а затем используйте плагины текстового извлечения.
**Q: Как я эффективно обрабатываю сотни или тысячи файлов?**Ответ: Загрузите файлы в группы, используйте параллельную обработку, если это возможно, и всегда записывайте ошибки для файлов, которые не экспортируются.