Экстракция данных из единого PDF проста, но обработка тысяч заполненных форм документов требует прочной автоматизации. Aspose.PDF.FormExporter Plugin для .NET упрощает эту задачу, позволяя высокому объему обрабатывать и экспортировать данные формы в CSV или Excel файлы.

Введение

В современном мире, основанном на данных, извлечение информации из форматов PDF в массе является общим требованием для различных отраслей, таких как финансы, человеческие ресурсы и обслуживание клиентов. Ручно переинтегрирование данных из тысяч PDF не только тратит время, но и подвергается ошибкам. Aspose.PDF.FormExporter Plugin предлагает мощное решение, автоматизируя процесс экстракции и экспортировав данные полевых форм непосредственно в файлы CSV или Excel.

Почему нужно автоматически экспортировать PDF-форма?

  • Спасите бесчисленные часы: Ручное повторное введение данных является ошибочным и медленным.
  • Смогут аналитики в режиме реального времени: Совместим данные клиентов, человеческих ресурсов или финансов сразу.
  • Силовые рабочие потоки: Интегрируйте с инструментами BI, отчетом или дальнейшей обработкой в Excel.

Настройка ввода батареи: подготовка к экстракции высокого объема

Чтобы начать экспортный процесс, следуйте следующим шагам:

  • Directory Input: Поставьте все ваши PDF-форматы в одну папку (например, /Forms/Input/).
  • Выходный файл: Решите о целевом файл刓обычно .csv или .xlsx и Excel .
  • Плугин Инициатива: Настройка FormExporter и варианты для батареи операций.
using Aspose.Pdf.Plugins;
using System.IO;

// Folder containing input PDF forms
dir string inputDir = "@C:\Forms\Input";
string[] pdfFiles = Directory.GetFiles(inputDir, "*.pdf");

// Output file path (CSV)
string outputCsv = "@C:\Forms\exported-data.csv";

// Create the exporter plugin and options
var exporter = new FormExporter();
var exportOptions = new FormExporterValuesToCsvOptions();
exportOptions.AddOutput(new FileDataSource(outputCsv)); 

Export Loop: Экстракция данных из каждого PDF

Далее, итерируйте через каждый PDF-файл в входной директории и обрабатывайте их с помощью FormExporter:

foreach (var file in pdfFiles)
{
    exportOptions.AddInput(new FileDataSource(file));
}

// Batch export all at once
dynamic resultContainer = exporter.Process(exportOptions);
Console.WriteLine($"Exported data from {pdfFiles.Length} PDFs to {outputCsv}"); 

Тип: Экспортированный CSV будет содержать одну строку по PDF, с колоннами для каждого шаблона формы.

Управление ошибками и автоматизация

  • Поле пропущения: Если PDF-файлы имеют несовместимые формы, обзор и предварительно валидированную структуру.
  • Коррумпированные файлы: Добавить обработку исключений для записи и пропускать нечитаемые PDF-файлы.
  • Перформация: Для тысяч PDF-файлов делайте работу на части (например, 100 в один раз) и затем сливайте CSV.
  • Название файла: Зарегистрируйте фамильное имя PDF с каждым экспортируемым строком для отслеживаемости.

Развитые сценарии

Исследуйте передовые случаи использования, такие как экспорт в Excel или обработка файлов из нескольких папок:

  • Экспорт в Excel: Использование FormExporterValuesToExcelOptions Для .xlsx и выхода.
  • Процесс из множества папок: Повторно сканируйте субдиректории и сочетайте результаты.
  • Смешайте данные с другими источниками: После экспорта соедините данные CSV с SQL или аналитическими трубами.

Используйте случаи и лучшие практики

Применить методы автоматизации к сценариям реального мира:

  • Анализ данных: Автоматическая экстракция для опросов, на борту или обратной связи.
  • Операции: Групповые экспортные счета, формы HR или отчеты о соблюдении.
  • Архив: Экспорт формулирует данные для хранения, затем флатент/оптимизирует PDF с Оптимизатор.

FAQ

**Q: Можно ли экспортировать данные формы из сканированных PDF-файлов?**Ответ: Поддерживаются только PDF-файлы с интерактивными (AcroForm/XFA) полями. Для сканированных изображений запускайте OCR сначала, а затем используйте плагины текстового извлечения.

**Q: Как я эффективно обрабатываю сотни или тысячи файлов?**Ответ: Загрузите файлы в группы, используйте параллельную обработку, если это возможно, и всегда записывайте ошибки для файлов, которые не экспортируются.

More in this category