Витяг даних з одного PDF є простим, але обробка тисяч документів, заповнених формою, вимагає міцної автоматизації. Aspose.PDF.FormExporter Plugin для .NET упрощає цю роботу, дозволяючи переробку великого обсягу пакетів і експортувати дані форми до файлів CSV або Excel.

Введення

У сучасному світі, що керується даними, екстракція інформації з форматів PDF в цілому є загальним вимогою для різних галузей, таких як фінанси, людські ресурси та обслуговування клієнтів. Ручно реінтеграція даних з тисяч PDF не тільки витрачає час, але й схильна до помилок. Aspose.PDF.FormExporter Plugin пропонує потужне рішення шляхом автоматизації процесу видобутку і експортування даних полів форм безпосередньо в файли CSV або Excel.

Чому потрібно автоматично експортувати PDF-форму?

  • Зберегти безліч годин: Ручний повторний вхід даних є помилковим і повільним.
  • Відключити аналітику в реальному часі: Агрегація клієнтських, людських чи фінансових даних відразу.
  • Підтримка робочих потоків: Інтеграція з BI-інструментами, доповіддю або подальшою обробкою в Excel.

Налаштування входу батареї: підготовка до екстракції високого обсягу

Для того, щоб почати процес експорту штукатурки, слід дотримуватися наступних кроків:

  • Directory Input: Покладіть всі форми PDF в одну папку (наприклад, /Forms/Input/).
  • Вихідний файл: Вибирає пункт призначення файлу— типово .csv або .xlsx і Excel.
  • Плугин Ініціалізація: Налаштуйте FormExporter Використання варіантів для операцій батареї.
using Aspose.Pdf.Plugins;
using System.IO;

// Folder containing input PDF forms
dir string inputDir = "@C:\Forms\Input";
string[] pdfFiles = Directory.GetFiles(inputDir, "*.pdf");

// Output file path (CSV)
string outputCsv = "@C:\Forms\exported-data.csv";

// Create the exporter plugin and options
var exporter = new FormExporter();
var exportOptions = new FormExporterValuesToCsvOptions();
exportOptions.AddOutput(new FileDataSource(outputCsv)); 

Export Loop: Екстракція даних з кожного PDF

Потім, ітер через кожен PDF-файл в вхідному каталозі і обробляти їх за допомогою FormExporter:

foreach (var file in pdfFiles)
{
    exportOptions.AddInput(new FileDataSource(file));
}

// Batch export all at once
dynamic resultContainer = exporter.Process(exportOptions);
Console.WriteLine($"Exported data from {pdfFiles.Length} PDFs to {outputCsv}"); 

Тип: Експортований CSV буде містити один ряд на PDF, з колонками для кожного поля форми.

Використання помилок та автоматизації

  • Полі, що втрачаються: Якщо PDF-файли мають невідповідні форми, перегляд і заздалегідь затверджена структура.
  • Корумповані файли: Додайте обробку винятку для запису та пропуску нечистих PDF-файлів.
  • Персонаж: Для тисяч PDF, розділіть роботу на штуки (наприклад, 100 одночасно) і поєднуйте CSV після цього.
  • Назва файлу: Зареєструйте PDF-назва з кожним експортованим рядком для відстеження.

Розширені сценарії

Вивчайте передові випадки використання, такі як експорт до Excel або обробка файлів з декількох папок:

  • Експорт до Excel: Використання FormExporterValuesToExcelOptions Для .xlsx В результаті.
  • Процес з декількох папок: Повторно сканувати підрозділи і поєднувати результати.
  • Змішайте дані з іншими джерелами: Після експорту, з’єднайте дани CSV з SQL або аналітичними трубопроводами.

Використання випадків і кращих практик

Використовуйте технології автоматизації для реальних сценаріїв:

  • Аналіз даних: Автоматична екстракція для опитувань, наборів або форм відгуків.
  • Операції: Масові експортні рахунки, форми персоналу або звіти про дотримання.
  • Архів: Експорт формує дані для зберігання, а потім флатен/оптимізує PDF-файли з Оптимізатор.

FAQ

**Q: Чи можу я експортувати дані форми з сканованих PDF-файлів?**Відповідь: Підтримуються тільки PDF-файли з інтерактивними (AcroForm/XFA) полями. для сканованих зображень, спочатку запустіть OCR, а потім використовуйте текстові екстракційні плагіни.

**Q: Як ефективно обробляти сотні або тисячі файлів?**Відповідь: Завантажуйте файли в групи, використовуйте паралельну обробку, якщо це можливо, і завжди записуйте помилки для файлів, які не експортуються.

More in this category