Витяг даних з одного PDF є простим, але обробка тисяч документів, заповнених формою, вимагає міцної автоматизації. Aspose.PDF.FormExporter Plugin для .NET упрощає цю роботу, дозволяючи переробку великого обсягу пакетів і експортувати дані форми до файлів CSV або Excel.
Введення
У сучасному світі, що керується даними, екстракція інформації з форматів PDF в цілому є загальним вимогою для різних галузей, таких як фінанси, людські ресурси та обслуговування клієнтів. Ручно реінтеграція даних з тисяч PDF не тільки витрачає час, але й схильна до помилок. Aspose.PDF.FormExporter Plugin пропонує потужне рішення шляхом автоматизації процесу видобутку і експортування даних полів форм безпосередньо в файли CSV або Excel.
Чому потрібно автоматично експортувати PDF-форму?
- Зберегти безліч годин: Ручний повторний вхід даних є помилковим і повільним.
- Відключити аналітику в реальному часі: Агрегація клієнтських, людських чи фінансових даних відразу.
- Підтримка робочих потоків: Інтеграція з BI-інструментами, доповіддю або подальшою обробкою в Excel.
Налаштування входу батареї: підготовка до екстракції високого обсягу
Для того, щоб почати процес експорту штукатурки, слід дотримуватися наступних кроків:
- Directory Input: Покладіть всі форми PDF в одну папку (наприклад,
/Forms/Input/
). - Вихідний файл: Вибирає пункт призначення файлу— типово
.csv
або.xlsx
і Excel. - Плугин Ініціалізація: Налаштуйте
FormExporter
Використання варіантів для операцій батареї.
using Aspose.Pdf.Plugins;
using System.IO;
// Folder containing input PDF forms
dir string inputDir = "@C:\Forms\Input";
string[] pdfFiles = Directory.GetFiles(inputDir, "*.pdf");
// Output file path (CSV)
string outputCsv = "@C:\Forms\exported-data.csv";
// Create the exporter plugin and options
var exporter = new FormExporter();
var exportOptions = new FormExporterValuesToCsvOptions();
exportOptions.AddOutput(new FileDataSource(outputCsv));
Export Loop: Екстракція даних з кожного PDF
Потім, ітер через кожен PDF-файл в вхідному каталозі і обробляти їх за допомогою FormExporter
:
foreach (var file in pdfFiles)
{
exportOptions.AddInput(new FileDataSource(file));
}
// Batch export all at once
dynamic resultContainer = exporter.Process(exportOptions);
Console.WriteLine($"Exported data from {pdfFiles.Length} PDFs to {outputCsv}");
Тип: Експортований CSV буде містити один ряд на PDF, з колонками для кожного поля форми.
Використання помилок та автоматизації
- Полі, що втрачаються: Якщо PDF-файли мають невідповідні форми, перегляд і заздалегідь затверджена структура.
- Корумповані файли: Додайте обробку винятку для запису та пропуску нечистих PDF-файлів.
- Персонаж: Для тисяч PDF, розділіть роботу на штуки (наприклад, 100 одночасно) і поєднуйте CSV після цього.
- Назва файлу: Зареєструйте PDF-назва з кожним експортованим рядком для відстеження.
Розширені сценарії
Вивчайте передові випадки використання, такі як експорт до Excel або обробка файлів з декількох папок:
- Експорт до Excel: Використання
FormExporterValuesToExcelOptions
Для.xlsx
В результаті. - Процес з декількох папок: Повторно сканувати підрозділи і поєднувати результати.
- Змішайте дані з іншими джерелами: Після експорту, з’єднайте дани CSV з SQL або аналітичними трубопроводами.
Використання випадків і кращих практик
Використовуйте технології автоматизації для реальних сценаріїв:
- Аналіз даних: Автоматична екстракція для опитувань, наборів або форм відгуків.
- Операції: Масові експортні рахунки, форми персоналу або звіти про дотримання.
- Архів: Експорт формує дані для зберігання, а потім флатен/оптимізує PDF-файли з Оптимізатор.
FAQ
**Q: Чи можу я експортувати дані форми з сканованих PDF-файлів?**Відповідь: Підтримуються тільки PDF-файли з інтерактивними (AcroForm/XFA) полями. для сканованих зображень, спочатку запустіть OCR, а потім використовуйте текстові екстракційні плагіни.
**Q: Як ефективно обробляти сотні або тисячі файлів?**Відповідь: Завантажуйте файли в групи, використовуйте паралельну обробку, якщо це можливо, і завжди записуйте помилки для файлів, які не експортуються.