Извличането на данни от един PDF е просто, но обработката на хиляди документи, попълнени с формуляр, изисква солидна автоматизация. Aspose.PDF.FormExporter Plugin за .NET опростява тази задача, като позволява висококачествена обработка и експортиране на данните от формата към CSV или Excel файлове.
Въведение
В днешния свят, базиран на данни, извличането на информация от PDF формуляри в масово е общото изискване за различни индустрии като финансите, човешките ресурси и обслужването на клиентите. ръчно преинтегриране на данните от хиляди PDF е не само времетраене, но и предразположено към грешки. Aspose.PDF.FormExporter Plugin предлага мощно решение, като автоматизира процеса на екстракция и изнася формата поле данни директно в CSV или Excel файлове.
Защо да изтеглите PDF формуляр?
- Спестете безброй часове: Ръчното повторно въвеждане на данни е предпазващо от грешки и бавно.
- Осигуряване на анализи в реално време: Агрегиране на данни за клиенти, човешки ресурси или финанси незабавно.
- Силни работни потоци: Интегриране с BI инструменти, докладване или по-нататъшна обработка в Excel.
Batch Input Setup: Подготовка за екстракция с висок обем
За да започнете процеса на износ на партида, следвайте следните стъпки:
- Directory Input: Поставете всички ваши PDF формуляри в една папка (напр.
/Forms/Input/
). - Изходни файлове: Решете за дестинацията на файла—обикновено
.csv
или.xlsx
(и на Excel. - Плугин инициализация: Настройване на
FormExporter
Възможности за батерията.
using Aspose.Pdf.Plugins;
using System.IO;
// Folder containing input PDF forms
dir string inputDir = "@C:\Forms\Input";
string[] pdfFiles = Directory.GetFiles(inputDir, "*.pdf");
// Output file path (CSV)
string outputCsv = "@C:\Forms\exported-data.csv";
// Create the exporter plugin and options
var exporter = new FormExporter();
var exportOptions = new FormExporterValuesToCsvOptions();
exportOptions.AddOutput(new FileDataSource(outputCsv));
Export Loop: Извличане на данни от всеки PDF
След това, iterate през всеки PDF файл в директорията за вход и ги обработва с помощта на FormExporter
:
foreach (var file in pdfFiles)
{
exportOptions.AddInput(new FileDataSource(file));
}
// Batch export all at once
dynamic resultContainer = exporter.Process(exportOptions);
Console.WriteLine($"Exported data from {pdfFiles.Length} PDFs to {outputCsv}");
Тип: Експортираният CSV ще съдържа един ред на PDF, с колони за всяко поле с формуляр.
Управление на грешки и автоматизация
- Пропускащи полета: Ако PDF-те имат несъвместими формуляри, преглед и предварително валидирана структура.
- Корумпирани файлове: Добавете обработка на изключения, за да се регистрирате и да пропуснете нечитаеми PDF.
- Перформация: За хиляди PDF файлове, разделяйте работата на парчета (например 100 наведнъж) и след това сливайте CSV.
- Име на файла: Запишете името на PDF с всяка експортирана линия за проследяване.
Разширени сценарии
Разгледайте усъвършенствани случаи на използване, като например експортиране към Excel или обработка на файлове от няколко папки:
- Износ към Excel: Използване
FormExporterValuesToExcelOptions
За.xlsx
в производството. - Процес от няколко папки: Повторно сканирайте поддиректориите и комбинирате резултатите.
- Смесване на данни с други източници: След износ, свържете CSV данните с SQL или аналитични тръбопроводи.
Използване на случаи и най-добри практики
Прилагайте техниките за автоматизация към реалния свят сценарии:
- Анализ на данни: Автоматично извличане за проучвания, на борда или обратна връзка.
- Операции: Масивни износни фактури, HR формуляри или отчети за съответствие.
- Архив: Износ формуляр данни за запазване, след това флатент/оптимизиране на PDF с Оптимизиране.
FAQ
**П: Мога ли да експортирам данни от скенираните PDF файлове?**A: Поддържа се само PDF с интерактивни (AcroForm/XFA) полета.За скенираните изображения, първо изпълнете OCR и след това използвайте плагини за извличане на текст.
**П: Как да обработвам стотици или хиляди файлове ефективно?**A: Бач файлове в групи, използвате паралелна обработка, ако е възможно, и винаги запис на грешки за файл, който не може да се експортира.