Извличането на данни от един PDF е просто, но обработката на хиляди документи, попълнени с формуляр, изисква солидна автоматизация. Aspose.PDF.FormExporter Plugin за .NET опростява тази задача, като позволява висококачествена обработка и експортиране на данните от формата към CSV или Excel файлове.

Въведение

В днешния свят, базиран на данни, извличането на информация от PDF формуляри в масово е общото изискване за различни индустрии като финансите, човешките ресурси и обслужването на клиентите. ръчно преинтегриране на данните от хиляди PDF е не само времетраене, но и предразположено към грешки. Aspose.PDF.FormExporter Plugin предлага мощно решение, като автоматизира процеса на екстракция и изнася формата поле данни директно в CSV или Excel файлове.

Защо да изтеглите PDF формуляр?

  • Спестете безброй часове: Ръчното повторно въвеждане на данни е предпазващо от грешки и бавно.
  • Осигуряване на анализи в реално време: Агрегиране на данни за клиенти, човешки ресурси или финанси незабавно.
  • Силни работни потоци: Интегриране с BI инструменти, докладване или по-нататъшна обработка в Excel.

Batch Input Setup: Подготовка за екстракция с висок обем

За да започнете процеса на износ на партида, следвайте следните стъпки:

  • Directory Input: Поставете всички ваши PDF формуляри в една папка (напр. /Forms/Input/).
  • Изходни файлове: Решете за дестинацията на файла—обикновено .csv или .xlsx (и на Excel.
  • Плугин инициализация: Настройване на FormExporter Възможности за батерията.
using Aspose.Pdf.Plugins;
using System.IO;

// Folder containing input PDF forms
dir string inputDir = "@C:\Forms\Input";
string[] pdfFiles = Directory.GetFiles(inputDir, "*.pdf");

// Output file path (CSV)
string outputCsv = "@C:\Forms\exported-data.csv";

// Create the exporter plugin and options
var exporter = new FormExporter();
var exportOptions = new FormExporterValuesToCsvOptions();
exportOptions.AddOutput(new FileDataSource(outputCsv)); 

Export Loop: Извличане на данни от всеки PDF

След това, iterate през всеки PDF файл в директорията за вход и ги обработва с помощта на FormExporter:

foreach (var file in pdfFiles)
{
    exportOptions.AddInput(new FileDataSource(file));
}

// Batch export all at once
dynamic resultContainer = exporter.Process(exportOptions);
Console.WriteLine($"Exported data from {pdfFiles.Length} PDFs to {outputCsv}"); 

Тип: Експортираният CSV ще съдържа един ред на PDF, с колони за всяко поле с формуляр.

Управление на грешки и автоматизация

  • Пропускащи полета: Ако PDF-те имат несъвместими формуляри, преглед и предварително валидирана структура.
  • Корумпирани файлове: Добавете обработка на изключения, за да се регистрирате и да пропуснете нечитаеми PDF.
  • Перформация: За хиляди PDF файлове, разделяйте работата на парчета (например 100 наведнъж) и след това сливайте CSV.
  • Име на файла: Запишете името на PDF с всяка експортирана линия за проследяване.

Разширени сценарии

Разгледайте усъвършенствани случаи на използване, като например експортиране към Excel или обработка на файлове от няколко папки:

  • Износ към Excel: Използване FormExporterValuesToExcelOptions За .xlsx в производството.
  • Процес от няколко папки: Повторно сканирайте поддиректориите и комбинирате резултатите.
  • Смесване на данни с други източници: След износ, свържете CSV данните с SQL или аналитични тръбопроводи.

Използване на случаи и най-добри практики

Прилагайте техниките за автоматизация към реалния свят сценарии:

  • Анализ на данни: Автоматично извличане за проучвания, на борда или обратна връзка.
  • Операции: Масивни износни фактури, HR формуляри или отчети за съответствие.
  • Архив: Износ формуляр данни за запазване, след това флатент/оптимизиране на PDF с Оптимизиране.

FAQ

**П: Мога ли да експортирам данни от скенираните PDF файлове?**A: Поддържа се само PDF с интерактивни (AcroForm/XFA) полета.За скенираните изображения, първо изпълнете OCR и след това използвайте плагини за извличане на текст.

**П: Как да обработвам стотици или хиляди файлове ефективно?**A: Бач файлове в групи, използвате паралелна обработка, ако е възможно, и винаги запис на грешки за файл, който не може да се експортира.

More in this category