Datu ekstrakcija no viena PDF ir vienkārša, bet tūkstošiem veidlapas aizpildītu dokumentu apstrāde prasa spēcīgu automatizāciju. Aspose.PDF.FormExporter Plugin for .NET vienkāršo šo uzdevumu, ļaujot augsta apjoma kompleksa apstrādi un eksportu veidlapu datus uz CSV vai Excel failiem.

Introduction

Mūsdienās datus veltītajā pasaulē informācijas ekstrakcija no PDF veidlapām kopumā ir kopīga prasība dažādām nozarēm, piemēram, finanšu, HR un klientu apkalpošanas jomā. Manuāli atkārtoti ievadīšana no tūkstošiem PDF datiem ir ne tikai laika patēriņš, bet arī kļūdas. Aspose.PDF.FormExporter Plugin piedāvā spēcīgu risinājumu, automātiski izņemot procesu un eksportējot veidlapu lauka datumus tieši CSV vai Excel failus.

Kāpēc automātiski eksportēt PDF veidlapu?

  • Iegūstiet neskaitāmas stundas: Manuāla datu pārslēgšana ir kļūdaino un lēna.
  • Iegūstiet reālā laika analīzi: Vienlaikus apvienojiet klienta, HR vai finanšu datus.
  • Power Workflows: Integrēt ar BI rīkiem, ziņošanu vai turpmāku apstrādi Excel.

Batch Input Setup: sagatavošana augsta tilpuma ekstrakcijai

Lai sāktu batch eksporta procesu, sekojiet šādiem soļiem:

  • Directory Input: Ievietojiet visus PDF veidlapas vienā mapē (piemēram, /Forms/Input/).
  • Izceļošanas fails: Lēmums par galamērķa failu—tipiski .csv vai .xlsx un Excel.
  • Plugin Initialization: Iestatīt FormExporter un opcijas batch operācijai.
using Aspose.Pdf.Plugins;
using System.IO;

// Folder containing input PDF forms
dir string inputDir = "@C:\Forms\Input";
string[] pdfFiles = Directory.GetFiles(inputDir, "*.pdf");

// Output file path (CSV)
string outputCsv = "@C:\Forms\exported-data.csv";

// Create the exporter plugin and options
var exporter = new FormExporter();
var exportOptions = new FormExporterValuesToCsvOptions();
exportOptions.AddOutput(new FileDataSource(outputCsv)); 

Export Loop: izņemot datus no katras PDF

Tālāk iterējiet katru PDF failu ieejas direktorijā un apstrādājiet tos, izmantojot FormExporter:

foreach (var file in pdfFiles)
{
    exportOptions.AddInput(new FileDataSource(file));
}

// Batch export all at once
dynamic resultContainer = exporter.Process(exportOptions);
Console.WriteLine($"Exported data from {pdfFiles.Length} PDFs to {outputCsv}"); 

Tip: Eksportētais CSV satur vienu rindas uz PDF, ar kolonnām katram veidlapas laukumam.

kļūdu risināšanas un automācijas ieteikumi

  • Missing laukumi: Ja PDF ir nesaskaņas veidlapas, pārskats un iepriekš apstiprināta struktūra.
  • Korrupti faili: Pievienojiet izņēmuma apstrādi, lai ierakstītu un izslēgtu neatlasītos PDF failus.
  • Darbība: Tūkstošiem PDF, sadalīt darbu gabalos (piemēram, 100 vienlaicīgi) un apvienot CSV pēc tam.
  • File nosaukums: Reģistrējiet PDF failu nosaukumu ar katru eksportēto randi, lai nodrošinātu izsekojamību.

Augstākie scenāriji

Izpētīt uzlabotus lietojuma gadījumus, piemēram, eksportu uz Excel vai failu apstrādi no vairākiem mapiem:

  • Export uz Excel: Lietojiet FormExporterValuesToExcelOptions par .xlsx Izdevējs .
  • Process no vairākiem failiem: Atkārtoti skenē subdirektorijas un apvieno rezultātus.
  • Datu apvienošana ar citiem avotiem: Pēc eksporta pievienojiet CSV datus ar SQL vai analīzes caurulēm.

Izmantojiet gadījumus un labākās prakses

Piemērojiet automatizācijas metodes reālajiem scenārijiem:

  • Datu analīze: Automātiskā ekstrakcija aptaujām, uzbūvēm vai atsauksmes veidlapām.
  • Operācijas: Bulk eksporta rēķini, HR veidlapas vai atbilstības ziņojumi.
  • Arhīvs: Eksportēt datus uzglabāšanai, pēc tam plānot / optimizēt PDF ar Optimizer.

FAQ

**Q: Vai es varu eksportēt veidlapas datus no skenētiem PDF?**A: Tiek atbalstīti tikai PDF ar interaktīviem (AcroForm/XFA) laukiem. skenētiem attēliem vispirms izlaidiet OCR un pēc tam izmantojiet teksta ekstrakcijas plugins.

**Q: Kā es efektīvi apstrādāju simtiem vai tūkstošiem failu?**A: Sāciet failus grupās, ja iespējams, izmantojiet paralēli apstrādi un vienmēr ierakstiet kļūdas failām, kas nav eksporti.

More in this category