Ekstrakcja danych z jednego pliku PDF jest prosta, ale obsługa tysięcy dokumentów wypełnionych formularzem wymaga solidnej automatyzacji. Aspose.PDF.FormExporter Plugin dla .NET ułatwia tę pracę poprzez umożliwienie przetwarzania dużych obrotów i eksportowania danych formularza do plików CSV lub Excel.

Wprowadzenie

W dzisiejszym świecie opartym na danych wydobywanie informacji z formularzy PDF w dużej ilości jest powszechnym wymogiem dla różnych branż, takich jak finanse, HR i obsługa klienta. ręczne ponowne wprowadzanie danych z tysięcy plików PDF jest nie tylko czasochłonne, ale także podatne na błędy. Aspose.PDF.FormExporter Plugin oferuje potężne rozwiązanie poprzez automatyzację procesu ekstrakcji i eksportowanie danych pola formularza bezpośrednio do pliku CSV lub Excel.

Dlaczego automatycznie eksportować formularz PDF?

  • Oszczędzaj niezliczone godziny: Ręczne ponowne wprowadzanie danych jest błędne i powolne.
  • Umożliwia analizę w czasie rzeczywistym: Zgromadź dane klientów, pracowników lub finansów natychmiast.
  • Power workflows: Integruj się z narzędziami BI, raportowaniem lub dalszym przetwarzaniem w programie Excel.

Batch Input Setup: Przygotowanie do ekstrakcji dużego objętości

Aby rozpocząć proces eksportu paczki, postępuj zgodnie z następującymi krokami:

  • Wprowadzenie bezpośrednie: Umieścić wszystkie formularze PDF w jednym folderze (np. /Forms/Input/).
  • File wyjściowe: Decyduje o pliku docelowym—typowo .csv lub .xlsx z Excelem .
  • Plugin Initialization: Ustaw FormExporter i opcje operacji batchowych.
using Aspose.Pdf.Plugins;
using System.IO;

// Folder containing input PDF forms
dir string inputDir = "@C:\Forms\Input";
string[] pdfFiles = Directory.GetFiles(inputDir, "*.pdf");

// Output file path (CSV)
string outputCsv = "@C:\Forms\exported-data.csv";

// Create the exporter plugin and options
var exporter = new FormExporter();
var exportOptions = new FormExporterValuesToCsvOptions();
exportOptions.AddOutput(new FileDataSource(outputCsv)); 

Export Loop: ekstrakcja danych z każdego pliku PDF

Następnie iteruj przez każdy plik PDF w katalogu wejściowym i przetwarzaj je za pomocą FormExporter:

foreach (var file in pdfFiles)
{
    exportOptions.AddInput(new FileDataSource(file));
}

// Batch export all at once
dynamic resultContainer = exporter.Process(exportOptions);
Console.WriteLine($"Exported data from {pdfFiles.Length} PDFs to {outputCsv}"); 

Typ: Eksportowane CSV będzie zawierać jedną kolejkę na PDF, z kolumnami dla każdego pola formularza.

Rozwiązanie błędu i automatyzacja

  • Pole pominięcia: Jeśli pliki PDF mają niezgodne formularze, przegląd i wstępnie zatwierdzona struktura.
  • Złamane pliki: Dodaj obsługę wyjątków do logowania się i przełączania nieczytelnych plików PDF.
  • Wynagrodzenie: Dla tysięcy plików PDF, podziel pracę na zestawy (np. 100 na raz) i połącz CSV.
  • Nazwa pliku: Zarejestruj nazwę plików PDF z każdym wyeksportowanym rzędem w celu uzyskania śledzenia.

Zaawansowane scenariusze

Odkryj zaawansowane przypadki użytkowania, takie jak eksportowanie do programu Excel lub przetwarzanie plików z wielu folderów:

  • Export do programu Excel: Użyj FormExporterValuesToExcelOptions Dla .xlsx Wydajność .
  • Proces z wielu folderów: Powtarzające się skanowanie poddyrektorii i łączenie wyników.
  • Zmieszanie danych z innymi źródłami: Po eksporcie, połączyć dane CSV z SQL lub rurociągi analityczne.

Korzystanie z przypadków i najlepszych praktyk

Zastosuj techniki automatyzacji do scenariuszy świata rzeczywistego:

  • Analiza danych: Automatyczna ekstrakcja do ankiet, na pokładzie lub formularzy zwrotnych.
  • Operacje: Bilety eksportowe masowe, formularze HR lub sprawozdania z zgodności.
  • Archiwum: Eksportuj formularz danych do przechowywania, a następnie płyty / optymalizuj pliki PDF z Optymalizator.

FAQ

**Q: Czy mogę wyeksportować dane formularza z skanowanych plików PDF?**Odpowiedź: Wspierane są tylko pliki PDF z interaktywnymi polami (AcroForm/XFA).W przypadku skanowanych obrazów, najpierw uruchom OCR, a następnie użyj wtyczek do ekstrakcji tekstu.

**Q: Jak przetwarzać setki lub tysiące plików efektywnie?**Odpowiedź: Zgromadź pliki w grupach, jeśli to możliwe, użyj równoległego przetwarzania i zawsze rejestruj błędy dla plików, które nie eksportowały.

More in this category