Ekstrakcja danych z jednego pliku PDF jest prosta, ale obsługa tysięcy dokumentów wypełnionych formularzem wymaga solidnej automatyzacji. Aspose.PDF.FormExporter Plugin dla .NET ułatwia tę pracę poprzez umożliwienie przetwarzania dużych obrotów i eksportowania danych formularza do plików CSV lub Excel.
Wprowadzenie
W dzisiejszym świecie opartym na danych wydobywanie informacji z formularzy PDF w dużej ilości jest powszechnym wymogiem dla różnych branż, takich jak finanse, HR i obsługa klienta. ręczne ponowne wprowadzanie danych z tysięcy plików PDF jest nie tylko czasochłonne, ale także podatne na błędy. Aspose.PDF.FormExporter Plugin oferuje potężne rozwiązanie poprzez automatyzację procesu ekstrakcji i eksportowanie danych pola formularza bezpośrednio do pliku CSV lub Excel.
Dlaczego automatycznie eksportować formularz PDF?
- Oszczędzaj niezliczone godziny: Ręczne ponowne wprowadzanie danych jest błędne i powolne.
- Umożliwia analizę w czasie rzeczywistym: Zgromadź dane klientów, pracowników lub finansów natychmiast.
- Power workflows: Integruj się z narzędziami BI, raportowaniem lub dalszym przetwarzaniem w programie Excel.
Batch Input Setup: Przygotowanie do ekstrakcji dużego objętości
Aby rozpocząć proces eksportu paczki, postępuj zgodnie z następującymi krokami:
- Wprowadzenie bezpośrednie: Umieścić wszystkie formularze PDF w jednym folderze (np.
/Forms/Input/
). - File wyjściowe: Decyduje o pliku docelowym—typowo
.csv
lub.xlsx
z Excelem . - Plugin Initialization: Ustaw
FormExporter
i opcje operacji batchowych.
using Aspose.Pdf.Plugins;
using System.IO;
// Folder containing input PDF forms
dir string inputDir = "@C:\Forms\Input";
string[] pdfFiles = Directory.GetFiles(inputDir, "*.pdf");
// Output file path (CSV)
string outputCsv = "@C:\Forms\exported-data.csv";
// Create the exporter plugin and options
var exporter = new FormExporter();
var exportOptions = new FormExporterValuesToCsvOptions();
exportOptions.AddOutput(new FileDataSource(outputCsv));
Export Loop: ekstrakcja danych z każdego pliku PDF
Następnie iteruj przez każdy plik PDF w katalogu wejściowym i przetwarzaj je za pomocą FormExporter
:
foreach (var file in pdfFiles)
{
exportOptions.AddInput(new FileDataSource(file));
}
// Batch export all at once
dynamic resultContainer = exporter.Process(exportOptions);
Console.WriteLine($"Exported data from {pdfFiles.Length} PDFs to {outputCsv}");
Typ: Eksportowane CSV będzie zawierać jedną kolejkę na PDF, z kolumnami dla każdego pola formularza.
Rozwiązanie błędu i automatyzacja
- Pole pominięcia: Jeśli pliki PDF mają niezgodne formularze, przegląd i wstępnie zatwierdzona struktura.
- Złamane pliki: Dodaj obsługę wyjątków do logowania się i przełączania nieczytelnych plików PDF.
- Wynagrodzenie: Dla tysięcy plików PDF, podziel pracę na zestawy (np. 100 na raz) i połącz CSV.
- Nazwa pliku: Zarejestruj nazwę plików PDF z każdym wyeksportowanym rzędem w celu uzyskania śledzenia.
Zaawansowane scenariusze
Odkryj zaawansowane przypadki użytkowania, takie jak eksportowanie do programu Excel lub przetwarzanie plików z wielu folderów:
- Export do programu Excel: Użyj
FormExporterValuesToExcelOptions
Dla.xlsx
Wydajność . - Proces z wielu folderów: Powtarzające się skanowanie poddyrektorii i łączenie wyników.
- Zmieszanie danych z innymi źródłami: Po eksporcie, połączyć dane CSV z SQL lub rurociągi analityczne.
Korzystanie z przypadków i najlepszych praktyk
Zastosuj techniki automatyzacji do scenariuszy świata rzeczywistego:
- Analiza danych: Automatyczna ekstrakcja do ankiet, na pokładzie lub formularzy zwrotnych.
- Operacje: Bilety eksportowe masowe, formularze HR lub sprawozdania z zgodności.
- Archiwum: Eksportuj formularz danych do przechowywania, a następnie płyty / optymalizuj pliki PDF z Optymalizator.
FAQ
**Q: Czy mogę wyeksportować dane formularza z skanowanych plików PDF?**Odpowiedź: Wspierane są tylko pliki PDF z interaktywnymi polami (AcroForm/XFA).W przypadku skanowanych obrazów, najpierw uruchom OCR, a następnie użyj wtyczek do ekstrakcji tekstu.
**Q: Jak przetwarzać setki lub tysiące plików efektywnie?**Odpowiedź: Zgromadź pliki w grupach, jeśli to możliwe, użyj równoległego przetwarzania i zawsze rejestruj błędy dla plików, które nie eksportowały.