Extract Text from PDF C#

Mengekstrak teks dari file PDF adalah persyaratan umum dalam tugas pemrosesan dokumen. artikel ini memberikan panduan mendalam tentang penggunaan Aspose.PDF’s Text Extractor Plugin untuk ekstraksi teks yang efisien dan beragam dalam C#. Apakah Anda perlu mengekstrak teks dari seluruh dokumen, halaman tertentu, atau daerah yang ditentukan, Aspose Plugin memfasilitasi ekstraksi teks PDF berprestasi tinggi dengan usaha minimal.

Ciri-ciri utama dari Aspose.PDF Text Extractor Plugin

Spesifikasi dari Aspose.PDF Text Extractor Plugin

Plugin Pengekstrak Teks untuk .NET adalah solusi yang kuat untuk mengekstrak teks dari dokumen PDF. Ini dirancang khusus untuk pengembang yang bekerja dengan aplikasi .NET, mendukung .NET Framework dan .NET Core untuk pengekstrak teks PDF. Plugin ini menawarkan tiga mode operasi:

  • Mode Bersih: Mengekstrak teks sambil mempertahankan format dan struktur asli.
  • Raw Mode: Mengekstrak teks tanpa format.
  • Plain Mode: Mengekstrak teks dan menghapus semua format dan karakter khusus.

Manfaat Menggunakan Aspose.PDF

  • Batch Processing: Mengendalikan beberapa PDF secara bersamaan.
  • Pengaturan yang dapat disesuaikan: menyesuaikan pengaturan ekstraksi untuk memenuhi kebutuhan spesifik Anda.
  • Seamless Integration: Terintegrasi langsung dengan aplikasi .NET untuk aliran kerja yang lancar.
  • Performance High-Speed: dioptimalkan untuk ekstraksi teks yang cepat dan akurat dengan konsumsi sumber daya minimal.

Memulai dengan C# PDF Text Extraction

dan yang Aspose.PDF untuk .NET Perpustakaan adalah alat yang komprehensif untuk pengembang .NET yang mencari solusi berprestasi tinggi C# PDF Extract. Anda dapat dengan mudah menginstalnya melalui NuGet:

PM> Install-Package Aspose.PDF

Sebagai alternatif, Anda dapat Download dari DLL untuk mengintegrasikannya langsung ke dalam proyek Anda, memberikan solusi yang dapat diandalkan C# PDF to Text.

Mengekstrak teks dari PDF penuh dalam C#

Untuk mengekstrak semua teks dari PDF, ikuti langkah-langkah berikut:

  • Download PDF dengan menggunakan Dokumen Kelas yang.
  • Membuat A Textabsorber dengan objek.
  • Gunakan penyerap ke semua halaman.
  • Simpan teks yang dikeluarkan ke dalam file.

Contoh kode

Mengekstrak teks dari halaman tertentu dalam PDF

Untuk mengekstrak teks dari satu halaman menggunakan C#, ikuti langkah-langkah berikut:

  • Tuliskan PDF.
  • Membuat A Textabsorber.
  • Gunakan absorber ke halaman yang diinginkan.
  • Simpan teks yang dikeluarkan.

Contoh kode

Mengekstrak teks dari wilayah tertentu dalam PDF

Untuk mengekstrak teks dari area tertentu halaman, tetapkan koordinat rektangular. ikuti langkah-langkah berikut:

  • Tuliskan PDF.
  • Konfigurasi TextSearchOptions untuk wilayah yang ditentukan.
  • Mengaplikasikan Textabsorber untuk wilayah tersebut.
  • Simpan teks yang dikeluarkan.

Contoh kode

Mencari dan mengekstrak teks menggunakan Regex

Untuk mengekstrak teks yang sepadan dengan pola tertentu menggunakan ekspresi biasa:

  • Tuliskan PDF.
  • Menentukan pola regex.
  • Gunakan pola menggunakan Textabsorber.
  • Mengekstrak fragmen teks yang sesuai.

Contoh kode

Mengekstrak data tabel sebagai teks dalam C#

Untuk mengekstrak konten dari tabel, gunakan langkah-langkah berikut:

  • Tuliskan PDF.
  • Penggunaan Tabungan Absorber untuk navigasi melalui struktur tabel.
  • Mengekstrak sel teks per sel.

Contoh kode

Mengekstrak teks yang ditonjolkan dalam PDF

Untuk mengekstrak teks yang ditekankan:

  • Iterate melalui anotasi.
  • Filter TekstMarkupAnnotasi.
  • Menyelamatkan dan menyimpan fragmen yang ditonjolkan.

Contoh kode

Mengoptimalkan ekstraksi teks dengan penggunaan memori rendah

a) Menggunakan **** dan ****:

  • panggilan absorber.Reset() Setelah memproses setiap halaman.
  • Memori gratis yang dipegang oleh halaman yang menggunakan page.FreeMemory().

2) Menggunakan Memori yang Mode yang:

Set yang TextExtractionOptions.TextFormattingMode Untuk mengoptimalkan penggunaan memori selama ekstraksi teks PDF.

Contoh kode

Percuma C# PDF Text Extraction Library

Dapatkan A lisensi sementara gratis Untuk akses tak terbatas ke Aspose.PDF untuk .NET dan membuka potensi penuh untuk solusi yang efisien C# PDF Text Extraction. Anda juga dapat mengeksplorasi opsi seperti C# Convert PDF to Text dan c# Read Text from PDF untuk penyelesaian yang disesuaikan, termasuk c# Ekstrak Teks dari PDF dan c # Read PDF Free.

Kesimpulan

Aspose.PDF’s Text Extractor Plugin for .NET menawarkan solusi yang beragam dan efisien untuk tugas-tugas ekstraksi teks yang dapat diandalkan.Dari mengekstrak teks dari seluruh dokumen ke halaman atau wilayah tertentu, ini mempercepat proses dengan ketepatan dan kecepatannya.Ini menjadikannya salah satu perpustakaan terbaik C# PDF Extract Text yang tersedia.Cuba hari ini untuk menyederhanakan aliran kerja ekstruksi teks PDF Anda hanya untuk $99!

More in this category