Extract Text from PDF C#

Mengekstrak teks daripada fail PDF adalah satu keperluan yang biasa dalam tugas pemprosesan dokumen. artikel ini menyediakan panduan mendalam mengenai penggunaan Aspose.PDF’s Text Extractor Plugin untuk ekstraksi teks yang cekap dan pelbagai dalam C#. Sama ada anda perlu mengekstra teks dari keseluruhan dokumen, halaman tertentu, atau rantau yang ditakrifkan, plugin Aspose memudahkan pengeluaran teks PDF berprestasi tinggi dengan usaha minimum.

Ciri-ciri utama Plugin Pengekstrak teks Aspose.PDF

Gambaran keseluruhan Aspose.PDF Text Extractor Plugin

Plugin Pengekstrak Teks untuk .NET** adalah penyelesaian yang kukuh untuk pengeluaran teks daripada dokumen PDF. Ia direka khas untuk pemaju yang bekerja dengan aplikasi .net, menyokong kedua-dua .Net Framework dan .Net Core untuk ekstrak teks PDF .Plugin ini menawarkan tiga mod operasi:

  • Mode Bersih : Mengekstrak teks sambil mengekalkan format dan struktur asal.
  • Raw Mode : Mengekstrak teks tanpa sebarang pemformatan.
  • Plain Mode : Mengekstrak teks dan menghapuskan semua format dan aksara khas.

Kelebihan Menggunakan Aspose.PDF

  • Batch Processing : Mengendalikan beberapa PDF pada masa yang sama.
  • Pengaturan yang boleh disesuaikan : Tetapkan tetapan ekstraksi Tailor untuk memenuhi keperluan tertentu anda.
  • Seamless Integration : Mengintegrasikan secara langsung dengan aplikasi .NET untuk aliran kerja yang lancar.
  • Performance berkelajuan tinggi : Dioptimumkan untuk pengekstrakan teks yang cepat dan tepat dengan penggunaan sumber minimum.

Bermula dengan C# PDF Text Extraction

The PDF untuk .NET Perpustakaan adalah alat yang komprehensif untuk pemaju .NET yang mencari penyelesaian yang berprestasi tinggi C# PDF Extract . anda boleh memasangnya dengan mudah melalui NuGet:

PM> Install-Package Aspose.PDF

Sebagai alternatif, anda boleh Muat turun DLL untuk mengintegrasikannya secara langsung ke dalam projek anda, menyediakan penyelesaian yang boleh dipercayai C# PDF to Text .

Mengekstrak teks daripada PDF penuh dalam C#

Untuk mengekstrak semua teks daripada PDF, ikuti langkah-langkah berikut:

  • Muat turun PDF menggunakan Document Kelas yang
  • Mencipta A TextAbsorber objek yang
  • Gunakan penyerap pada semua halaman.
  • Simpan teks yang dikeluarkan ke dalam fail.

Contoh Kod

Mengekstrak teks daripada halaman tertentu dalam PDF

Untuk mengekstrak teks daripada satu halaman menggunakan C#, ikuti langkah-langkah berikut:

  • Muat turun PDF.
  • Mencipta A TextAbsorber.
  • Gunakan penyerap ke halaman yang dikehendaki.
  • Simpan teks yang dikeluarkan.

Contoh Kod

Mengekstrak teks daripada rantau tertentu dalam PDF

Untuk mengekstrak teks dari kawasan tertentu halaman, tetapkan koordinat rektangular. ikuti langkah-langkah berikut:

  • Muat turun PDF.
  • Configure TextSearchOptions untuk kawasan yang ditakrifkan.
  • Menggunakan The TextAbsorber kepada rantau ini.
  • Simpan teks yang dikeluarkan.

Contoh Kod

Mencari dan mengekstrak teks menggunakan Regex

Untuk mengekstrak teks yang sepadan dengan corak tertentu menggunakan ungkapan biasa:

  • Muat turun PDF.
  • Menentukan corak regex.
  • Menggunakan corak menggunakan TextAbsorber.
  • Mengekstrak fragmen teks yang sesuai.

Contoh Kod

Mengekstrak data jadual sebagai teks dalam C#

Untuk mengekstrak kandungan daripada jadual, gunakan langkah-langkah berikut:

  • Muat turun PDF.
  • Use TableAbsorber untuk navigasi melalui struktur meja.
  • Mengekstrak sel teks mengikut sel.

Contoh Kod

Mengekstrak teks yang ditonjolkan dalam PDF

Untuk mengekstrak teks yang ditekankan:

  • Iterate melalui anotasi.
  • Filter TextMarkupAnnotation.
  • Menyelamatkan dan menyimpan fragmen yang ditonjolkan.

Contoh Kod

Mengoptimumkan pengekstrakan teks dengan penggunaan memori rendah

a) Menggunakan **** dan ****:

  • Call absorber.Reset() selepas memproses setiap halaman.
  • Memori percuma yang disimpan oleh halaman yang menggunakan page.FreeMemory().

2) Menggunakan MemorySaving Mod yang :

Set TextExtractionOptions.TextFormattingMode untuk mengoptimumkan penggunaan memori semasa pengekstrakan teks PDF.

Contoh Kod

Percuma C# PDF Perpustakaan Pengekstrakan teks

Dapatkan A lesen sementara percuma untuk akses yang tidak terhad kepada Aspose.PDF untuk .NET dan membuka potensi penuh untuk penyelesaian yang cekap **C# PDF Text Extraction ** . Anda juga boleh meneroka pilihan-pilihan seperti ** C# Convert PDF to Text ** dan *c# Read Text from PDF ** untuk solusi yang disesuaikan, termasuk ** c# Mengekstrak teks daripada PDFdanc # Membaca teks PDF Percuma.

Conclusion

Aspose.PDF’s Text Extractor Plugin for .NET menawarkan penyelesaian yang pelbagai dan cekap untuk tugas-tugas pengekstrakan teks yang boleh dipercayai.Dari pengeluaran teks dari keseluruhan dokumen ke halaman atau rantau tertentu, ia mempercepatkan proses dengan ketepatan dan kelajuan.Ini menjadikannya salah satu perpustakaan terbaik **C# PDF Extract Text ** yang tersedia.Cuba hari ini untuk menyederhanakan aliran kerja PDF teks untuk hanya $99 !

More in this category