Extract Text from PDF C#

Ekstrakcja tekstu z plików PDF jest powszechnym wymogiem w zadaniach przetwarzania dokumentów.Ten artykuł dostarcza dogłębnego przewodnika dotyczącego wykorzystania Aspose.PDF’s Text Extractor Plugin do efektywnego i wszechstronnego ekstrakcji tekstu w C#. Niezależnie od tego, czy potrzebujesz ekstrakcji tekstu z całego dokumentu, określonych stron lub określonych regionów, Plugin Aspose ułatwia ekstrakcję tekstu PDF o wysokiej wydajności z minimalnym wysiłkiem.

Kluczowe cechy programu Aspose.PDF Text Extractor Plugin

Przegląd programu Aspose.PDF Text Extractor Plugin

Aspose.PDF Text Extractor Plugin for .NET jest solidnym rozwiązaniem do ekstrakcji tekstu z dokumentów PDF. Jest on specjalnie zaprojektowany dla deweloperów pracujących z aplikacjami .NET, wspierając zarówno .NET Framework i .NET Core do ekstrakcji tekstu PDF:

  • Pure Mode: Ekstrakcja tekstu przy zachowaniu oryginalnego formatu i struktury.
  • Raw Mode: Ekstrakcja tekstu bez formatu.
  • Plain Mode: Wyciąga tekst i usuwa wszystkie formaty i specjalne znaky.

Korzyści z korzystania z Aspose.PDF

  • Batch Processing: Zarządzanie wieloma plikami PDF jednocześnie.
  • Dostosowalne ustawienia: Dostosuj ustawienia ekstrakcji, aby dostosować się do Twoich konkretnych potrzeb.
  • Integracja bezprzewodowa: Integruje się bezpośrednio z aplikacjami .NET dla płynnych przepływów pracy.
  • Wysoka szybkość wydajności: Optymalizowany do szybkiej, precyzyjnej ekstrakcji tekstu z minimalnym zużyciem zasobów.

Zacznij od C# PDF Text Extraction

W tym ASPOSE.PDF dla .NET Biblioteka jest wszechstronnym narzędziem dla deweloperów .NET szukających wysokiej wydajności C# PDF Extract rozwiązań. można łatwo zainstalować za pośrednictwem NuGet:

PM> Install-Package Aspose.PDF

Alternatywnie możesz Pobierz DLL aby włączyć go bezpośrednio do Twojego projektu, zapewniając niezawodne rozwiązanie C# PDF do tekstu.

Ekstrakcja tekstu z pełnego PDF w C#

Aby wyciągnąć cały tekst z PDF, postępuj zgodnie z następującymi krokami:

  • Pobierz PDF za pomocą Dokumenty w klasie.
  • Tworzenie A TextAbsorber i obiektów.
  • Aplikuj absorbent na wszystkie strony.
  • Zapisz wyciągnięty tekst do pliku.

Kod przykładowy

Ekstrakcja tekstu z konkretnych stron w formacie PDF

Aby wyciągnąć tekst z jednej strony za pomocą C#, postępuj zgodnie z następującymi krokami:

  • Pobierz PDF.
  • Tworzenie A TextAbsorber.
  • Aplikuj absorbent do pożądanej strony.
  • Zachowaj wyciągnięty tekst.

Kod przykładowy

Ekstrakcja tekstu z określonych regionów w formacie PDF

Aby wyciągać tekst z określonych obszarów strony, zdefiniuj współrzędne rektangularne:

Kod przykładowy

Poszukiwanie i ekstrakcja tekstu za pomocą Regex

Aby wyciągnąć tekst odpowiadający określonemu wzorowi za pomocą regularnych wyrażeń:

  • Pobierz PDF.
  • Określ wzorzec regex.
  • Wykorzystaj wzorzec za pomocą TextAbsorber.
  • Wyciągnięcie fragmentów tekstowych.

Kod przykładowy

Ekstrakcja danych tabeli jako tekstu w C#

Aby wyciągnąć zawartość z tabel, skorzystaj z następujących kroków:

  • Pobierz PDF.
  • Używanie TableAbsorber do nawigacji przez struktury stołowe.
  • Ekstrakcja tekstowej komórki przez komórkę.

Kod przykładowy

Ekstrakcja podkreślonego tekstu w PDF

Aby wyciągnąć podkreślony tekst:

  • Iterate za pośrednictwem notatek.
  • Filtry TextMarkupAnnotation.
  • Odzyskuj i przechowuj podkreślone fragmenty.

Kod przykładowy

Optymalizacja ekstrakcji tekstu z niską pamięcią

i) Używanie **** i ****:

  • Zadzwoń absorber.Reset() po przetwarzaniu każdej strony.
  • Bezpłatna pamięć przechowywana przez strony wykorzystujące page.FreeMemory().

2) Używanie MemorySaving w modzie:

zestaw TextExtractionOptions.TextFormattingMode Aby zoptymalizować wykorzystanie pamięci podczas ekstrakcji tekstu PDF.

Kod przykładowy

Darmowa biblioteka ekstrakcji tekstów C# PDF

Zdobądź A Darmowe licencje tymczasowe Aby uzyskać nieograniczony dostęp do Aspose.PDF dla .NET i otworzyć swój pełny potencjał dla efektywnych rozwiązań C# PDF Text Extraction. Możesz również odkryć opcje takie jak C# Convert PDF to Text i c# Read Text from PDF dla dostosowanych rozwiążeń, w tym c# Extrakt tekst z PDF i c # Read PDF Tekst Free.

konkluzja

Aspose.PDF’s Text Extractor Plugin for .NET oferuje wszechstronne i wydajne rozwiązanie do wiarygodnych zadań w zakresie ekstrakcji tekstu. Od ekstraktowania tekstu z całego dokumentu do określonych stron lub regionów, uprości proces z precyzją i prędkością. To sprawia, że jest to jedna z najlepszych C# PDF Extract Text biblioteek dostępnych. Spróbuj dzisiaj, aby uproszczeniu przepływów pracy w wydobyciu tekstu PDF za tylko $99!

More in this category