PDF Les fichiers sont populaires parce qu’ils supportent le texte, les images, animations, vidéos, et diverses annotations. Cependant, pour de nombreux documents, le text est la partie la plus cruciale. Cet article explique comment convertir PDF en fichier TXT et, vice versa, Fiche TXT en PDF à l’aide de C# .NET. Cette conversion est particulièrement utile lorsque vous devez extraire ou se concentrer uniquement sur le contenu texte d’un document PDF, par exemple lorsqu’il effectue une analyse de texte ou la préparation des contenus pour la réformation.

Les sujets couverts dans ce guide comprennent :

Tip: Vous pourriez également être intéressé par un gratuit Étiquette : GIF Converter Ce qui vous permet de générer des GIF animés à partir du texte.

C# TXT à PDF ou PDF à TXT Converter

Conversion entre les formats PDF et TXT est essentielle lorsque votre principal intérêt se trouve dans les données textuelles au sein d’un document. Que vous ayez besoin de supprimer tout le formatage pour une analyse de texte simple ou de préserver un layout structuré, le processus peut être accompli avec quelques étapes simples en utilisant le Aspose.PDF per .NET Cette API est polyvalente et prend en charge C# et VB.NET, ce qui facilite l’intégration dans vos applications .NET.

Pour installer l’API dans votre application, vous pouvez télécharger les fichiers DLL de Télécharger ou utilisez le Nouveau Par exemple, installez-le via la console Package Manager :

PM> Install-Package Aspose.PDF

Une fois l’API installée, vous pouvez commencer le processus de conversion avec plusieurs approches adaptées aux besoins différents.

C# Convertir PDF à TXT sans Formater

Parfois, vous n’avez besoin que du texte brut d’un document PDF sans aucune formatisation supplémentaire. Cette méthode extrait le texte exactement comme il apparaît dans le document, sans préserver des phrases, des spaces ou des styles. Il est particulièrement utile pour l’analyse du texte, l’indexation de la recherche, ou lorsque le layout est irrégulier.

Étapes pour l’extraction de texte brut

  • Téléchargez le document PDF : Utilisez l’API pour charger le fichier PDF dans un objet Document.

  • Initialisez un StringBuilder : Créer un exemple de la Le StringBuilder pour accumuler efficacement les données de texte.

  • Iterate à travers chaque page PDF: Passez par toutes les pages du document. Pour chaque page :

  • Utiliser Les textes pour extraire le texte.

  • Employer le Mode rouge veiller à ce que le format ne soit pas appliqué.

  • Save le texte de sortie : Écrivez le texte accumulé dans un fichier TXT.

Le snippet de code ci-dessous illustre comment convertir un PDF à un fichier TXT en utilisant la méthode d’extraction Raw:

Insights supplémentaires

  • Performance et simplicité : L’extraction de texte brut est généralement plus rapide parce qu’elle n’essaye pas de parse ou d’appliquer aucune règle de formatage.
  • Les cas utilisés : Idéal pour l’extraction des logs, l’indexation de la recherche ou les scénarios où seulement le contenu texte est requis.

Convertir le fichier PDF en fichier TXT avec les routines de formatage en utilisant C# ou VB.NET

Dans d’autres scénarios, la préservation du formatage du texte (tels que les paragraphes, les indentations et les colonnes) est cruciale.Cette méthode applique le formatage des routines pour refléter le layout du document dans le fichier TXT résultant.

Étapes pour l’extraction de texte avec le formatage

  • Téléchargez le fichier PDF Source : Comme avant, téléchargez le document PDF dans votre application.

  • Démarrer une variable de fil : Préparez une lignée pour collecter des outils de texte formatés.

  • Texte extrait en utilisant le mode de formatage: Pour chaque page, utilisez le MéditerranéeMode.Pure Ce mode essaie de reproduire le format original aussi étroitement que possible.

  • Save le texte formaté : Exporte le texte collecté dans un fichier TXT qui conserve le formatage structuré tels que les ruptures de ligne, les indents et l’espace de tables.

L’exemple de code suivant montre comment convertir un PDF à un fichier TXT avec le formatage de texte en utilisant C#:

Comparaison visuelle de RAW et de Pure Extraction

L’image ci-dessous fournit une comparaison visuelle des deux modes d’extraction. À gauche, le texte PDF apparaît avec son formatage original (modes Pure), tandis que la droite affiche le texte brut sans aucun formatage. Cette comparaison peut vous aider à décider quelle méthode vous convient le mieux.

Convert PDF TXT csharp

Convertir le fichier TXT en PDF en utilisant C# ou VB.NET

Convertir un fichier TXT vers un PDF est utile lorsque vous avez besoin de produire un document polisé à partir du contenu de texte plat. Ce processus implique la lecture du texte et ensuite l’application du format PDF pour créer un document qui est visuellement attrayant et prêt à la distribution.

Les étapes pour TXT à la conversion PDF

  • Créer une instance TextReader : Utilisez le TexteReader Lire le contenu du fichier TXT.

  • Initialisez un nouveau document PDF et ajoutez une page blanche: Créer un exemple de la Documents Lire et ajouter une nouvelle page.

  • Installer un objet TextBuilder : Utilisez le Les textes pour construire des paragraphes de texte avec le format souhaité, tels que la lettre, la taille et la couleur.

  • Lire et ajouter chaque ligne de texte : Passez les lignes dans le fichier TXT, appuyant chaque ligne sur l’objet TextBuilder.

  • Save le fichier PDF : Utilisez le Étiquette : sauvegarde (String) méthode pour écrire le fichier PDF final sur le disque.

Le snippet de code ci-dessous montre comment convertir un fichier TXT à un document PDF en utilisant C#:

Considérations lors de la conversion de TXT en PDF

  • Layout et style : Vous devrez peut-être ajuster les marges, l’espace de ligne et d’autres propriétés de texte pour s’assurer que le PDF est bien formaté et lisible.
  • Traitement d’erreur : Implémenter la vérification de l’erreur pendant la lecture et l’écriture des fichiers pour gérer des scénarios tels que les problèmes d’accès aux fichiers ou l’encodage des erreurs.

Conclusion

Dans cet article, nous avons démontré les techniques pour la conversion de fichiers PDF en TXT et TXT en PDF utilisant C# ou VB.NET dans le .NET Framework. Que vous choisissez l’extraction de texte brut pour une vitesse et une simplicité ou que vous avez besoin du texte formaté pour conserver le layout du document, Aspose.PDF per .NET Les API fournissent des solutions fiables et flexibles. Ces méthodes de conversion sont inestimables pour le traitement des données, l’archivage des documents et la répartition du contenu.

Si vous avez des questions ou avez besoin d’une aide supplémentaire, veuillez visiter notre Forum de soutien gratuit ou de réviser le Documentation du produit.

Vedi anche

More in this category