Il PDF I file sono popolari perché supportano testo, immagini, animazioni, video e varie annotazioni. Tuttavia, per molti documenti, il testo è la parte più cruciale. Questo articolo spiega come convertire i file PDF in file TXT e, inversamente, i files TXT in PDF utilizzando C# .NET. Questa conversione è particolarmente utile quando è necessario estrarre o concentrarsi esclusivamente sul contenuto del testo di un documento PDF, ad esempio quando si esegue l’analisi di testo o la preparazione dei contenuti per la riforma.

I temi coperti in questa guida includono:

Tip: Potresti anche essere interessato a un libero Conversione GIF Converter che consente di generare GIF animati dal testo.

C# TXT a PDF o PDF a TXT Converter

Conversione tra i formati PDF e TXT è essenziale quando il tuo principale interesse si trova nei dati di testo all’interno di un documento. Che si debba tagliare tutto il formato per la semplice analisi del testo o preservare qualche layout strutturato, il processo può essere completato con alcuni semplici passaggi utilizzando il Aspose.PDF per .NET Questa API è versatile e supporta sia C# che VB.NET, rendendola facile da integrare nelle tue applicazioni .NET.

Per installare l’API nella tua applicazione, puoi scaricare i file DLL da Scarica o usare il di NuGet Per esempio, installalo tramite la console Package Manager:

PM> Install-Package Aspose.PDF

Una volta installato l’API, è possibile iniziare il processo di conversione con diversi approcci personalizzati per le diverse esigenze.

C# Convertire PDF in TXT senza formattare

A volte, è necessario solo il testo crudo da un documento PDF senza alcun formato aggiuntivo. Questo metodo estrae il testo esattamente come appare nel documento, senza preservare lettere, spazi o stili. È particolarmente utile per l’analisi del testo, l’indicazione della ricerca, o quando il layout è irrilevante.

Passaggi per l’estrazione di testo crudo

  • Carica il documento di input PDF: Utilizzare l’API per caricare il file PDF in un oggetto Document.

  • Iniziare un StringBuilder: Crea un esempio di StringBuilder per accumulare in modo efficiente i dati di testo.

  • Iterate attraverso ogni pagina PDF: Passare attraverso tutte le pagine del documento. per ogni pagina:

  • Utilizzo Il testoDevice per estrarre il testo.

  • impiegare il Modalità Raw per garantire che il formato non sia applicato.

  • Salva il testo di uscita: Inserisci il testo accumulato in un file TXT.

Il taglio di codice qui sotto illustra come convertire un PDF in un file TXT utilizzando il metodo di estrazione Raw:

ulteriori insegnamenti

  • Performance e semplicità: L’estrazione di testo crudo è di solito più veloce perché non cerca di parsire o applicare alcuna regola di formattamento.
  • I casi di utilizzo: Ideale per l’estrazione del log, l’indicazione della ricerca o i scenari in cui è richiesto solo il contenuto testo.

Convertire PDF in file TXT con Formattare Routine utilizzando C# o VB.NET

In altri scenari, la conservazione della formattazione del testo (come paragrafi, indentazioni e colonne) è cruciale.Questo metodo si applica alla formattazione delle routine per riflettere il layout del documento nel file TXT risultante.

Passaggi per l’estrazione di testo con la formattazione

  • Scarica il file PDF di Fonte: Come prima, carica il documento PDF nella tua applicazione.

  • Iniziare una variabile stringente: Preparare una riga per raccogliere il testo formattato.

  • Testo estratto utilizzando il modo di formattamento: Per ogni pagina, usare il Sito di testoMod.Pure Questo modo tenta di riprodurre il formato originale il più vicino possibile.

  • Salva il testo formattato: Esporta il testo raccolto in un file TXT che mantiene la formattazione strutturata come le interruzioni di linea, gli indenti e lo spazzatura delle schede.

Il seguente esempio di codice mostra come convertire un PDF in un file TXT con formato di testo utilizzando C#:

Confronto visuale tra RAW e Pure Extraction

L’immagine qui sotto fornisce un confronto visivo dei due modi di estrazione.Sulla sinistra, il testo del PDF appare con il suo formato originale (modalità pulita), mentre la destra mostra il testo crudo senza alcun formato.Questo confronto può aiutarti a decidere quale metodo si adatta meglio alle tue esigenze.

Convert PDF TXT csharp

Convertire file TXT in PDF Programmaticamente utilizzando C# o VB.NET

Convertire un file TXT in PDF è utile quando è necessario produrre un documento polito dal contenuto di testo piatto. Questo processo implica la lettura del testo e poi applicare il formato PDF per creare un documento che è visivamente attraente e pronto per la distribuzione.

Passaggi per TXT a PDF Conversione

  • Creare un istante di testo: Utilizzare il Il testoReader per leggere il contenuto dal file TXT.

  • Iniziare un nuovo documento PDF e aggiungere una pagina bianca: Crea un esempio di Documento Scrivi una pagina e aggiungi una nuova pagina.

  • Installare un oggetto TextBuilder: Utilizzare il di TextBuilder per costruire paragrafi di testo con il formato desiderato, come font, dimensioni e colori.

  • Leggi e aggiungi ogni riga di testo: Passare attraverso le righe nel file TXT, appendendo ogni riga all’oggetto TextBuilder.

  • Salva l’uscita PDF: Utilizzare il Scrivi una recensione per “Save String” Metodo per scrivere il file PDF finale sul disco.

Il taglio di codice qui sotto mostra come convertire un file TXT in un documento PDF utilizzando C#:

Consideri Quando Convertire TXT in PDF

  • Layout e stile: Potrebbe essere necessario modificare i margini, lo spazio di linea e altre proprietà del testo per garantire che il PDF sia ben formato e leggibile.
  • errore di gestione: Implementare la verifica degli errori durante le operazioni di lettura e scrittura dei file per gestire scenari come problemi di accesso ai file o codificare gli errori.

conclusione

In questo articolo, abbiamo dimostrato le tecniche per la conversione di file PDF in file TXT e tXT in PDF utilizzando C# o VB.NET nel .NET Framework. Se si sceglie per l’estrazione di testo crudo per velocità e semplicità o richiede testo formattato per mantenere il layout del documento, il Aspose.PDF per .NET Le API offrono soluzioni affidabili e flessibili.Questi metodi di conversione sono inestimabili per il trattamento dei dati, l’archiviazione dei documenti e la riproduzione del contenuto.

Se avete domande o richiedete ulteriore assistenza, si prega di visitare il nostro sito. Forum di supporto gratuito o la revisione del Documentazione del prodotto.

Vedi anche

More in this category