PDF Os arquivos são populares porque eles suportam texto, imagens, animações, vídeos, e várias anotações. No entanto, para muitos documentos, o texto é a parte mais crucial. Este artigo explica como converter ficheiros PDF em ficheiro TXT e, vice-versa, ficheiras TXT em PDF usando C# .NET. Esta conversão é particularmente útil quando você precisa extrair ou se concentrar exclusivamente no conteúdo de texto de um documento PDF, como quando executar análise do texto ou preparar conteúdo para reformatação.

Os tópicos abrangidos nesta guia incluem:

Tip: Você também pode estar interessado em um gratuito Título para GIF Converter Isso permite que você gerar GIFs animados do texto.

C# TXT para PDF ou PDF para TXT Converter

A conversão entre os formatos PDF e TXT é essencial quando o seu principal interesse está nos dados de texto dentro de um documento. Se você precisa remover todo o formato para análise simples do texto ou preservar algum layout estruturado, o processo pode ser concluído com alguns passos simples usando o PDF para .NET Este API é versátil e suporta tanto o C# como o VB.NET, tornando-o fácil de integrar em suas aplicações .NET.

Para instalar a API em sua aplicação, você pode baixar os arquivos DLL de Downloads Ou usar o Nuvem Por exemplo, instale através do Package Manager Console:

PM> Install-Package Aspose.PDF

Uma vez que a API é instalada, você pode iniciar o processo de conversão com várias abordagens adaptadas a diferentes necessidades.

C# Converter PDF para TXT sem Formatar

Às vezes, você só precisa do texto bruto de um documento PDF sem qualquer formatação adicional. Este método extrai o texto exatamente como aparece no documento, sem preservar letras, espaços ou estilos. É particularmente útil para análise de texto, indicação de pesquisa, ou quando o layout é irrelevante.

Passos para a Extracção de Texto Raw

  • Carregue o documento de entrada PDF: Use a API para carregar o arquivo PDF em um objeto de documento.

  • Iniciar um StringBuilder: Crie um exemplo de Estrangeiro Aulas para a acumulação eficiente de dados de texto.

  • Iterate através de cada página PDF: Passar por todas as páginas do documento. para cada página:

  • Utilização TextoDevice para extrair texto.

  • Empregue o Mudança Raw para garantir que o formato não seja aplicado.

  • Save o texto de saída: Escreva o texto acumulado para um arquivo TXT.

O corte de código abaixo ilustra como converter um PDF para um arquivo TXT usando o método de extração Raw:

Insights adicionais

  • Performança e simplicidade: A extração de texto cru geralmente é mais rápida porque não tenta parse ou aplicar qualquer regras de formatação.
  • Casos de uso: Ideal para extração de logs, índice de pesquisa ou cenários onde só o conteúdo de texto é necessário.

Converter PDF para arquivo TXT com Routinas de Formatação usando C# ou VB.NET

Em outros cenários, preservar a formatação do texto (como parágrafos, indatações e colunas) é crucial. Este método aplica-se a rotinas de formatação para refletir o layout do documento no arquivo TXT resultante.

Passos para Extracção de Texto com Formatação

  • Carregar o arquivo PDF fonte: Como antes, carregue o documento PDF em sua aplicação.

  • Iniciar uma variável de string: Prepare uma faixa para recolher a saída de texto formado.

  • Texto extraído usando o modo de formatação: Para cada página, use o TextFormattingMode.Pure Este modo tenta reproduzir o formato original o mais próximo possível.

  • Save o texto formatuado: Exporta o texto coletado para um arquivo TXT que retém formatação estruturada, como brechas de linha, indentes e espaçamento de tabas.

O seguinte exemplo de código mostra como converter um PDF em um arquivo TXT com formato de texto usando C#:

Comparação visual de RAW e Pure Extraction

A imagem abaixo fornece uma comparação visual dos dois modos de extração.Na esquerda, o texto do PDF aparece com seu formato original (modo Puro), enquanto o direito exibe texto cru sem qualquer formato.Esta comparação pode ajudá-lo a decidir qual método melhor se adapta às suas necessidades.

Convert PDF TXT csharp

Converter arquivo TXT para PDF Programaticamente usando C# ou VB.NET

Converter um arquivo TXT para um PDF é útil quando você precisa produzir um documento polido de conteúdo de texto plano. Este processo envolve a leitura do texto e, em seguida, a aplicação de formato PDF para criar um documento que é visualmente atraente e pronto para distribuição.

Passos para conversão de TXT para PDF

  • Crie uma instância de TextReader: Use o TextoReader Para ler o conteúdo do arquivo TXT.

  • Initialize um novo documento PDF e adicione uma página branca: Crie um exemplo de Documento Escolha e adicione uma nova página.

  • Instante um Objeto TextBuilder: Use o TextoEditar para construir parágrafos de texto com o formato desejado, como letra, tamanho e cor.

  • Leia e adicione cada linha de texto: Passe pelas linhas no arquivo TXT, apertando cada linha para o objeto TextBuilder.

  • Save a saída PDF: Use o Documentação (Save String) Método para escrever o arquivo PDF final para o disco.

O corte de código abaixo mostra como converter um arquivo TXT para um documento PDF usando C#:

Considerações Quando Converter TXT para PDF

  • Layout e estilo: Você pode precisar ajustar margens, espaços de linha e outras propriedades de texto para garantir que o PDF é bem formatuado e lido.
  • Erro de tratamento: Implementar verificação de erros durante as operações de leitura e escrita de arquivos para lidar com cenários como problemas de acesso a arquivos ou codificação de erros.

Conclusão

Neste artigo, demonstramos as técnicas para a conversão de arquivos PDF para TXT e ficheiros TXT para PDF usando C# ou VB.NET no .NET Framework. Se você optar por extração de texto cru para velocidade e simplicidade ou requer texto formado para manter o layout do documento, o PDF para .NET As APIs oferecem soluções confiáveis e flexíveis. Esses métodos de conversão são inestimáveis para o processamento de dados, arquivo de documentos e reprodução de conteúdo.

Se você tiver alguma dúvida ou precisar de mais ajuda, por favor visite o nosso Fórum de Apoio Livre Ou revisar o Documentação de Produto.

Veja também

More in this category