Documentos PDF são parte integrante de vários processos de negócios, frequentemente necessitando de acesso programático ao seu conteúdo digitalizado. Extrair texto de arquivos PDF digitalizados pode ser uma tarefa complexa, destacando a necessidade de ferramentas eficazes. Neste tutorial, vamos explorar como fazer OCR em documentos PDF e extrair texto de PDF em C# usando a confiável Aspose.OCR para .NET API, uma das principais bibliotecas de extração de PDF OCR em C# disponível para avaliação gratuita.

O Que Você Vai Aprender

Neste artigo, abordaremos os seguintes tópicos:

  1. Visão Geral da Aspose.OCR para .NET API
  2. Passos para Fazer OCR em PDF e Extrair Texto
  3. Como Realizar OCR em PDF e Salvar Texto
  4. Convertendo OCR PDF para Word
  5. Convertendo OCR PDF para JSON

Visão Geral da Aspose.OCR para .NET API

Vamos utilizar a Aspose.OCR para .NET API, uma robusta API PDF OCR .NET projetada para reconhecer texto a partir de imagens digitalizadas, fotos de smartphones e capturas de tela, retornando resultados em vários formatos de documento. Esta API não apenas converte imagens em texto, mas também cria PDFs pesquisáveis a partir de digitalizações e corrige quaisquer erros de ortografia no texto reconhecido, tornando-se uma das soluções C# PDF OCR mais rápidas disponíveis por apenas $99.

A API possui a classe AsposeOcr, que fornece múltiplos métodos para operações de OCR. Notavelmente, o método RecognizePdf(string, DocumentRecognitionSettings) é essencial para extrair texto de um documento PDF especificado. A classe DocumentRecognitionSettings permite a personalização do processo de reconhecimento, enquanto a classe RecognitionResult encapsula os resultados do reconhecimento.

Você pode baixar o DLL da API ou instalá-la via NuGet:

PM> Install-Package Aspose.OCR

Passos para Fazer OCR em PDF e Extrair Texto em C#

Para realizar OCR em documentos PDF e extrair o texto reconhecido, siga estes passos:

  1. Crie uma instância da classe AsposeOcr.
  2. Inicialize um objeto da classe DocumentRecognitionSettings.
  3. Especifique o idioma para OCR.
  4. Obtenha o RecognitionResult invocando o método RecognizePdf(), passando o caminho da imagem e o objeto DocumentRecognitionSettings.
  5. Percorra a lista RecognitionResult para exibir o texto identificado.

Aqui está um exemplo ilustrando como fazer OCR em documentos PDF e extrair texto reconhecido em C#:

OCR PDF e Extrair Texto de PDF em C#

Como Realizar OCR em PDF e Salvar Texto em C#

Para realizar OCR em documentos PDF e salvar o texto reconhecido, siga estes passos:

  1. Crie uma instância da classe AsposeOcr.
  2. Inicialize um objeto da classe DocumentRecognitionSettings.
  3. Especifique o idioma para OCR.
  4. Chame o método RecognizePdf() para obter o RecognitionResult.
  5. Salve o texto usando o método SaveMultipageDocument(), que requer o caminho do arquivo de saída, o SaveFormat e o objeto RecognitionResult.

Aqui está um exemplo demonstrando como fazer OCR em documentos PDF e salvar o texto reconhecido em C#:

Realizar OCR em PDF e Salvar Texto em C#

Convertendo OCR PDF para Word em C#

Para converter documentos PDF digitalizados para Word, siga os mesmos passos descritos anteriormente, mas especifique SaveFormat.Docx no passo final.

Aqui está um exemplo ilustrando como fazer OCR em PDF e salvar o texto reconhecido como um documento Word em C#:

OCR PDF e Converter PDF Digitalizado para Word em C#

Convertendo OCR PDF para JSON em C#

Para salvar o texto reconhecido de documentos PDF em um arquivo JSON, siga os passos anteriores com a única alteração de especificar SaveFormat.Json no passo final.

Aqui está um exemplo demonstrando como fazer OCR em PDF e salvar o texto reconhecido como um arquivo JSON em C#:

Obtenha uma Licença de Avaliação Gratuita

Você pode obter uma licença temporária gratuita para avaliar a Aspose.OCR para .NET API sem limitações.

Conclusão

Neste tutorial, aprendemos como realizar OCR em documentos PDF e extrair texto de PDF em C#. Também exploramos como salvar o texto reconhecido como um arquivo TXT, DOCX e JSON. Para mais informações sobre a Aspose.OCR para .NET API, confira sua documentação. Se você tiver alguma dúvida, sinta-se à vontade para nos contatar em nosso fórum.

Veja Também

Ao aproveitar a Aspose.OCR para .NET API, você pode implementar OCR PDF de alta precisão em C# para várias aplicações, incluindo processamento de faturas e manipulação de formulários. Esta solução PDF OCR .NET acessível é perfeita para desenvolvedores que buscam integrar capacidades OCR PDF em suas aplicações de forma eficiente.