Els documents PDF són essencials en molts processos de negocis, sovint requereixen accés programàtic al seu contingut escanejat. L’extracció de text dels fitxers PDF escanats pot ser desafiant, subratllant la necessitat d’eines efectives. En aquest tutorial, explorarem com a OCR PDF documents i extraure text del PDF en C# utilitzant el fiable Aspose.OCR per a .NET API, una biblioteca d’extracció de PDF líder C# OCR disponible per a l’avaluació gratuïta.

El que aprendreu

En aquest article abordarem els següents temes:

Revisió de Aspose.OCR per a .NET API

Nosaltres utilitzarem el Aspose.OCR per a .NET API, Aquesta API no només converteix les imatges en text, sinó que també crea PDFs buscables de les escanes i corregeix qualsevol error de reproducció en el text reconegut, fent-lo una de la solució més ràpida C# PDF OCR disponible per només $99.

El foc té el AsposeOcr classe, que proporciona múltiples mètodes per a les operacions de l’OCR RecognizePdf(string, DocumentRecognitionSettings) El mètode és essencial per a l’extracció de text d’un document PDF especificat DocumentRecognitionSettings la classe permet la personalització del procés de reconeixement, mentre que el RecognitionResult La classe encapsula els resultats del reconeixement.

Es pot Descarrega el DLL de l’API o instal·lar-lo a través de NuGet:

PM> Install-Package Aspose.OCR

Passos a OCR PDF i Extract Text en C#

Per executar OCR en documents PDF i extreure el text reconegut, segueix aquests passos:

  • Crea una instància de la classe AsposeOcr.
  • Iniciar un objecte de la classe DocumentRecognitionSettings.
  • Especifica el llenguatge de l’OCR.
  • Obtenir el RecognitionResult invocant el mètode Pdf(), passant el recorregut d’imatge i el DocumentRecognitionSettings l’objecte.
  • Passar a través de la llista RecognitionResult per mostrar el text identificat.

A continuació hi ha un exemple que il·lustra com obtenir documents PDF OCR i extraure text reconegut en C#:

OCR PDF i l’extracció de text del PDF en C#

Com realitzar OCR en PDF i guardar text en C#

Per executar OCR en documents PDF i salvar el text reconegut, segueix aquests passos:

  • Crea una instància de la classe AsposeOcr.
  • Iniciar un objecte de la classe DocumentRecognitionSettings.
  • Especifica el llenguatge de l’OCR.
  • Coneix el mètode RecognizePdf() per obtenir el Resultat de Recognition.
  • Salvar el text utilitzant el mètode SaveMultipageDocument(), que requereix la ruta de fitxer de sortida, el SaveFormat, i el RecognitionResult l’objecte.

Aquí teniu un exemple que demostra com arribar a documents PDF OCR i salvar el text reconegut en C#:

Performan OCR en PDF i emmagatzemen text en C#

Convertir OCR PDF a Word en C#

Per convertir els documents de PDF escanats a Word, segueix els mateixos passos que s’han esmentat anteriorment, però especifica SaveFormat.Docx en l’etapa final.

A continuació hi ha un exemple que il·lustra com arribar a OCR PDF i guardar el text reconegut com a document de Word en C#:

OCR PDF i Convertir PDF escanat a Word en C#

Convertir OCR PDF a JSON en C#

Per salvar el text reconegut dels documents PDF en un arxiu JSON, segueix els passos anteriors amb l’únic canvi és especificar SaveFormat.Json en el pas final.

Aquí teniu un exemple que demostra com arribar a OCR PDF i guardar el text reconegut com a fitxer JSON en C#:

Obtenir una llicència d’avaluació gratuïta

Es pot Obtenir una llicència temporal gratuïta per avaluar l’ASPOSE.OCR per a .NET API sense cap limitació.

Conclusió

En aquest tutorial, vam aprendre com executar OCR en documents PDF i extraure text de PDF en C TXT, DOCX, i JSON Per a més informació sobre l’ASPOSE.OCR per a .NET API, consulteu el seu Documentació. Si teniu qualsevol pregunta, senteu-vos lliures d’arribar a nosaltres en el nostre El fòrum.

Veure també

Mitjançant la utilització de Aspose.OCR per a .NET API, es pot implementar una alta precisió PDF OCR en C# per diverses aplicacions, incloent el processament i el tractament de formularis C# OCCR Invoice. Aquesta solució d’OCR .NET gratuïta és perfecta per als desenvolupadors que busquen integrar eficientment les capacitats del PDF OCR en els seus programes.

A més, si vostè necessita convertir PDF a text en C#, aquesta API proporciona una solució senzilla.Per als interessats en C# OCR PDF al text capacitats, la integració és inexorable, permetent l’extracció de text eficient de diversos formats de document. També pot utilitzar la funció c# Convert PDF en Text per gestionar fàcilment la extracción del text de PDF, fent que el seu procés de desenvolupament sigui més suau.

Si vostè està buscant un Aspose OCR C# Example, aquest guia serveix com una font integral. A més, per a tasques intricades com ara l’ús de C# API , aquest tutorial cobreix tots els elements essencials necessaris per començar eficaçment.

Per a aquells que vulguin avaluar el SDK de PDF i el programari de processament de documents de la companyia Aspose en OCR PDF SDk, aquest tutorial serveix com un excel·lent punt de partida per entendre les seves capacitats. sigui que necessiteu un C# DLL d’OCR per a la integració o un tutorial de C# OCR per al guia, trobareu tot el necessari per utilitzar eficaçment l’API en els vostres projectes.

A més, si voleu aprofitar el reconeixement de text C# o utilitzar la llibreria OCR per a diverses aplicacions, podeu explorar les característiques que Aspose ofereix per donar suport a aquestes funcionalitats. L’avaluació PDF SDK és una excel·lent oportunitat per experimentar amb les capacitats d’aquesta biblioteca, assegurant-vos que trobeu les solucions adequades a les vostres necessitats de l’OCR.

Finalment, si vostè necessita extreure text de PDF en C#, o utilitzar un OCR API C++, les característiques C# OCR PDF disponibles simplificaran el procés de desenvolupament i milloren la funcionalitat de la seva aplicació.

More in this category