Aspose.OCR for .NET은 개발자가 이미지에서 텍스트를 추출하고 검색 가능하게함으로써이 문제에 대한 강력한 해결책을 제공합니다.이 블로그 포스트는 개발 환경을 설정하는 과정을 통해 당신을 안내하고, 인식 설정을 구축하며, 배치에 문서를 제출하거나 검색 인덱스를 업데이트하며 아카이브 시청자와 검색 기능을 통합하고 강렬한 오류 처리 기능이 추가됩니다.

완전한 예제

단계별 가이드

단계 1 : 개발 환경을 설정하십시오.

.NET에 대한 Aspose.OCR을 시작하려면 개발 환경이 설정되어 있어야 합니다.이것은 필요한 SDK 및 모든 중독을 설치하는 것을 포함합니다.당신은 공식 웹 사이트에서 최신 버전을 다운로드하고 NuGet를 통해 프로젝트에 추가하거나 DLL를 직접 참조 할 수 있습니다.

단계 2 : 파일을 구성하는 방법

문서를 처리하기 전에 스캔 된 문서 파일을 작업 흐름에 합리적인 디렉토리 구조로 구성하십시오.이것은 날짜, 서류 유형 또는 다른 관련 기준을 기반으로 할 수 있습니다.모든 파일이 응용 프로그램에서 접근 가능하고 Aspose.OCR (예 : JPEG, PNG, TIFF 등)에 의해 지원되는 형식에 있는지 확인합니다.

단계 3: 인식 설정을 설정

Aspose.OCR은 특정 요구 사항에 맞게 인식 프로세스를 정리 할 수 있습니다.당신은 언어, 글꼴 유형 및 이미지 사전 처리 옵션과 같은 설정을 설정할 수있다.예를 들어, 당신이 영어 문서와 함께 작업하는 경우,그것은 “영어"로 설정합니다.또한,당시 고해상도 이미지에서 더 나은 텍스트 탐지에 대한 DPI 설정을 조정하고 싶을 것입니다.

// Step 2: Organize scanned document files into a directory structure
string inputDirectory = @"C:\ScannedDocuments\2023\Invoices";
string[] supportedFormats = { ".jpg", ".png", ".tiff" };

// Get all supported files from the directory
var files = Directory.GetFiles(inputDirectory)
                     .Where(f => supportedFormats.Contains(Path.GetExtension(f), StringComparer.OrdinalIgnoreCase))
                     .ToArray();

단계 4 : 배치에서 텍스트 추출

설정이 설정되면 문서에서 텍스트를 추출하기 시작할 수 있습니다. Aspose.OCR은 배치 처리를 지원합니다.이것은 여러 파일을 동시에 처리 할 수 있음을 나타냅니다. 이것은 스캔 된 서류의 큰 아카이브에 특히 도움이됩니다.

// Step 3: Configuring Recognition Settings
ocrEngine.SetLanguage(Language.English);
ocrEngine.SetImagePreprocessing(ImagePreprocessingOptions.Denoising);
ocrEngine.SetResolution(300); // Set DPI for better text detection

단계 5 : 검색 인덱스를 구축하거나 업데이트

문서에서 텍스트를 추출 한 후 사용자가 키워드 검색을 바탕으로 관련 문서를 신속하게 찾을 수있는 검색 인덱스를 구축하거나 업데이트해야합니다.이것은 검색 가능한 형식, 예를 들어 데이터베이스 또는 변환 된 지덱스 파일과 같은 추방 된 녹음을 저장하는 것을 포함한다.

// Step 4: Extract text in batch from a directory of images
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\results";

ocrEngine.RecognizeMultiple(inputDirectory, outputDirectory);

단계 6 : Archive Viewer와 검색을 통합

검색 가능한 문서를 최종 사용자에게 접근 할 수 있도록, 당신은 검색 기능을 아카이브 시청자 응용 프로그램에 통합해야합니다.이 웹 기반 인터페이스 또는 데스크톱 애플리케이션이 될 수 있습니다.

// Step 5: Building or Updating a Search Index
// Store extracted text in a searchable format (e.g., database or inverted index file)
string extractedText = ocrEngine.RecognizePage("scannedDocument.png").CodeText;
File.WriteAllText("searchIndex.txt", extractedText);

단계 7 : 오류 처리 추가

마지막으로, 당신의 응용 프로그램에 강력한 오류 처리를 추가하는 것이 중요합니다 그것은 부패 된 파일이나 네트워크 실수와 같은 예기치 않은 문제를 친절하게 처리 할 수 있도록.이 데뷔 목적을 위해 로그링 실수를 포함하고 필요할 때 사용자 친화적 인 오해 메시지를 제공합니다.

모범 사례

스캔 된 문서를 검색 가능하게하는 것은 디지털 아카이브의 사용 가능성을 향상시키는 강력한 방법입니다.이 튜토리얼에서 설명한 단계를 따르면 Aspose.OCR for .NET을 사용하여 이미지에서 텍스트를 추출하고 검색 가능한 형식으로 통합 할 수 있습니다. 다른 유형의 문서와 신뢰성을 보장하기 위해 다양한 조건에서 응용 프로그램을 철저히 테스트하는 것을 기억하십시오.

More in this category