Automatyzacja przetwarzania dokumentów może znacznie zwiększyć produktywność i dokładność w różnych branżach, od usług prawnych i finansowych po opiekę zdrowotną i produkcję. Jednym mocnym narzędziem dla tego zadania jest Aspose.OCR dla .NET, który umożliwia deweloperom wyciąganie tekstu z skanowanego dokumentu i obrazów z dużą precyzją.
Pełny przykład
Poniżej znajduje się kompletny przykład (hosted as a gist) pokazujący, jak użyć Aspose.OCR dla .NET do wykonania OCR na wielu obrazach w katalogu i przechowywać wyciągnięty tekst do odpowiednich plików tekstowych.
Przewodnik krok po kroku
Krok 1: Inicjalizuj silnik OCR
Tworzenie i konfiguracja silnika OCR. ustaw pożądany język (angielski w tym przykładzie).
// Step 1: Initialize the OCR Engine
using Aspose.Ocr;
using (Ocr ocrEngine = new Ocr())
{
// Set language and other configurations if needed
ocrEngine.Language = Language.English;
// (Continue with steps below inside this using block)
}
Krok 2: Pobierz obrazy do przetwarzania
Określ adresaty wejściowe/wyjścia, upewnij się, że folder wyjściowy istnieje i wymień pliki obrazowe.
// Step 2: Load Images for Processing
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\text";
if (!Directory.Exists(outputDirectory))
{
Directory.CreateDirectory(outputDirectory);
}
// Get all files from the input directory (same pattern as the gist)
// TIP: to restrict to specific formats, replace "*.*" with "*.png" or "*.jpg"
string[] imageFiles = Directory.GetFiles(
inputDirectory,
"*.*",
SearchOption.TopDirectoryOnly
);
Krok 3: Wykonaj OCR na każdym obrazie
Przeglądaj pliki i rozpoznaj tekst za pomocą RecognizeImage(string path)
.
// Step 3: Perform OCR on Each Image
foreach (string imageFile in imageFiles)
{
try
{
// Recognize text from the image (exactly as in the gist)
string recognizedText = ocrEngine.RecognizeImage(imageFile);
// Proceed to Step 4: save text to disk...
}
catch (Exception ex)
{
Console.WriteLine($"Error processing {imageFile}: {ex.Message}");
}
}
Krok 4: Zapisz wyciągnięty tekst do plików
Stwórz odpowiednik .txt
plik dla każdego obrazu przetworzonego.
// Step 4: Save Extracted Text to Files
string outputFilePath = Path.Combine(
outputDirectory,
Path.GetFileNameWithoutExtension(imageFile) + ".txt"
);
File.WriteAllText(outputFilePath, recognizedText);
Console.WriteLine($"Processed: {imageFile} -> {outputFilePath}");
Tytuł: Tips & Tweaks
- Formaty filtra: Użyj wzorów takich jak
"*.png"
lub"*.jpg"
Aby usunąć nie-image pliki. - Przekierowane podłogi: Zmiana
SearchOption.TopDirectoryOnly
doSearchOption.AllDirectories
. - Wyjście na pokład jest puste*: Jeśli
string.IsNullOrWhiteSpace(recognizedText)
Zapisz się i kontynuuj.
- Wyjście na pokład jest puste*: Jeśli
- ** Parallel batches**: Użyj
Parallel.ForEach(imageFiles, file => { ... })
Dla szybszych wyścigów (mind I/O i licencje).
Poprzez te kroki można zautomatyzować zestaw OCR z Aspose.OCR dla .NET i eksportować czyste pliki tekstowe do przetwarzania w dół.