A dokumentumfeldolgozás automatizálása jelentősen javíthatja a termelékenységet és pontosságot a különböző iparágakban, a jogi és pénzügyi szolgáltatásoktól az egészségügyig és a gyártásig. Az egyik hatékony eszköz erre a feladatra az Aspose.OCR for .NET, amely lehetővé teszi a fejlesztők számára, hogy nagy pontossal kivonják a szöveget a szkennelt dokumentumból és képekből. Ez a tankönyv azt mutatja, hogyan kell létrehozni és használni az Aspose-OCR-t a .Net-hez a dokumentumi feldolgozási feladatokat, beleértve az OCR műveleteket és az integrációt harmadik fél rendszerekkel.

Teljes példa

Az alábbiakban egy teljes példa (szállítva, mint egy héj) bemutatja, hogyan kell használni Aspose.OCR a .NET-hez, hogy OCR-t végezzen több képen egy kézikönyvben, és mentse a kivetett szöveget a megfelelő szöveges fájlokba.

lépésről lépésre útmutató

1. lépés: Az OCR motor kezdeményezése

Hozza létre és állítsa be az OCR-motort. Állítson be a kívánt nyelvet (English in this example).

// Step 1: Initialize the OCR Engine
using Aspose.Ocr;

using (Ocr ocrEngine = new Ocr())
{
    // Set language and other configurations if needed
    ocrEngine.Language = Language.English;

    // (Continue with steps below inside this using block)
}

2. lépés: Képek feltöltése a feldolgozáshoz

Állítsa be a belépési / kimeneti címkéket, győződjön meg róla, hogy a kiindulási mappát létezik, és felsorolja a képfájlokat.

// Step 2: Load Images for Processing
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\text";

if (!Directory.Exists(outputDirectory))
{
    Directory.CreateDirectory(outputDirectory);
}

// Get all files from the input directory (same pattern as the gist)
// TIP: to restrict to specific formats, replace "*.*" with "*.png" or "*.jpg"
string[] imageFiles = Directory.GetFiles(
    inputDirectory,
    "*.*",
    SearchOption.TopDirectoryOnly
);

3. lépés: Az OCR végrehajtása minden képen

A fájlok átlépése és a szöveg felismerése RecognizeImage(string path).

// Step 3: Perform OCR on Each Image
foreach (string imageFile in imageFiles)
{
    try
    {
        // Recognize text from the image (exactly as in the gist)
        string recognizedText = ocrEngine.RecognizeImage(imageFile);

        // Proceed to Step 4: save text to disk...
    }
    catch (Exception ex)
    {
        Console.WriteLine($"Error processing {imageFile}: {ex.Message}");
    }
}

4. lépés: mentse a kivont szöveget a fájlokba

Hozzon létre egy megfelelő .txt fájl minden feldolgozott képhez.

// Step 4: Save Extracted Text to Files
string outputFilePath = Path.Combine(
    outputDirectory,
    Path.GetFileNameWithoutExtension(imageFile) + ".txt"
);

File.WriteAllText(outputFilePath, recognizedText);

Console.WriteLine($"Processed: {imageFile} -> {outputFilePath}");

Tippek és Tweaks

  • Filter formátumok: Használjon mintákat, mint "*.png" vagy "*.jpg" A nem képes fájlok törlése.
  • Rekurzus aljzatok: Változás SearchOption.TopDirectoryOnly hogy SearchOption.AllDirectories.
  • A hajó üres kimenetei: Ha string.IsNullOrWhiteSpace(recognizedText)Regisztrálj és folytass!
  • Párhuzamos tálcák: Használat Parallel.ForEach(imageFiles, file => { ... }) gyorsabb futás (mind I/O és licenc).

Ezeket a lépéseket követve automatizálhatja az OCR-t az Aspose.OCR-vel a .NET-hez, és exportálja a tiszta szöveges fájlokat a downstream feldolgozáshoz.

More in this category