Kereshetővé teszi a szkennelt dokumentumokat az Aspose.OCR .NET segítségével | File Format Processing Plugins for C# .NET Core

Az Aspose.OCR for .NET hatékony megoldást kínál ennek a problémának, lehetővé téve a fejlesztők számára, hogy a szövegeket a képekből kivonják és kereshetővé tegyék. Ez a blog bejegyzés útmutatja Önt a fejlődési környezet beállításának folyamatán keresztül, a felismerési beállítások konfigurálásával, szöveg kivonatával a csomagban, keresési index létrehozásával vagy frissítésével, az archív nézővel való keresőfunkció integrációjával és robusztus hibaelhárítással.

Teljes példa

lépésről lépésre útmutató

1. lépés: Fejleszteni a környezetét

Ahhoz, hogy elkezdődjön az Aspose.OCR .NET-hez, létre kell hoznia a fejlesztési környezetet.Ez magában foglalja a szükséges SDK és bármilyen függőség telepítését.A hivatalos weboldalról letöltheti a legújabb verzióját és hozzáadhatja a projekthez a NuGet-en keresztül vagy közvetlenül a DLL-re hivatkozva.

2. lépés: Készítsen archív fájlokat

Mielőtt elkezdené a dokumentumok feldolgozását, szervezze meg a szkennelt dokumentumait egy olyan kézikönyv szerkezetbe, amely értelmet nyújt a munkafolyamathoz. Ez a dátumon, a Dokumentumtípuson vagy bármely más releváns kritériumon alapulhat. Győződjön meg róla, hogy az összes fájl az Ön alkalmazásából érhető el és az Aspose.OCR által támogatott formátumban van (például JPEG, PNG, TIFF stb.).

3. lépés: A felismerési beállítások beállítása

Az Aspose.OCR lehetővé teszi, hogy a felismerési folyamat tökéletesen illeszkedik az Ön speciális igényeinek. beállíthatja a beállításokat, mint például a nyelv, a betűtípus és a kép előfeldolgozási lehetőségek. Például, ha dolgozik a dokumentumok angol nyelven, akkor a nyelvet “angol”. Ezenkívül szeretne módosítani a DPI-beállítást a jobb szöveges felderítés a nagy felbontású képeket.

// Step 2: Organize scanned document files into a directory structure
string inputDirectory = @"C:\ScannedDocuments\2023\Invoices";
string[] supportedFormats = { ".jpg", ".png", ".tiff" };

// Get all supported files from the directory
var files = Directory.GetFiles(inputDirectory)
                     .Where(f => supportedFormats.Contains(Path.GetExtension(f), StringComparer.OrdinalIgnoreCase))
                     .ToArray();

4. lépés: A szöveg kivonása a Batch-ban

Miután a beállításokat beállították, elkezdheti a szöveg kivonását a dokumentumokból.A Aspose.OCR támogatja a csomagkezelést, ami azt jelenti, hogy egyszerre több fájlt is feldolgozhat.Ez különösen hasznos a szkenneltek nagyszámú archívumaihoz.Meghatározhatja a képeket tartalmazó directory-t, és hagyja, ha az Asposa.ocR kezeli a többit.

// Step 3: Configuring Recognition Settings
ocrEngine.SetLanguage(Language.English);
ocrEngine.SetImagePreprocessing(ImagePreprocessingOptions.Denoising);
ocrEngine.SetResolution(300); // Set DPI for better text detection

5. lépés: Keresési index létrehozása vagy frissítése

A dokumentumokból származó szöveg kivonása után olyan keresési indexet kell létrehozni vagy frissíteni, amely lehetővé teszi a felhasználók számára, hogy a kulcsszavak keresése alapján gyorsan megtalálják a releváns dokumentumaikat.

// Step 4: Extract text in batch from a directory of images
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\results";

ocrEngine.RecognizeMultiple(inputDirectory, outputDirectory);

6. lépés: Keresés integrálása egy archív nézővel

Annak érdekében, hogy a kereshető dokumentumok hozzáférhetővé váljanak a végfelhasználók számára, be kell integrálnia az keresési funkciót egy archív néző alkalmazásba. Ez lehet egy webalapú felület vagy asztali program. A nézetnek lehetővé kell tennie a felhasználóknak a indexelt szövegen keresztül keresni és megnézni a megfelelő szkennelt dokumentumait.

// Step 5: Building or Updating a Search Index
// Store extracted text in a searchable format (e.g., database or inverted index file)
string extractedText = ocrEngine.RecognizePage("scannedDocument.png").CodeText;
File.WriteAllText("searchIndex.txt", extractedText);

7. lépés: Hibaelhárítás hozzáadása

Végül fontos, hogy erős hibaelhárítást adjon az alkalmazásához annak biztosítása érdekében, որ kegyelmesen kezeli a váratlan problémákat, mint például a korrupt fájlokat vagy a hálózati hibákat.

Legjobb gyakorlatok

A szkennelt dokumentumok kereshetővé tétele erőteljes módja a digitális archívák használhatóságának javításának. Azáltal, hogy kövesse az ebben a tankönyvben felsorolt lépéseket, használhatja az Aspose.OCR for .NET-et a képekből származó szöveget kivonásához és egy kereshetõ formátumba integrálásához. Ne feledkezzen meg alaposan tesztelni alkalmazását a különböző típusú dokumentációkkal és különböző körülmények között a megbízhatóságról. Ezenkívül fontolja meg az olyan funkciók végrehajtását, mint az OCR minőségi értékelése és az automatikus korrekció a szöveg kivonatának pontosságának további javítása érdekében.

Teljes példa#

lépésről lépésre útmutató#

1. lépés: Fejleszteni a környezetét#

2. lépés: Készítsen archív fájlokat#

3. lépés: A felismerési beállítások beállítása#

4. lépés: A szöveg kivonása a Batch-ban#

5. lépés: Keresési index létrehozása vagy frissítése#

6. lépés: Keresés integrálása egy archív nézővel#

7. lépés: Hibaelhárítás hozzáadása#

Legjobb gyakorlatok#

More in this category