Az Aspose.OCR for .NET hatékony megoldást kínál ennek a problémának, lehetővé téve a fejlesztők számára, hogy a szövegeket a képekből kivonják és kereshetővé tegyék. Ez a blog bejegyzés útmutatja Önt a fejlődési környezet beállításának folyamatán keresztül, a felismerési beállítások konfigurálásával, szöveg kivonatával a csomagban, keresési index létrehozásával vagy frissítésével, az archív nézővel való keresőfunkció integrációjával és robusztus hibaelhárítással.
Teljes példa
lépésről lépésre útmutató
1. lépés: Fejleszteni a környezetét
Ahhoz, hogy elkezdődjön az Aspose.OCR .NET-hez, létre kell hoznia a fejlesztési környezetet.Ez magában foglalja a szükséges SDK és bármilyen függőség telepítését.A hivatalos weboldalról letöltheti a legújabb verzióját és hozzáadhatja a projekthez a NuGet-en keresztül vagy közvetlenül a DLL-re hivatkozva.
2. lépés: Készítsen archív fájlokat
Mielőtt elkezdené a dokumentumok feldolgozását, szervezze meg a szkennelt dokumentumait egy olyan kézikönyv szerkezetbe, amely értelmet nyújt a munkafolyamathoz. Ez a dátumon, a Dokumentumtípuson vagy bármely más releváns kritériumon alapulhat. Győződjön meg róla, hogy az összes fájl az Ön alkalmazásából érhető el és az Aspose.OCR által támogatott formátumban van (például JPEG, PNG, TIFF stb.).
3. lépés: A felismerési beállítások beállítása
Az Aspose.OCR lehetővé teszi, hogy a felismerési folyamat tökéletesen illeszkedik az Ön speciális igényeinek. beállíthatja a beállításokat, mint például a nyelv, a betűtípus és a kép előfeldolgozási lehetőségek. Például, ha dolgozik a dokumentumok angol nyelven, akkor a nyelvet “angol”. Ezenkívül szeretne módosítani a DPI-beállítást a jobb szöveges felderítés a nagy felbontású képeket.
// Step 2: Organize scanned document files into a directory structure
string inputDirectory = @"C:\ScannedDocuments\2023\Invoices";
string[] supportedFormats = { ".jpg", ".png", ".tiff" };
// Get all supported files from the directory
var files = Directory.GetFiles(inputDirectory)
.Where(f => supportedFormats.Contains(Path.GetExtension(f), StringComparer.OrdinalIgnoreCase))
.ToArray();
4. lépés: A szöveg kivonása a Batch-ban
Miután a beállításokat beállították, elkezdheti a szöveg kivonását a dokumentumokból.A Aspose.OCR támogatja a csomagkezelést, ami azt jelenti, hogy egyszerre több fájlt is feldolgozhat.Ez különösen hasznos a szkenneltek nagyszámú archívumaihoz.Meghatározhatja a képeket tartalmazó directory-t, és hagyja, ha az Asposa.ocR kezeli a többit.
// Step 3: Configuring Recognition Settings
ocrEngine.SetLanguage(Language.English);
ocrEngine.SetImagePreprocessing(ImagePreprocessingOptions.Denoising);
ocrEngine.SetResolution(300); // Set DPI for better text detection
5. lépés: Keresési index létrehozása vagy frissítése
A dokumentumokból származó szöveg kivonása után olyan keresési indexet kell létrehozni vagy frissíteni, amely lehetővé teszi a felhasználók számára, hogy a kulcsszavak keresése alapján gyorsan megtalálják a releváns dokumentumaikat.
// Step 4: Extract text in batch from a directory of images
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\results";
ocrEngine.RecognizeMultiple(inputDirectory, outputDirectory);
6. lépés: Keresés integrálása egy archív nézővel
Annak érdekében, hogy a kereshető dokumentumok hozzáférhetővé váljanak a végfelhasználók számára, be kell integrálnia az keresési funkciót egy archív néző alkalmazásba. Ez lehet egy webalapú felület vagy asztali program. A nézetnek lehetővé kell tennie a felhasználóknak a indexelt szövegen keresztül keresni és megnézni a megfelelő szkennelt dokumentumait.
// Step 5: Building or Updating a Search Index
// Store extracted text in a searchable format (e.g., database or inverted index file)
string extractedText = ocrEngine.RecognizePage("scannedDocument.png").CodeText;
File.WriteAllText("searchIndex.txt", extractedText);
7. lépés: Hibaelhárítás hozzáadása
Végül fontos, hogy erős hibaelhárítást adjon az alkalmazásához annak biztosítása érdekében, որ kegyelmesen kezeli a váratlan problémákat, mint például a korrupt fájlokat vagy a hálózati hibákat.
Legjobb gyakorlatok
A szkennelt dokumentumok kereshetővé tétele erőteljes módja a digitális archívák használhatóságának javításának. Azáltal, hogy kövesse az ebben a tankönyvben felsorolt lépéseket, használhatja az Aspose.OCR for .NET-et a képekből származó szöveget kivonásához és egy kereshetõ formátumba integrálásához. Ne feledkezzen meg alaposan tesztelni alkalmazását a különböző típusú dokumentációkkal és különböző körülmények között a megbízhatóságról. Ezenkívül fontolja meg az olyan funkciók végrehajtását, mint az OCR minőségi értékelése és az automatikus korrekció a szöveg kivonatának pontosságának további javítása érdekében.
More in this category
- Automatizált AP: Aspose.OCR Számlázás a .NET szöveghez
- Automatizálja az OCR-t az Aspose.OCR használatával a .NET-hez
- Automatikus adatbevétel az Aspose.OCR segítségével a .NET-hez
- Automatikus DMS címkézés az Aspose.OCR használatával a .NET-hez
- Automatikus dokumentumfeldolgozás az Aspose.OCR .NET használatával