Aspose.OCR for .NET tarjoaa tehokkaan ratkaisun tähän ongelmaan antamalla kehittäjille mahdollisuuden poistaa tekstiä kuvista ja tehdä niistä etsimättömiksi. Tämä blogikirjoitus ohjaa sinua prosessin kautta asettaa kehitysympäristösi, määrittää tunnistamisasetukset, tuoda teksti pakkauksessa, rakentaa tai päivittää hakutuloksen, integroida hakutoiminto arkisto-näytöllä ja lisätä vahva virheen käsittely. Tämän oppaan lopussa sinulla on kattava ymmärrys siitä, miten skannattuja asiakirjoja voidaan hakea käyttämällä Asposa.ocR .Net.
Täydellinen esimerkki
Vaiheittainen opas
Vaihe 1: Luo kehityskeskuksesi
Aloittaa Aspose.OCR .NET, sinun täytyy olla kehitysympäristö asennettu. Tämä sisältää asentaminen tarvittavat SDK ja kaikki riippuvuudet. Voit ladata uusimman version Asposa.ocR viralliselta verkkosivustolta ja lisätä sen projektisi kautta NuGet tai viittaamalla DLL suoraan.
Vaihe 2: Järjestä arkiston tiedostoja
Ennen kuin aloitat asiakirjojen käsittelyn, järjestä skannattu dokumentti tiedostot direktiivin rakenteeseen, joka tekee merkityksellistä työnkulun. Tämä voi perustua päivämäärään, dokumenttyyppiin tai muihin asiaankuuluviin kriteereihin. Varmista, että kaikki tiedot ovat käytettävissä sovelluksesta ja että ne ovat Aspose.OCR: n tukemassa muodossa (kuten JPEG, PNG, TIFF jne.).
Vaihe 3: Tunnistuksen asetukset
Aspose.OCR mahdollistaa tunnistamisprosessin tyhjentämisen erityistarpeiden mukaisesti. Voit määrittää asetuksia, kuten kieltä, fontti-tyyppiä ja kuvan ennalta käsittelymahdollisuuksia. Esimerkiksi, jos työskentelet asiakirjojen kanssa englanniksi, sinun pitäisi asettaa kieli “Englanti”. Lisäksi saatat haluta säätää DPI-asetusta parempaan tekstin havaitsemiseen korkean resoluution kuvissa.
// Step 2: Organize scanned document files into a directory structure
string inputDirectory = @"C:\ScannedDocuments\2023\Invoices";
string[] supportedFormats = { ".jpg", ".png", ".tiff" };
// Get all supported files from the directory
var files = Directory.GetFiles(inputDirectory)
.Where(f => supportedFormats.Contains(Path.GetExtension(f), StringComparer.OrdinalIgnoreCase))
.ToArray();
Vaihe 4: Tekstin poisto Batchissa
Kun asetukset on määritelty, voit aloittaa tekstin tuottamisen asiakirjoistasi. Aspose.OCR tukee pakkauksen käsittelyä, mikä tarkoittaa, että voit käsitellä useita tiedostoja kerralla. Tämä on erityisen hyödyllistä skannattujen tiedoston suurille arkistoille.
// Step 3: Configuring Recognition Settings
ocrEngine.SetLanguage(Language.English);
ocrEngine.SetImagePreprocessing(ImagePreprocessingOptions.Denoising);
ocrEngine.SetResolution(300); // Set DPI for better text detection
Vaihe 5: Hakuindeksin rakentaminen tai päivittäminen
Kun olet poistanut tekstin asiakirjoistasi, sinun on rakennettava tai päivitettävä hakukirja, jonka avulla käyttäjät voivat nopeasti löytää asiaankuuluvia dokumenteja avainsanojen pohjalta.Tämä sisältää poistetun tekstien tallentamisen hakuvassa muodossa, kuten tietokannassa tai käännetyssä indeksitiedostossa.
// Step 4: Extract text in batch from a directory of images
string inputDirectory = @"path\to\input\images";
string outputDirectory = @"path\to\output\results";
ocrEngine.RecognizeMultiple(inputDirectory, outputDirectory);
Vaihe 6: Haun integrointi Archive Viewerin kanssa
Jotta hakuvasi asiakirjat ovat käytettävissä loppukäyttäjille, sinun on integroitava hakutoiminto arkisto-näytön sovellukseen. Tämä voi olla web-pohjainen käyttöliittymä tai työpöytä-sovellus. Näyttelijän pitäisi antaa käyttäjälle mahdollisuuden etsiä indeksoidun tekstin kautta ja tarkastella vastaavia skannatuotteita.
// Step 5: Building or Updating a Search Index
// Store extracted text in a searchable format (e.g., database or inverted index file)
string extractedText = ocrEngine.RecognizePage("scannedDocument.png").CodeText;
File.WriteAllText("searchIndex.txt", extractedText);
Vaihe 7: Virheiden käsittely
Loppujen lopuksi on tärkeää lisätä vakaa virheen käsittely sovellukseen varmistaaksesi, että se voi kohteliaasti käsitellä odottamattomia ongelmia, kuten korruptoituja tiedostoja tai verkkovirheitä.
Parhaat käytännöt
Skannattujen asiakirjojen tekeminen on tehokas tapa parantaa digitaalisen tiedoston käytettävyyttä. Noudattamalla tässä opinnäytetyössä esitetyjä askeleita voit hyödyntää Aspose.OCR for .NET tekstiä kuvista ja integroida sitä etsimättömään muotoon. Muista testata sovelluksesi perusteellisesti erilaisilla dokumenteilla ja eri ehdoilla luotettavuuden varmistamiseksi. Lisäksi harkitse toteuttamista ominaisuuksia, kuten OCR laadun arviointi ja automaattinen korjaus lisätä tekstin tuotantoprosessin tarkkuutta.