
Introduktion
Skannade PDF-filer lagrar ofta text som bilder, vilket gör det omöjligt att välja, redigera eller kopiera innehållet. Om du behöver konvertera skannade PDF-filer till redigerbara Word-dokument, erbjuder teknologin för optisk teckenigenkänning (OCR) ett effektivt sätt att extrahera text samtidigt som den ursprungliga formateringen bevaras. I den här artikeln kommer du att lära dig hur du programmerar konvertering av skannade PDF-filer till Word (DOCX eller DOC) med C# med hjälp av biblioteken Aspose.OCR för .NET och Aspose.Words för .NET.
Varför konvertera skannade PDF-filer till Word?
Det finns flera övertygande skäl att konvertera skannade PDF-filer till Word-dokument:
- Enkelt redigera skannade dokument: Modifiera text utan besväret med manuell omskrivning.
- Extrahera text för vidare bearbetning: Använd den extraherade texten för analys eller andra tillämpningar.
- Bevara layout och formatering: Håll den ursprungliga dokumentstrukturen medan du gör den redigerbar.
- Automatisera OCR-baserad dokumentbearbetning: Integrera denna funktionalitet i dina C#-applikationer sömlöst.
Innehållsförteckning
- Ställ in OCR API för konvertering av skannad PDF till Word
- Konvertera skannad PDF till redigerbart Word-dokument
- Bevara formatering vid OCR-konvertering
- Hantera flera sidor i skannade PDF-filer
- Licens för full OCR-noggrannhet
- Slutsats och ytterligare resurser
1. Ställ in OCR API för konvertering av skannad PDF till Word
För att extrahera text från skannade PDF-filer och konvertera dem till Word-dokument kommer vi att använda:
- Aspose.OCR för .NET – Ett kraftfullt verktyg som känner igen text från skannade bilder.
- Aspose.Words för .NET – Detta bibliotek konverterar den extraherade texten till Word-format.
Installation
Du kan enkelt installera dessa API:er via NuGet med följande kommandon:
PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words
Alternativt kan du ladda ner DLL-filerna från Aspose Downloads Page.
2. Konvertera skannad PDF till redigerbart Word-dokument
Följ dessa steg för att konvertera skannade PDF-filer till Word (DOCX eller DOC) i C#:
- Initiera OCR med
AsposeOcr
. - Extrahera text med
DocumentRecognitionSettings
. - Spara den igenkända texten i en
StringBuilder
. - Skapa ett Word-dokument med
Aspose.Words
. - Tillämpa formatering och spara som DOCX eller DOC.
Kodexempel
Här är ett C#-exempel som demonstrerar konvertering av skannad PDF till Word:
3. Bevara formatering vid OCR-konvertering
Även om OCR-textutvinning är kraftfull, kanske den inte alltid bevarar den ursprungliga formateringen, typsnitten och stilarna. För att säkerställa noggrann formatering, överväg följande tips:
- Använd Aspose.Words stycke stilar för att tillämpa konsekvent textformatering.
- Ställ in typsnittsegenskaper såsom storlek, fetstil, kursiv och justering.
- Justera sidmarginaler och layout för förbättrad Word-dokumentutdata.
4. Hantera flera sidor i skannade PDF-filer
För flera sidor i skannade PDF-filer är det avgörande att bearbeta och sammanfoga text från alla sidor till ett enda Word-dokument. För att uppnå detta:
- Loop genom varje sida i den skannade PDF-filen.
- Känn igen text per sida och spara den i en
StringBuilder
. - Lägg till den igenkända texten i Word-dokumentet.
Denna metod säkerställer sömlös konvertering av fler-sidiga PDF-filer till Word.
5. Licens för full OCR-noggrannhet
Som standard fungerar Aspose.OCR i utvärderingsläge, vilket kan begränsa noggrannheten i textigenkänning. För att låsa upp API:ets fulla potential:
🔹 Begär en Gratis temporär licens för utvärderingsändamål.
6. Slutsats och ytterligare resurser
Sammanfattning
I den här guiden har vi täckt:
✅ Ställ in Aspose.OCR för bearbetning av skannade PDF-filer
✅ Extrahera text från skannade PDF-filer i C#
✅ Konvertera igenkänd text till ett formaterat Word-dokument
✅ Hantera konvertering av fler-sidiga skannade PDF-filer till Word
Genom att utnyttja Aspose.OCR och Aspose.Words kan du enkelt konvertera bildbaserade PDF-filer till redigerbara Word-filer. Börja bygga din OCR-drivna PDF till Word-konverterare i .NET idag för endast $99! 🚀