Konvertera skannade PDF till Word i C#

Introduktion

Skannade PDF-filer lagrar ofta text som bilder, vilket gör det omöjligt att välja, redigera eller kopiera innehållet. Om du behöver konvertera skannade PDF-filer till redigerbara Word-dokument, erbjuder teknologin för optisk teckenigenkänning (OCR) ett effektivt sätt att extrahera text samtidigt som den ursprungliga formateringen bevaras. I den här artikeln kommer du att lära dig hur du programmerar konvertering av skannade PDF-filer till Word (DOCX eller DOC) med C# med hjälp av biblioteken Aspose.OCR för .NET och Aspose.Words för .NET.

Varför konvertera skannade PDF-filer till Word?

Det finns flera övertygande skäl att konvertera skannade PDF-filer till Word-dokument:

  • Enkelt redigera skannade dokument: Modifiera text utan besväret med manuell omskrivning.
  • Extrahera text för vidare bearbetning: Använd den extraherade texten för analys eller andra tillämpningar.
  • Bevara layout och formatering: Håll den ursprungliga dokumentstrukturen medan du gör den redigerbar.
  • Automatisera OCR-baserad dokumentbearbetning: Integrera denna funktionalitet i dina C#-applikationer sömlöst.

Innehållsförteckning

  1. Ställ in OCR API för konvertering av skannad PDF till Word
  2. Konvertera skannad PDF till redigerbart Word-dokument
  3. Bevara formatering vid OCR-konvertering
  4. Hantera flera sidor i skannade PDF-filer
  5. Licens för full OCR-noggrannhet
  6. Slutsats och ytterligare resurser

1. Ställ in OCR API för konvertering av skannad PDF till Word

För att extrahera text från skannade PDF-filer och konvertera dem till Word-dokument kommer vi att använda:

Installation

Du kan enkelt installera dessa API:er via NuGet med följande kommandon:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

Alternativt kan du ladda ner DLL-filerna från Aspose Downloads Page.


2. Konvertera skannad PDF till redigerbart Word-dokument

Följ dessa steg för att konvertera skannade PDF-filer till Word (DOCX eller DOC) i C#:

  1. Initiera OCR med AsposeOcr.
  2. Extrahera text med DocumentRecognitionSettings.
  3. Spara den igenkända texten i en StringBuilder.
  4. Skapa ett Word-dokument med Aspose.Words.
  5. Tillämpa formatering och spara som DOCX eller DOC.

Kodexempel

Här är ett C#-exempel som demonstrerar konvertering av skannad PDF till Word:


3. Bevara formatering vid OCR-konvertering

Även om OCR-textutvinning är kraftfull, kanske den inte alltid bevarar den ursprungliga formateringen, typsnitten och stilarna. För att säkerställa noggrann formatering, överväg följande tips:

  • Använd Aspose.Words stycke stilar för att tillämpa konsekvent textformatering.
  • Ställ in typsnittsegenskaper såsom storlek, fetstil, kursiv och justering.
  • Justera sidmarginaler och layout för förbättrad Word-dokumentutdata.

4. Hantera flera sidor i skannade PDF-filer

För flera sidor i skannade PDF-filer är det avgörande att bearbeta och sammanfoga text från alla sidor till ett enda Word-dokument. För att uppnå detta:

  • Loop genom varje sida i den skannade PDF-filen.
  • Känn igen text per sida och spara den i en StringBuilder.
  • Lägg till den igenkända texten i Word-dokumentet.

Denna metod säkerställer sömlös konvertering av fler-sidiga PDF-filer till Word.


5. Licens för full OCR-noggrannhet

Som standard fungerar Aspose.OCR i utvärderingsläge, vilket kan begränsa noggrannheten i textigenkänning. För att låsa upp API:ets fulla potential:

🔹 Begär en Gratis temporär licens för utvärderingsändamål.


6. Slutsats och ytterligare resurser

Sammanfattning

I den här guiden har vi täckt:

✅ Ställ in Aspose.OCR för bearbetning av skannade PDF-filer
✅ Extrahera text från skannade PDF-filer i C#
✅ Konvertera igenkänd text till ett formaterat Word-dokument
✅ Hantera konvertering av fler-sidiga skannade PDF-filer till Word


Genom att utnyttja Aspose.OCR och Aspose.Words kan du enkelt konvertera bildbaserade PDF-filer till redigerbara Word-filer. Börja bygga din OCR-drivna PDF till Word-konverterare i .NET idag för endast $99! 🚀