
Wprowadzenie
Zeskanowane pliki PDF często przechowują tekst jako obrazy, co uniemożliwia wybieranie, edytowanie lub kopiowanie treści. Jeśli potrzebujesz konwertować zeskanowane PDF na edytowalne dokumenty Word, technologia rozpoznawania znaków optycznych (OCR) zapewnia efektywny sposób na wydobycie tekstu przy zachowaniu oryginalnego formatowania. W tym artykule dowiesz się, jak programowo konwertować zeskanowane PDF na Word (DOCX lub DOC) przy użyciu C# z bibliotekami Aspose.OCR dla .NET oraz Aspose.Words dla .NET.
Dlaczego konwertować zeskanowane PDF na Word?
Istnieje kilka przekonujących powodów, aby konwertować zeskanowane PDF na dokumenty Word:
- Łatwe edytowanie zeskanowanych dokumentów: Modyfikuj tekst bez konieczności ręcznego przepisywania.
- Wydobywanie tekstu do dalszego przetwarzania: Wykorzystaj wydobyty tekst do analizy lub innych aplikacji.
- Zachowanie układu i formatowania: Utrzymaj strukturę oryginalnego dokumentu, jednocześnie czyniąc go edytowalnym.
- Automatyzacja przetwarzania dokumentów na podstawie OCR: Zintegruj tę funkcjonalność w swoich aplikacjach C# bezproblemowo.
Spis treści
- Ustawienie API OCR do konwersji zeskanowanego PDF na Word
- Konwersja zeskanowanego PDF na edytowalny dokument Word
- Zachowanie formatowania w konwersji OCR
- Obsługa wielu stron w zeskanowanych PDF
- Licencja na pełną dokładność OCR
- Podsumowanie i dodatkowe zasoby
1. Ustawienie API OCR do konwersji zeskanowanego PDF na Word
Aby wydobyć tekst z zeskanowanych PDF i przekonwertować je na dokumenty Word, wykorzystamy:
- Aspose.OCR dla .NET – Potężne narzędzie, które rozpoznaje tekst z zeskanowanych obrazów.
- Aspose.Words dla .NET – Ta biblioteka konwertuje wydobyty tekst na format Word.
Instalacja
Możesz łatwo zainstalować te API za pomocą NuGet, używając następujących poleceń:
PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words
Alternatywnie, możesz pobrać pliki DLL z Strony pobierania Aspose.
2. Konwersja zeskanowanego PDF na edytowalny dokument Word
Wykonaj te kroki, aby konwertować zeskanowane pliki PDF na Word (DOCX lub DOC) w C#:
- Zainicjalizuj OCR z
AsposeOcr
. - Wydobądź tekst za pomocą
DocumentRecognitionSettings
. - Przechowaj rozpoznany tekst w
StringBuilder
. - Utwórz dokument Word przy użyciu
Aspose.Words
. - Zastosuj formatowanie i zapisz jako DOCX lub DOC.
Przykład kodu
Oto przykład w C#, który demonstruje konwersję zeskanowanego PDF na Word:
3. Zachowanie formatowania w konwersji OCR
Chociaż wydobywanie tekstu za pomocą OCR jest potężne, nie zawsze może zachować oryginalne formatowanie, czcionki i style. Aby zapewnić dokładne formatowanie, rozważ następujące wskazówki:
- Wykorzystaj style akapitów Aspose.Words do zastosowania spójnego formatowania tekstu.
- Ustaw właściwości czcionki, takie jak rozmiar, pogrubienie, kursywa i wyrównanie.
- Dostosuj marginesy stron i układ dla poprawionej jakości dokumentu Word.
4. Obsługa wielu stron w zeskanowanych PDF
Dla zeskanowanych PDF wielostronicowych kluczowe jest przetworzenie i połączenie tekstu ze wszystkich stron w jeden dokument Word. Aby to osiągnąć:
- Przejdź przez każdą stronę w zeskanowanym PDF.
- Rozpoznaj tekst na stronie i przechowaj go w
StringBuilder
. - Dodaj rozpoznany tekst do dokumentu Word.
To podejście zapewnia bezproblemową konwersję PDF na Word w przypadku wielu stron.
5. Licencja na pełną dokładność OCR
Domyślnie Aspose.OCR działa w trybie oceny, co może ograniczać dokładność rozpoznawania tekstu. Aby odblokować pełny potencjał API:
🔹 Poproś o Darmową tymczasową licencję do celów oceny.
6. Podsumowanie i dodatkowe zasoby
Podsumowanie
W tym przewodniku omówiliśmy:
✅ Ustawienie Aspose.OCR do przetwarzania zeskanowanych PDF
✅ Wydobywanie tekstu z zeskanowanych PDF w C#
✅ Konwersję rozpoznanego tekstu na sformatowany dokument Word
✅ Obsługę konwersji zeskanowanego PDF na Word w przypadku wielu stron
Wykorzystując Aspose.OCR i Aspose.Words, możesz bez wysiłku konwertować PDF-y oparte na obrazach na edytowalne pliki Word. Zacznij budować swój konwerter PDF na Word z obsługą OCR w .NET już dziś za jedyne 99 USD! 🚀