
Wprowadzenie
Skanowane pliki PDF często zawierają tekst jako obrazy, co sprawia, że nie można wybrać, edytować lub skopiować zawartości. Jeśli potrzebujesz przekonwertowania skanowanych plików PDF do edytowalnych dokumentów Word, technologia Optical Character Recognition (OCR) oferuje efektywny sposób na ekstrakcję tekstu przy zachowaniu oryginalnego formatowania. W tym artykule dowiesz się, jak programowo przekonwertować skanowane pliki PDF do Word (DOCX lub DOC) za pomocą C# z Aspose.OCR dla .NET i Aspose.Words dla .NET bibliotek.
Dlaczego przekonwertować skanowane pliki PDF na Word?
Istnieje kilka przyczyn koniecznych do konwersji skanowanych dokumentów PDF do dokumentów programu Word:
- Łatwo edytować skanowane dokumenty: Modyfikuj tekst bez uszkodzenia ręcznego odtwarzania.
- Teks ekstrakcji do dalszej przetwarzania: Wykorzystaj tekst ekstrakcji do analizy lub integracji do innych aplikacji.
- Utrzymanie aranżacji i formatowania: Utrzymanie struktury oryginalnego dokumentu, jednocześnie czyniąc go edytowalnym.
- Automate OCR-Based Document Processing: Integruj tę funkcję bezprzewodowo w aplikacje C#.
Tabela zawartości
- Ustaw API OCR do skanowanej konwersji PDF do Word
- Konwertuj skanowany dokument PDF na edycyjny dokument słowny
- Utrzymanie formatowania w konwersji OCR
- Zarządzanie wieloma stronami w skanowanych plikach PDF
- Licencja na pełną dokładność OCR
- Konkluzje i dodatkowe zasoby
1. ustawić API OCR do skanowanego PDF do konwersji Word
Aby wyciągnąć tekst z skanowanych plików PDF i przekształcić je w dokumenty programu Word, będziemy korzystać z:
- Aspose.OCR dla .NET – potężne narzędzie, które rozpoznaje tekst z skanowanych obrazów.
- Aspose.Words for .NET – Ta biblioteka przekształca wyciągnięty tekst w format Word.
Instalacja
Możesz łatwo zainstalować te API za pośrednictwem NuGet za pomocą następujących poleceń:
PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words
Alternatywnie, można pobrać DLL z Aspose Downloads strona.
Konwertuj skanowany dokument PDF na edycyjny dokument słowny
Postępuj zgodnie z następującymi krokami, aby konwertować skanowane pliki PDF do Word (DOCX lub DOC) w C#:
- Inicjalizacja OCR z
AsposeOcr
. - Wykorzystanie tekstu
DocumentRecognitionSettings
. - Przekierowany tekst w A
StringBuilder
. - Tworzenie dokumentu Word przy użyciu
Aspose.Words
. - Aplikuj formatowanie i przechowuj jako DOCX lub DOC.
Kod próbki
Oto przykład C#, który pokazuje skanowany PDF do konwersji Word:
Utrzymanie formatowania w konwersji OCR
Podczas gdy ekstrakcja tekstu OCR jest potężna, nie zawsze może zachować oryginalnego formatowania, czcionek i stylów. Aby zapewnić dokładne formatowanie, należy wziąć pod uwagę następujące wskazówki:
- Użyj Aspose.Words Paragraph Styles w celu zastosowania spójnego formatowania tekstu.
- Ustaw właściwości czcionek, takie jak rozmiar, odwaga, italika i alignment.
- Ustaw marże strony i układ dla ulepszonej wydajności dokumentu programu Word.
Zarządzanie wieloma stronami w skanowanych plikach PDF
W przypadku plików plików plików plików plików plików plików plików plików plików plików plików plików plików plików plików plików plików plików plików plików plików plików plików plików plików plików plików plików plików plików plików plików plików.
- Przejdź przez każdą stronę w skanowanym pliku PDF.
- rozpoznaj tekst na stronę i przechowuj go w
StringBuilder
. - Przyłącz uznany tekst do dokumentu Word.
Podejście to zapewnia bezprzewodową konwersję PDF do programu Word.
Licencja na pełną dokładność OCR
Podstawowo, Aspose.OCR działa w trybie oceny, który może ograniczyć dokładność rozpoznawania tekstu.
Wniosek o bezpłatną licencję tymczasową (https://purchase.aspose.com/temporary-license) do celów oceny.
Konkluzje i dodatkowe zasoby
Podsumowanie
W tym przewodniku obejmujemy:
- Ustawienie Aspose.OCR do skanowanego przetwarzania plików PDF
- Ekstrakcja tekstu z skanowanych plików PDF w C#
- Konwersja zidentyfikowanego tekstu na formatowany dokument Word
- Zarządzanie Multi-page skanowane PDF do konwersji Word
Korzystając z Aspose.OCR i Aspose.Words, możesz bez wysiłku konwertować pliki PDF oparte na obrazie do edytowalnych plików Word. Rozpocznij budowę plików PDF do konwertera Word w .NET dzisiaj za zaledwie $99!
Dodatkowe wskazówki dotyczące skanowanej konwersji PDF
Jeśli szukasz sposobów na poprawę twojego przepływu pracy, zastanów się nad użyciem funkcji C# OCR PDF do tekstu lub C# PDF to DOCX rozwiązań dla bardziej zaawansowanego przetwarzania. Czy musisz konwertować skanowany PDF na Word do edycji, czy po prostu chcesz convert skany dokument pdf do Word , te metody zapewniają nieocenioną obsługę. Dla tych, którzy pytają, jak konwertuję skanowaną PDF w Word? wspomniane narzędzia bez wysiłku poprowadzą cię przez proces.
Skanowanie PDF do konwersji słów
Wreszcie, dla bardziej dostosowanych rozwiązań, dowiedź się, jak przekonwertować skanowany plik PDF do Word lub użyć biblioteki rozpoznawania tekstu C#, aby poprawić swoje możliwości przetwarzania dokumentów. te zasoby okażą się korzystne dla każdego, kto regularnie zajmuje się skanerowanymi dokumentami. Możesz również używać narzędzi do przekształcania C# PDF- do DOCX w celu ułatwienia konwersji lub polegać na metody c# OCR PDF to Text do uproszczenia przepływu pracy ekstrakcji tekstu z obrazu.
More in this category
- Tanie OCR: Wtyczki Aspose.OCR z opłatą za użycie dla .NET
- Wyszukiwanie tekstu z obrazów w C#
- OCR PDF i wyodrębnianie tekstu z PDF w C# przy użyciu Aspose.OCR dla API .NET
- Konwertuj zrzut ekranu na tekst za pomocą wtyczki Aspose.OCR za 99 USD w C#
- Konwertuj obraz na przeszukiwalny PDF z OCR przy użyciu C#