Convert Scanned PDF to Word in C#

Wprowadzenie

Skanowane pliki PDF często zawierają tekst jako obrazy, co sprawia, że nie można wybrać, edytować lub skopiować zawartości. Jeśli potrzebujesz przekonwertowania skanowanych plików PDF do edytowalnych dokumentów Word, technologia Optical Character Recognition (OCR) oferuje efektywny sposób na ekstrakcję tekstu przy zachowaniu oryginalnego formatowania. W tym artykule dowiesz się, jak programowo przekonwertować skanowane pliki PDF do Word (DOCX lub DOC) za pomocą C# z Aspose.OCR dla .NET i Aspose.Words dla .NET bibliotek.

Dlaczego przekonwertować skanowane pliki PDF na Word?

Istnieje kilka przyczyn koniecznych do konwersji skanowanych dokumentów PDF do dokumentów programu Word:

  • Łatwo edytować skanowane dokumenty: Modyfikuj tekst bez uszkodzenia ręcznego odtwarzania.
  • Teks ekstrakcji do dalszej przetwarzania: Wykorzystaj tekst ekstrakcji do analizy lub integracji do innych aplikacji.
  • Utrzymanie aranżacji i formatowania: Utrzymanie struktury oryginalnego dokumentu, jednocześnie czyniąc go edytowalnym.
  • Automate OCR-Based Document Processing: Integruj tę funkcję bezprzewodowo w aplikacje C#.

Tabela zawartości

1. ustawić API OCR do skanowanego PDF do konwersji Word

Aby wyciągnąć tekst z skanowanych plików PDF i przekształcić je w dokumenty programu Word, będziemy korzystać z:

Instalacja

Możesz łatwo zainstalować te API za pośrednictwem NuGet za pomocą następujących poleceń:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

Alternatywnie, można pobrać DLL z Aspose Downloads strona.

Konwertuj skanowany dokument PDF na edycyjny dokument słowny

Postępuj zgodnie z następującymi krokami, aby konwertować skanowane pliki PDF do Word (DOCX lub DOC) w C#:

  • Inicjalizacja OCR z AsposeOcr.
  • Wykorzystanie tekstu DocumentRecognitionSettings.
  • Przekierowany tekst w A StringBuilder.
  • Tworzenie dokumentu Word przy użyciu Aspose.Words.
  • Aplikuj formatowanie i przechowuj jako DOCX lub DOC.

Kod próbki

Oto przykład C#, który pokazuje skanowany PDF do konwersji Word:

Utrzymanie formatowania w konwersji OCR

Podczas gdy ekstrakcja tekstu OCR jest potężna, nie zawsze może zachować oryginalnego formatowania, czcionek i stylów. Aby zapewnić dokładne formatowanie, należy wziąć pod uwagę następujące wskazówki:

  • Użyj Aspose.Words Paragraph Styles w celu zastosowania spójnego formatowania tekstu.
  • Ustaw właściwości czcionek, takie jak rozmiar, odwaga, italika i alignment.
  • Ustaw marże strony i układ dla ulepszonej wydajności dokumentu programu Word.

Zarządzanie wieloma stronami w skanowanych plikach PDF

W przypadku plików plików plików plików plików plików plików plików plików plików plików plików plików plików plików plików plików plików plików plików plików plików plików plików plików plików plików plików plików plików plików plików plików plików.

  • Przejdź przez każdą stronę w skanowanym pliku PDF.
  • rozpoznaj tekst na stronę i przechowuj go w StringBuilder.
  • Przyłącz uznany tekst do dokumentu Word.

Podejście to zapewnia bezprzewodową konwersję PDF do programu Word.

Licencja na pełną dokładność OCR

Podstawowo, Aspose.OCR działa w trybie oceny, który może ograniczyć dokładność rozpoznawania tekstu.

Wniosek o bezpłatną licencję tymczasową (https://purchase.aspose.com/temporary-license) do celów oceny.

Konkluzje i dodatkowe zasoby

Podsumowanie

W tym przewodniku obejmujemy:

  • Ustawienie Aspose.OCR do skanowanego przetwarzania plików PDF
  • Ekstrakcja tekstu z skanowanych plików PDF w C#
  • Konwersja zidentyfikowanego tekstu na formatowany dokument Word
  • Zarządzanie Multi-page skanowane PDF do konwersji Word

Korzystając z Aspose.OCR i Aspose.Words, możesz bez wysiłku konwertować pliki PDF oparte na obrazie do edytowalnych plików Word. Rozpocznij budowę plików PDF do konwertera Word w .NET dzisiaj za zaledwie $99!

Dodatkowe wskazówki dotyczące skanowanej konwersji PDF

Jeśli szukasz sposobów na poprawę twojego przepływu pracy, zastanów się nad użyciem funkcji C# OCR PDF do tekstu lub C# PDF to DOCX rozwiązań dla bardziej zaawansowanego przetwarzania. Czy musisz konwertować skanowany PDF na Word do edycji, czy po prostu chcesz convert skany dokument pdf do Word , te metody zapewniają nieocenioną obsługę. Dla tych, którzy pytają, jak konwertuję skanowaną PDF w Word? wspomniane narzędzia bez wysiłku poprowadzą cię przez proces.

Skanowanie PDF do konwersji słów

Wreszcie, dla bardziej dostosowanych rozwiązań, dowiedź się, jak przekonwertować skanowany plik PDF do Word lub użyć biblioteki rozpoznawania tekstu C#, aby poprawić swoje możliwości przetwarzania dokumentów. te zasoby okażą się korzystne dla każdego, kto regularnie zajmuje się skanerowanymi dokumentami. Możesz również używać narzędzi do przekształcania C# PDF- do DOCX w celu ułatwienia konwersji lub polegać na metody c# OCR PDF to Text do uproszczenia przepływu pracy ekstrakcji tekstu z obrazu.

More in this category