Convert Scanned PDF to Word in C#

Увод

Скенирани ПДФ датотеке често садрже текст као слике, чинећи је немогуће одабрати, уређивати или копирати садржај. Ако вам је потребно да конвертујете скениране ПдФ у уређујуће Ворд документе, Оптичка препознавање карактера (ОЦР) технологија нуди ефикасан начин за извлачење текста док чува оригиналну форматирање.

Zašto pretvoriti skenirane PDF-ove u Word?

Постоји неколико неопходних разлога за конверзију скенираних ПДФ-а у Ворд документе:

  • Једноставно уређивање скенираних докумената: Модификујте текст без ручног ретипирања.
  • Екстракт текста за даље обраду: Користите извучен текст за анализу или интеграцију у друге апликације.
  • Одржавање распореда и форматирања: одржавање структуре оригиналног документа док га чини уређеним.
  • Аутоматска обрада докумената заснована на ОЦР-у: Интегрирајте ову функцију беспрекорно у своје апликације Ц #.

Табела садржаја

Поставите ОЦР АПИ за Скенирани ПДФ у Ворд конверзију

Да бисмо извукли текст из скенираних ПДФ-а и претворили их у Ворд документе, користићемо:

  • Aspose.OCR for .NET – Моћан алат који препознаје текст из скенираних слика.
  • Aspose.Words for .NET – Ова библиотека конвертује извучен текст у Word формат.

Инсталација

Можете лако инсталирати ове АПИ преко НуГет-а са следећим командама:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

Алтернативно, можете преузети ДЛЛ из Aspose Downloads Страница.

Конвертирајте Скенирани ПДФ у Редактирајуће Ворд Документ

Следите ове кораке да бисте конвертовали скениране ПДФ датотеке у Ворд (ДОЦКС или ДОЦ) у Ц#:

  • Иницијалише ОЦР са AsposeOcr.
  • Екстракт текста користећи DocumentRecognitionSettings.
  • Стор препознатљив текст у а StringBuilder.
  • Стварање Word документа користећи Aspose.Words.
  • Примени форматирање и сачувати као DOCX или DOC.

Код узорка

Ево примера Ц # који показује сканирани ПДФ у Ворд конверзију:

3. одржавање форматирања у ОЦР конверзији

Иако је ОЦР текстуална екстракција моћна, можда не увек чува оригиналну форматирање, шрифтове и стилове.

  • Искористите Aspose.Words стилове параграфа да бисте применили конзистентну текстуалну форматирање.
  • Подесите својства шрифта као што су величина, храброст, италика и усклађеност.
  • Прилагодите маргине странице и распоред за побољшање излаза Word документа.

Управљање више страница у скенираним ПДФ-ом

За Мулти-странице скенираних ПДФ-а, од суштинског значаја је да се обрађује и споји текст са свих страница у један Word документ.

  • Прођите кроз сваку страницу у скенираном ПДФ-у.
  • Препознајте текст по страници и чувајте га у StringBuilder.
  • Додајте препознатљив текст у Word документ.

Овај приступ обезбеђује безбројне мулти-странице ПДФ конверзију на Ворд.

Лиценца за пуну ОЦР тачност

По подразумевању, Aspose.OCR ради у режиму евалуације, што може ограничити тачност препознавања текста.

Захтевајте Слободна привремена лиценца за сврху процене.

Закључак и додатни ресурси

Резюме

У овом водичу, покривамо:

  • Подешавање Aspose.OCR за скенирано обраду ПДФ-а
  • Извлачење текста из скенираних ПДФ-а у Ц#
  • Претварање познатог текста у форматирани Word документ
  • Управљање Мулти-страница скенирана ПДФ у Ворд конверзија

Korišćenjem Aspose.OCR i ASPOSE.Words, možete bez napora konvertirati PDF-ove na osnovu slike u uređujuće Word datoteke. Počnite sa izgradnjom vašeg OCR-powered PDF to Word converter u .NET danas za samo $99!

Додатни савети за скениране ПДФ конверзије

Ако тражите начине за побољшање вашег радног тока, размислите о коришћењу Ц# ОЦР ПДФ у Тексту капацитета или C# ПДВ у ДОЦКС решења за више напредне обраде. Да ли вам је потребно да конвертујете скенирани ПВД у Ворд за уређивање, или једноставно желите да претварате скандирани ДФД документ на ВОРД* , ове методе пружају невероватну подршку. За оне који питају, како да претварам сцанниран ПДП-у на Word? наведени алати ће вас без напора водити кроз процес.

Скенирање ПДФ-а за конверзију речи

На крају, за више прилагођених решења, истражите како да конвертујете скенирани ПДФ датотеку у Ворд или користите Ц# Библиотеку препознавања текста да бисте побољшали своје способности за обраду докумената. Ови ресурси ће се показати корисним за свакога ко се редовно бави скандираним документима. Такође можете користити алате Ц #ПДХ до ДОЦКС* за олакшање конверзија или се ослањате на методу К #ОЦР ПДП до Текст како би се поједноставио радни ток извлачења текста из слика.

More in this category