
Въведение
Скенираните PDF файлове често съдържат текст като изображения, което прави невъзможно да се избере, редактира или копира съдържанието. Ако имате нужда от конвертиране на скенирани PDF в редакционни Word документи, оптичната технология за разпознаване на характера (OCR) предлага ефективен начин за извличане на текст, като същевременно запазва оригиналния формат. В тази статия ще научите как да програматично конвертирате сканнираните PDF до Word (DOCX или DOC) с помощта на C# с Aspose.OCR за .NET и Аспосе.Words за библиотеки .NET.
PDF файлове в Word?
Има няколко задължителни причини за конвертиране на скенираните PDF до Word документи:
- Лесно редактиране на сканираните документи: Промяна на текста без ръчно ретипиране.
- Екстракт текст за по-нататъшна обработка: Използвайте извлеченият текст, за да анализирате или да се интегрирате в други приложения.
- Поддържане на оформлението и форматирането: Поддържайте структурата на оригиналния документ, като го направите редактируем.
- Автоматна обработка на документи, базирана на OCR: Интегрирайте тази функционалност безпроблемно в приложенията си за C#.
Таблица на съдържанието
- Настройване на OCR API за сканиран PDF към Word Conversion
- Конвертиране на скенирания PDF в редактиращ Word документ
- Поддържане на форматиране в OCR конверсия
- Управление на множество страници в сканирани PDF файлове
- Лиценз за пълна точност на OCR
- Заключение и допълнителни ресурси
OCR API за сканиран PDF към Word конверсия
PDF файлове и да ги конвертираме в Word:
- Aspose.OCR за .NET – Мощен инструмент, който разпознава текста от скенираните изображения.
- Aspose.Words for .NET – Тази библиотека конвертира извлечения текст в Word формат.
инсталация
Можете лесно да инсталирате тези АПИ чрез NuGet с следните команди:
PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words
Алтернативно, можете да изтеглите DLLs от Страница за изтегляне Aspose.
PDF в редактиран документ за Word
Следвайте следните стъпки, за да конвертирате скенираните PDF файлове в Word (DOCX или DOC) в C#:
- Иницијализиране на OCR с
AsposeOcr
. - Изтегляне на текст използвайки
DocumentRecognitionSettings
. - Изпратете признат текст в A
StringBuilder
. - Създаване на документ с Word
Aspose.Words
. - Прилагайте форматиране и съхранявайте като DOCX или DOC.
Код на шаблона
Ето пример за C#, който демонстрира сканираната PDF конверсия в Word:
3. запазване на форматиране в OCR конверсия
Докато текстовото извличане на OCR е мощно, то не винаги може да запази оригиналното форматиране, шрифтове и стилове.
- Използвайте Aspose.Words Paragraph Styles, за да приложите последователно текстово форматиране.
- Настройване на свойства на шрифта като размер, смелост, италика и сближаване.
- Приспособяване на маргините и расположението на страницата за подобрена производителност на Word документ.
PDF файлове
За многострани скенираните PDF файлове е от решаващо значение да се обработва и слива текст от всички страници в един документ на Word.
- Прочетете през всяка страница в скенирания PDF.
- Изберете текст на страница и го съхранявайте в
StringBuilder
. - Добавяне на признат текст към Word документ.
Този подход осигурява безпроблемно многостранен PDF към Word конверсия.
5. лиценз за пълна точност на OCR
По подразбиране, Aspose.OCR работи в режим на оценка, което може да ограничи точността на разпознаването на текста.
🔹 За целите на оценката се изисква Свободна временна лиценза.
Заключение и допълнителни ресурси
Резюме
В този ръководство обхванахме:
- Настройване Aspose.OCR за сканирана обработка на PDF
- Извличане на текст от сканираните PDF файлове в C#
- Конвертиране на познат текст в форматиран документ на Word
- Управление многострани скенирани PDF към Word конверсия
Чрез използването на Aspose.OCR и аспосе.Words можете без усилия да конвертирате PDF файлове, базирани на изображения, в редактируеми Word файли. Започнете да изграждате вашия ОКР-осигурен PDF до Word Converter в .NET днес за само $99!
Допълнителни съвети за сканирана PDF конверсия
Ако търсите начини за подобряване на вашия работен поток, помислете за използването на C# OCR PDF до Текст възможности или C# PDF към DOCX решения за по-напреднала обработка. Независимо дали трябва да конвертирате скенирания PDF в Word за редактиране, или просто искате да преобразувате скандиран PDF документ към Word , тези методи предоставят безценна подкрепа. За тези, които питат, как мога да конвертирам сцаннен PDF на Word? горепосочените инструменти ще ви насочат през процеса без усилия.
Скениране на PDF към Word Conversion
Накрая, за повече персонализирани решения, разгледайте как да конвертирате скенираните PDF файлове в Word или да използвате библиотека за препознаване на текст за подобряване на възможностите си за обработка на документи. Тези ресурси ще се окажат полезни за всеки, който редовно се занимава с с сканирания документ. Можете също така да ползвате инструменти C# PDF до DOCX, които улесняват преобразуването или се опитвате да разчитате на метод C# OCR PDF в Text , за да опростите работния поток на извличането на текстове от изображения.