Как конвертировать отсканированные документы в Word - счастливый Android

Если вам нужно оцифровать книгу в текстовом формате, у вас может возникнуть несколько вопросов. Можно? Как по качеству, хорошо? Мало того, что это можно сделать, но есть также несколько способов преобразовать отсканированный документ в Word. Посмотрим:

  • Отсканировав документ в формате PDF и затем отредактировав его с помощью Adobe Acrobat XI Pro, чтобы сохранить его в формате Word. Pro-версия Acrobat является платной, но вы можете приобрести бесплатную 30-дневную пробную лицензию.
  • С веб-сайта OnlineOCR.net . Это веб-приложение позволяет конвертировать документы в форматах PDF, JPG, TIFF и GIF в Word, Excel и текст. В бесплатной версии мы можем конвертировать до 15 страниц в час и документы объемом не более одной страницы.
  • Сканируя документ в формате (OCR) и сохраняя его как текст. Затем мы можем открыть Word и отредактировать или сохранить его в формате .doc.
  • Используя некоторую программу оптического распознавания символов :
    •  VueScan (доступен для Windows, Mac OS X и Linux)
    • Kooka  (для Linux)
    • Office Lens (для Android и iOS )
    • CamScanner (для Android и iOS )

Самый эффективный способ из всех, что мы могли бы сказать, - это использование Adobe Acrobat Pro, но только в том случае, если сканирование будет очень, очень чистым и качественным. Приложения оптического распознавания символов прошли долгий путь, но они все еще показывают некоторые пробелы с такими вещами, как жирный или курсив, а транскрипция некоторых слов в зависимости от типа шрифта исходного документа может быть неправильной.

Попробуйте отсканировать и передать этот документ в Word, чтобы узнать, что произойдет.

С самого сканера

Некоторые сканеры включают функцию оптического распознавания (OCR) в свою собственную программу сканирования. Чтобы отсканировать документ в текст, вам просто нужно установить формат оцифровки и посмотреть на тот, который относится к OCR или аналогичному (это зависит от марки / модели сканера).

Переходите из PDF в Word с Adobe Acrobat XI Pro

После загрузки и установки Adobe Acrobat XI Pro ( ЗДЕСЬ у вас есть бесплатная 30-дневная пробная версия) перейдите в « Инструменты -> Распознавание текста -> В этом файле ».

В окне « Распознать текст » нажмите « Изменить » и выберите язык текста, стиль вывода и разрешение.

Наконец, вернитесь в « Инструменты -> Редактирование содержимого -> Редактировать текст и изображения » и измените текст, если вам нужно исправить какие-либо слова. Чтобы закончить, нажмите « Файл -> Сохранить как » и сохраните его в формате Word.

OnlineOCR

OnlineOCR - это веб-приложение для передачи изображений или PDF-файлов в Word, и им очень легко пользоваться. Я объясню, как это работает: введите //www.onlineocr.net/ и нажмите « Выбрать файл ». Выберите отсканированный документ, а затем выберите язык и формат вывода из 2 раскрывающихся меню, которые находятся в центре экрана.

Чтобы закончить, нажмите « Конвертировать ». Чуть ниже появится предварительный просмотр обычного текста, который вы можете отредактировать, если вам нужно исправить какие-либо слова. Наконец, нажмите « Загрузить выходной файл », и вы сможете загрузить файл в формате Word. Вот пример PDF, преобразованного в Word с помощью OnlineOCR:

  • Исходный PDF:

  • Преобразованный документ:

Если это веб-приложение вас не устраивает, вы можете попробовать другие аналогичные альтернативы, такие как FreeOCR или Free-Online-OCR .

Программы оптического распознавания символов (OCR)

Если вы не хотите изменять свои документы в Интернете и вам нужно настольное приложение, вы можете использовать такие приложения, как VueScan (который также доступен для Mac и Linux в дополнение к повсеместной Windows).

Другая возможность - использовать ваше устройство Android или iOS для сканирования документа и непосредственного преобразования его в текст. Существуют такие приложения, как Office Lens (для Android и iOS ) или CamScanner (для Android и iOS ), которые выполняют весь процесс из одного приложения. В этих случаях рекомендуется очистить изображение перед преобразованием в текст. Если вы хотите узнать больше об этом методе, загляните в ЭТОТ ПОЧТУ .

На мой взгляд, техника оптического распознавания символов, хотя она значительно улучшилась за последние годы, все еще далека от идеальной техники. Много деталей, много слов, которые он «переводит» неверными буквами и символами, которые засоряют текст. Ему все еще не хватает того дополнительного интеллекта, который заставляет его видеть, что « t &! $ Olog1a » не может быть правильным переводом любого слова в тексте. Я все еще не вижу понимания прочитанного, а вижу простое визуальное распознавание отдельных букв, которые образуют слова, не объединяя их с остальным текстом. Однако я убежден, что момент, когда мы сделаем последний большой прыжок, приближается с каждым днем.

У вас установлен Telegram ? Получайте лучшие посты каждого дня на нашем канале . Или, если хотите, узнайте обо всем на нашей странице в Facebook .