Главная » Новости и статьи » Распознавание текста из PDF с DocuFreezer 3.0

Распознавание текста из PDF с DocuFreezer 3.0

Если вам часто нужно распознать текст внутри файлов, или вы ищете способ, как отсканированный документ перевести в PDF, обратите внимание на последнее обновление нашей программы-конвертера для Windows – DocuFreezer.

Теперь DocuFreezer – это не только удобный и бесплатный конвертер файлов в PDF (ПДФ) и другие форматы, но и полноценное приложение для распознавания текста.

Усовершенствованная версия DocuFreezer (ДокуФризер) с функцией оптического распознавания текста из отсканированных документов, изображений и других типов файлов позволяет перевести нужные файлы в формат TXT или PDF с возможностью поиска (Searchable PDF).

Распознавание текста из PDF и изображений PNG, TIFF, JPEG

DocuFreezer теперь умеет конвертировать отсканированные документы, PDF-файлы, картинки, фотографии и изображения в файлы TXT или PDF с возможностью поиска текста. При этом распознанный текст можно будет потом копировать и редактировать. Возможны следующие входные форматы, которые из которых программа сможет распознать текст: PDF, TIFF, JPEG, PNG, BMP, GIF. Список поддерживаемых языков включает английский, русский, немецкий, японский, испанский и иврит.

Распознавание текста из PDF и изображений PNG, TIFF, JPEG в DocuFreezer

Распознавание текста из чертежей Автокад и таблиц Excel

Помимо распознавания текста с картинки или скана PDF-документа, обновленная программа DocuFreezer версии 3.0 позволяет распознать текст из чертежей DWG и DXF в PDF, а также из таблиц XLS и XLSX. На выходе также получаются PDF с возможностью поиска или простые текстовые файлы TXT.

Как распознать отсканированный текст из нескольких файлов сразу – пошаговая инструкция

Запустите DocuFreezer
Добавьте файлы или целую папку в список документов
Выберите тип выходного файла: PDF или TEXT
Перейдите в Settings (Настройки)
Поставьте галочку рядом с пунктом Make PDF Searchable (OCR) (Создать PDF с возможностью поиска) или OCR (Optical Character Recognition) (Оптическое распознавание символов).
Выберите язык ваших входных документов, например Russian (русский язык). Лучше не выбирать много языков одновременно
Выберите другие опции, если нужно
Нажмите Start (Пуск)
Получите сконвертированные файлы в выходной папке

Чтобы получить наилучший результат, пожалуйста, убедитесь, что:

Изображения (особенно скриншоты) должны быть увеличены, чтобы высота букв текста была не менее 20 пикселей
В настройках следует выбрать только те языки, которые содержатся в ваших документах
Текст исходного файла не имеет никакого поворота или искажения
Темные границы рядом с текстом удалены, иначе они будут неверно истолкованы как символы

Обратите внимание, что текст может неверно или некорректно отображаться после преобразования с помощью OCR. По возможности, входные файлы должны быть хорошего качества – крупный формат и высокое разрешение.

Что такое OCR документа (оптическое распознавание символов)

Оптическое распознавание символов (OCR) – это метод преобразования отсканированного изображения в текст. Когда страница сканируется, она обычно сохраняется в растровом формате JPEG или TIFF. Когда изображение на экране, мы можем прочитать его. Но для компьютера это всего лишь серия черно-белых точек. Компьютер не распознает “слов” или реальных символов на изображении. DocuFreezer может помочь вам превратить плоское изображение в буквы и символы.

Прочие улучшения в версии 3.0

Помимо OCR-компонента, программа получила многие другие улучшения. Теперь можно быстрее конвертировать файлы в пакетном режиме, разделять таблицы Excel на отдельные листы, добавлять водяные знаки и многое другое.

Новый поддерживаемый формат выходного файла: TXT
Возможность разделять таблицы Excel на отдельные листы
Возможность сохранять файлы в монохромный TIFF или PNG
Возможность добавлять текстовые водяные знаки
Возможность обрабатывать неограниченное количество файлов за сессию
Усовершенствован компонент для более быстрой конвертации в PDF
Усовершенствован компонент для более быстрой конвертации в JPEG, PNG, TIFF
Улучшена обработка файлов с большим DPI-разрешением
Улучшенное преобразование email-файлов EML и MSG с вложениями в один PDF
Улучшена обработка архивов с многоуровневой структурой
Прочие улучшения и исправления

Скачайте DocuFreezer бесплатно

Конвертер бесплатен для некоммерческого использования. На сайте программы вы можете скачать DocuFreezer 3.0 и ознакомиться с полным списком улучшений последней версии (на английском).