Как работает ABBYY FineReader


В соответствии с базовыми положениями IPA, разбираемый программой ABBYY FineReader отдельный фрагмент изображения, согласно главного принципа целостности, будет интерпретирован как некий объект (символ), лишь если на нем присутствуют все структурные элементы с соответствующими взаимосвязями.

При этом система выдвигает ряд гипотез, касающихся того, на что именно похож обнаруженный объект, потом они целенаправленным образом проверяются с использованием отдельного принципа адаптивности, который подразумевает наличие ранее накопленных сведений о вероятных начертаниях в распознаваемом документе символа.

На подготовительном этапе обработки и анализа полученных графических данных фактически перед каждой OCR-системой стоят две фундаментальные задачи: подготовка картинки к определенным процедурам распознавания, а также выявление логической структуры этого документа — с тем, чтобы иметь возможность в дальнейшем воссоздать ее в электронном виде.

Для правильного решения первой задачи в программе ABBYY FineReader задействован отдельный механизм по бинаризации, то есть скорого преобразования как цветного, так и полутонового образа в образ монохромный (1 бит глубина цвета). Бинаризация значительно ускоряет весь процесс анализа ряда графических элементов.

Без дальнейшей обработки процедурой адаптивной бинаризации данный документ может быть скорее всего распознан с ошибками.
Вторая задача, поставленная в ABBYY FineReader, решается с использованием целого ряда алгоритмов многоуровневого анализа некоторых документов, осуществляющих конкретный разбор последних постепенно, сверху вниз, благодаря делению страниц на различные объекты низших уровней вплотную до каких-то отдельных символов.

Главную роль в ходе предварительного анализа отдельного изображения и дальнейшей сборки обработанных данных в одно единое целое играет в основном адаптивная технология по распознаванию ADRT документов.

Алгоритмы, которые лежат в ее основе, как бы «смотрят» на контекст самого документа, находят определенные структурные общие элементы, выявляют между ними связи и сохраняют все полученные сведения для дальнейшего использования на завершающих этапах синтеза или же экспорта данных в формат, выбранный пользователем.

Читать также  Мнение Nintendo о будущем рынка игровых консолей

Для распознавания отдельных символов в FineReader используются какие-то специальные механизмы, которые называются классификаторами и порождают список гипотез, которые потом целенаправленно проверяются. Для классификаторов входными данными может служить список гипотез в процессе распознавания.

Данная программа очень популярна для оцифровки разнообразных документов. Например, когда банку нужно выселить через суд должника, который не собирается выплачивать кредит, то оцифровка всех необходимых документов позволяет адвокатам успешно завершить данное дело, ведь все данные будут под рукой. Во многих делах число бумажной документации просто ошеломляет.

+ There are no comments

Add yours