Cognitive Technologies представили принципиально новoe решение класса IDR (intelligent document recognition) на базе технологии распознавания многокомпонентных частично-структурированных документов CogniDocs.
К сожалению, пока еще не существует такая интеллектуальная система, в которую можно ввести роман Пушкина «Евгений Онегин» и, задав ей вопрос: «назови мне отчество Татьяны Лариной» получить правильный ответ.
Но решение этой задачи, по убеждению генерального директора Cognitive Technologies - члена-корр. РАН Владимира Арлазарова, будет получено во вполне обозримое время. Для разработчиков Cognitive Technologies решение данной задачи является своего рода ориентиром, к которому компания стремится практически с момента своего создания.
Сегодня представлено новое ядро распознавания Cognitive Forms 2007, построенное на разработанной в компании технологии распознавания многокомпонентных частично-структурированных документов CogniDocs. Отличительной чертой технологии является возможность обработки документов, состоящих из частей (секций), которые могут «стыковаться» между собой по определенным правилам, заданным в описании документа (аналогично молекулам органических соединений). Благодаря целому ряду возможных вариантов стыковки таких секций создается компактное описание, покрывающее многообразие вариантов компоновки и форматирования документов.
Для реализации технологии в компании разработаны формальная модель документа, язык описания документа и алгоритмы анализа, которые обеспечивают идентификацию секций (декомпозицию документа) и контролируют выполнение связей между ними. Вложенные алгоритмы обеспечивают анализ секций и выделение реквизитов документа. Важными свойствами технологии являются возможность работы с документами, содержимое которых перетекает со страницы на страницу, а также работа с документами, содержащими переменное количество реквизитов (например, строк таблицы).
Отметим, что разработка CogniDocs стартовала в 2002 г., а первые лабораторные образцы получены в 2003 г. С 2004 г. началась опытная эксплуатация системы ввода счетов-фактур на одном из промышленных предприятий страны. С 2005 г. система работает в режиме промышленной эксплуатации. В настоящий момент система позволяет вводить шестнадцать видов документов – счета-фактуры, акты, накладные, регистрационные документы контрагентов, договоры и ряд других документов. Ограниченный по функциональности вариант технологии включен в состав новой конфигурации встраиваемого ядра распознавания Scanify API: Bank&Office, обеспечивающего ввод счетов-фактур, платежных поручений и других деловых документов.
Примечательно, что рынок IDR для российского заказчика отличается в первую очередь тем, что между отечественным и западным сегментом не существует заметного разрыва, как это наблюдается в других направлениях, например, электронного документооборота. Как отечественный, так и западный сегменты рынка IDR находятся в стартовой стадии своего развития. Западный рынок стартовал с отметки $35,7 - $45 млн в 2005 г. Однако, эксперты единогласно говорят о высоких перспективах и неплохой динамике развития рынка IDR (не менее 18% в год по данным KMWorld). По мнению специалистов Cognitive Technologies, российский рынок IDR в ближайшие годы сможет достичь объема в несколько десятков млн долларов.
Интересные материалы: все новости
|