Рефераты. Биометрические средства идентификации личности

Задача повышения надежности распознавания может быть решена за счет привлечения грамматической и семантической информации в системах распознавания речи. Для решения этой задачи разработана (при участии экспертов: лингвистов, рядовых носителей языка) модель входного языка, учитывающая особенности их грамматического и семантического поведения (28 основных грамматических классов, около 300 грамматических разрядов слов), ее компьютерное воплощение - лингвистическая база знаний (ЛБЗ) и лингвистический процессор (ЛП). В состав ЛБЗ входят: обширный грамматический словарь - объемом около 100000 единиц; словари словосочетаний; словари униграмм и лексических биграмм; грамматические таблицы и словарь моделей управления. Программы синтактико-семантического анализа, входящие в состав ЛП, обеспечивают: быстрое отсеивание маловероятных вариантов распознавания (локальный анализ), учет обнаруженных при анализе грамматических событий, характеризующих регулярность грамматической структуры и степень грамматичности предложения в целом или отдельных групп (и тем самым возможность выбора в качестве окончательного результата распознавания неграмматичных, но допустимых в речи вариантов). Для решения многокритериальной задачи выбора окончательного варианта были разработаны специальные эвристики метауровня. Лингвистический модуль (ЛБЗ и ЛП) позволяет повысить надежность акустического и фонетического распознавания с 94-95 до 95-97 %.

Уделяется внимание проблемам автоматизированного формирования и сопровождения ЛБЗ систем распознавания речи (для английского и русского языков): построение тезауруса, коррекция словаря лексических n-грамм на основе синтактико-семантической информации и др. Новые методы, как показывают результаты экспериментов, позволяют повысить надежность распознавания еще на 1 %.

Сегодня идентификация по голосу используется для управления доступом в помещения средней степени секретности, например, лаборатории производственных компаний. Лидерами в разработке таких систем являются компании T-Netix, ITT Nuance, Veritel. В системе фирмы Texas Instruments (TI) парольные фразы состояли из 4-словного предложения, причем каждое слово было односложным. Каждая фраза являлась 84 байтами информации. Время аутентификации составляло 5,3 с. Для предотвращения использования заранее записанного на магнитофон пароля система генерировала слова в произвольной последовательности. Общее время проверки на КПП составляло 15 с на одного человека. Для четырех парольных фраз ошибка 1-го рода составила 0,3 %, 2-го рода - 1 %.

3.3 Идентификация по ритму работы на клавиатуре

Современные исследования показывают, что клавиатурный почерк пользователя обладает некоторой стабильностью, что позволяет достаточно однозначно идентифицировать пользователя. Применяются статистические методы обработки исходных данных и формирования выходного вектора, являющегося идентификатором данного пользователя. В качестве исходных данных используют временные интервалы между нажатием клавиш на клавиатуре и время их удержания. При этом временные интервалы между нажатием клавиш характеризуют темп работы, а время удержания клавиш характеризует стиль работы с клавиатурой - резкий удар или плавное нажатие.

Идентификация пользователя по клавиатурному почерку возможна следующими способами:

- по набору ключевой фразы;

- по набору произвольного текста.

Принципиальное отличие этих двух способов заключается в том, что в первом случае используется ключевая фраза, задаваемая пользователем в момент регистрации его в системе (пароль), а во втором случае используются ключевые фразы, генерируемые системой каждый раз в момент идентификации пользователя. Подразумеваются 2 режима работы:

- обучение;

- идентификация.

На этапе обучения пользователь вводит некоторое число раз предлагаемые ему тестовые фразы При этом рассчитываются и запоминаются эталонные характеристики данного пользователя. На этапе идентификации рассчитанные оценки сравниваются с эталонными, на основании чего делается вывод о совпадении или несовпадении параметров клавиатурного почерка. Выбор текста, на котором выполняется обучение системы, - достаточно важный этап для нормального функционирования системы. Предлагаемые пользователю фразы необходимо подбирать таким образом, чтобы используемые в них символы полностью и равномерно покрывали рабочее поле клавиатуры. Более того, если в процессе обучения системы видно, что статистические характеристики отдельных клавиш имеют существенный разброс, необходимо формировать очередную тестовую фразу таким образом, чтобы уменьшить эту неопределенность. Возможна организация «неявного» процесса обучения системы, когда программа перехватывает весь ввод с клавиатуры и соответственно рассчитывает эталонные характеристики пользователя. Данная процедура достаточно легко организуется практически в любой операционной системе. В DOS для этого используется перехват прерываний от клавиатуры, в Windows - стандартный механизм ловушек (hooks).

Однако существует ряд ограничений по применению данного способа на практике. Применение способа идентификации по клавиатурному почерку целесообразно только по отношению к пользователям с достаточно длительным опытом работы с компьютером и сформировавшимся почерком работы на клавиатуре, т. е. к программистам, секретарям и т. д. В противном случае вероятность неправильного опознания «легального» пользователя существенно возрастает и делает непригодным данный способ идентификации на практике. Исходя из теории машинописи и делопроизводства можно определить время становления почерка работы с клавиатурой, при котором достигается необходимая вероятность идентификации пользователя: примерно 6 месяцев.

Эталонные характеристики пользователя, полученные на этапе обучения системы, позволяют сделать выводы о степени стабильности клавиатурного почерка пользователя и определить доверительный интервал разброса параметров для последующей идентификации пользователя. Чтобы не дискредитировать работу системы, можно отсеивать пользователей, клавиатурный почерк которых не обладает необходимой стабильностью Для этого можно пользоваться табл. 6.

Таблица 6. Оценка стабильности клавиатурного почерка пользователя

Аритмичность, %

Скорость, знак/мин

Характеристика перекрытии

Оценка

Ошибки,%

Число

перекрытий, %

Используемое число пальцев

Менее 2

Менее 10

Более 200

Более 50

Все

Отлично

Менее 4

Менее 15

Более 150

Более 30

Большинство

Хорошо

Менее 8

Менее 20

Более 100

Более 10

Несколько

Удовл.

Более 8

Более 20

Менее 100

Менее 10

По одному

Неуд.

В задаче идентификации пользователя по клавиатурному почерку важным этапом является обработка первичных данных. В результате этой обработки входной поток данных разделяется на ряд признаков, характеризующих те или иные качества идентифицируемой личности. В дальнейшем эти признаки, подвергаясь статистической обработке, позволяют получить ряд эталонных характеристик пользователя.

Начальный этап обработки данных - фильтрация. На этом этапе из потока данных удаляется информация о «служебных» клавишах - клавишах управления курсором, функциональных клавишах и т. д.

Затем выделяется информация, относящаяся к следующим характеристикам пользователя:

- количество ошибок при наборе;

- интервалы между нажатиями клавиш;

- время удержания клавиш;

- число перекрытий между клавишами;

- степень аритмичности при наборе;

- скорость набора.

Увеличить число эталонных характеристик, а следовательно, увеличить надежность системы можно, выполнив разделение входного потока на данные, относящиеся к левой и правой руке соответственно. Работу данного алгоритма можно построить, опираясь на ряд достаточно простых правил, например: клавиша SHIFT нажимается, как правило, мизинцем левой руки; клавиша ENTER - пятым или вторым пальцем правой руки и т. п. Причем, анализируя относительное время между нажатием клавиши ENTER и предыдущей клавиши, можно с определенной вероятностью предсказать, каким пальцем была нажата клавиша ENTER, так как время нажатия этой клавиши мизинцем будет существенно меньше, чем для любого другого пальца. Несмотря на кажущуюся простоту алгоритма, процесс реализации его достаточно сложен, так как для этого необходимо использовать рекурсивные алгоритмы анализа входного потока данных.

В последние годы применяют нейросетевой подход к задаче идентификации. Нейронные сети - это обобщенное название нескольких групп алгоритмов, обладающих одним ценным свойством: они умеют обучаться на примерах, извлекая скрытые закономерности из потока данных. Если между входными и выходными данными существует какая-то связь, пусть даже не обнаруживаемая традиционными корреляционными методами, нейронная сеть способна автоматически настроиться на нее с заданной степенью точности.

Применение нейросетевого подхода к задаче идентификации пользователя по клавиатурному почерку позволяет решить ряд проблем, возникающих при использовании стандартных методов статистической обработки входного потока данных.

В частности, применение статистических методов обработки данных базируется на утверждении, что входные величины подчинены нормальному закону распределения, хотя в ряде случаев это утверждение неверно. Например, проведенные исследования показывают, что время удержания клавиш -при малом шаге дискретизации - описывается пересечением двух нормальных распределений, что приводит к большим погрешностям при расчете эталонных характеристик пользователя.

Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9



2012 © Все права защищены
При использовании материалов активная ссылка на источник обязательна.