Задача распознавания речи может быть сведена к
задаче распознавания отдельных звуков с последующим использованием алгоритмов, учитывающих
особенности произношения, словопостроения и словосочетания фраз отдельных индивидуумов.
В этом случае задача выделения звуков речи может
рассматриваться как задача распознавания образов, количество которых ограничено,
хотя и достигает нескольких десятков. При этом сама задача классификации предъявляемых
образцов звуков может быть сведена к задаче многоальтернативной проверки гипотез.
При этом система распознавания звуков речи может строиться с использованием принципов
"обучения с учителем", т.е. предварительного набора информационной базы
классифицированных данных, с которыми производится сравнение поступающих на анализ
сигналов. Процедура распознавания звуков речи должна учитывать особенности их реализации.
Во-первых, эти реализации у каждого звука имеют свой вид. Во-вторых, имеют ограниченную
протяженность во времени.
Методы анализа речевых
сигналов можно рассматривать с помощью модели, в которой речевой сигнал является
откликом системы с медленно изменяющимися параметрами на периодическое или шумовое
возбуждающее колебание (рисунок 1.2).
Выходной сигнал голосового
тракта определяется сверткой функции возбуждения и импульсного отклика линейного,
изменяющегося во времени фильтра, моделирующего голосовой тракт. Таким образом,
речевой сигнал s(t) выражается следующим образом:
,
где e(t) - функция возбуждения, v(t,t) - отклик голосового тракта в
момент t на дельта-функцию, подаваемую
на вход в момент t.
Рисунок 1.2 - Схема
функциональной модели формирования речи
Речевой сигнал можно промоделировать откликом линейной
системы с переменными параметрами (голосового тракта) на соответствующий возбуждающий
сигнал. При неизменной форме голосового тракта выходной сигнал равен свертке возбуждающего
сигнала и импульсного отклика голосового тракта. Однако все разнообразие звуков
получается путем изменения формы голосового тракта. Если форма голосового тракта
изменяется медленно, то на коротких интервалах времени выходной сигнал логично по-прежнему
аппроксимировать сверткой возбуждающего сигнала и импульсного отклика голосового
тракта. Поскольку при создании различных звуков форма голосового тракта изменяется,
огибающая спектра речевого сигнала будет, конечно, тоже изменяться с течением времени.
Аналогично при изменении периода сигнала, возбуждающего звонкие звуки, частотный
разнос между гармониками спектра будет изменяться. Следовательно, необходимо знать
вид речевого сигнала на коротких отрезках времени и характер его изменения во времени.