Рефераты. Машины, которые говорят и слушают

непосредственно, используч величины акустических параметров, а не

фонетические метки, связанные с сантисекундными отрезками. Для каждого

слова используется модель с конечным числом состояний, которая

порождается алгоритмически из отображенного

23

произношения. Число состояний модели равно длине этого произнесения в

сантисекундах. В модели обеспечиваются переходы из состояния к этому же

состоянию, к соседнему и через одно.С каждым переходом связано пятимерное

гауссовское распределение в пространстве первичных параметров. Средние

значения и дисперсии выходных распределений, а также переходные

вероятности формируются автоматически при обучении на дополнительных

реализациях слов при формировании обобщенных эталонов с помощью алгоритма

Вктер-би [39].

В процессоре wbap используемая статистика основана скорее на

особенности слов, чем на особенности звуков.

Следует отметить, что за I976-I978 гг. предпринимались попытки

увеличить объем используемого в СРСР фирмы IBh словаря до 1000 слов

(тезаурус лазерных патентов). Предварительные результаты испытаний этой

системы описаны в [106} . На тестовом множестве фраз, куда входило

486 слов, ошибка распознавания слов составила 33,1%, причем ни одна из

й0 контрольных фраз не была определена правильно - программа распознавания

делала ошибку хотя бы в одном слове каждой фразы. Развитие этой системы

[107] позволило за счет увеличения числа фонетических меток до 52

снизить ошибки в распознавании слов до 20%.

В [108,109] рассмотрены дальнейшие улучшения этой системы, позволившие

уменьшить число ошибок при распознавании слов за счет использования

более совершенного сантисекундного акустического процессора сзар-зоо,

в котором число эталонных фонетических меток было расширено до двухсот.

При распознавании 50 п"едл°жений, включающих 980 слов, неверно распознано

87 слов, в числе которых 34 слова, составившие односложные слова типа

"of", " а ", " are ","as" и др. Переход к работе этой системы с

множеством дикторов описан в [l59]. Работа с новыми дикторами

реализована за счет использования автоматической селекции акустических

эталонов, выполняющейся двумя различными способами.Один из методов, в

основе которого лежит процедура Витерби С 39], реализован с помощью

сантисекундного акустического процессора TPIVIAI [l07], а другой,

основанный на алгоритме кластеризации, использует акустический

процессор autociust. (В первом методе использовалось 85 эталонов, во втором

- 20D.) Точность распознавания слов составила при использовании первого

алгоритма 65%, а второго - 90%. В 1983 г. была публикация одной фирмы

о распознавании словаря деловой переписки общим объемом 5000 слов.

Над проблемами распознавания слитной речи продолжает работать фирма

Sperry Univas, участвовавшая в проекте АЙРА. Эта

24

фирма разработала с"стему автоматического распозньвания слов,словосочетаний

и естественных предложений {l74] . На основе спектрального анализа и

линейного предсказания в спектральной об-дасти звуки классифицировались

по способу и месту образования. Система была испытана на словаре из 31

слова двумя дикторами. Точность распознавания изолированных слов при

использовании синтаксиса задачи составила 95%. Предварительные результаты

по распознаванию слитной последовательности слов, произносимые тремя

дикторами, составили от 54 до 74% для задачи с ограничечным порядком

следования слов. Предполагалось, что в дальнейшем будут использованы

акустико-фонетичзские и фонологические правила, нормализация дикторских

произношений, просодические характеристики речи. Предполагалось также, что

будут использованы более сложные процедуры для синтаксического и

семантического анализа. В 1977 г. система работала с двумя словарями -

из 36 (алфавит-но-цифровой словарь) и 64 слов (словарь речевого

управления) [123, 153] . Для обоих словарей точность распознавания

составила 95^, а средней точности распознавания слитялс словосочетаний -

88%.Дальнейшие разработки включали расширение словарного состава системы,

числа типов предложений, использование правил фонетической и словесной

верификации.

В [l54] сообщается, что система Sperry Univac. была модернизирована

для поиска и верификации ключевых слов в потоке слитной речи. В этой

системе использовались измеряемые на деся-тимиллисекундных интервалах

параметры речевого сигнала, проведшего через телефонный канал.

Исследователями был выбран достаточно мощный набор параметров-

Непосредственно по речевой волне определилась частота основного тона.

Спектральный анализ с помощью быстрого преобраэозания Фурье (БПД) позволял

получить следующие признаки речевых отрезков: общую энергию в полосе

100 -8600 Гц, энергию сонорных (100 - 3000 Гц), высокочастотную энергию

сонорных (650 - 3000 Гц), низкочастотную энергию (JOO - 600 Гц), разность

энергий низких и высоких частот 1

кГц) диапазонах. Эти параметры выделяются в реальном масштабе времени из

сигнале, поступающего с АЦП в мини-ЭВМ, которая обладает средним

быстродействием 600 тыс. операций в I с. Параметры (число нулевых

пересечений и амплитудное значение сигнала на интервале анализа для каждого

из диапазонов) формируются программно, и их значения дают возможность грубо

классифицировать сегменты на 10 различных типов - пауэы (глухая смычка),

наличие звонкой смычки, характеризующие звонкие взрывные б, д,г, сонорный

согласный, глухой фрикативный (переднеязычный или заднеязычный), носовой,

свистящий, гласный высокого иди низкого подъема. В дальнейшем

производится пере классификация сегментов на 59 классов, некоторые из них

пересекаются в пространстве признаков.

На второй стадии к среднему участку сегментов применяют сравнение с

эталонами (этих эталонов для каждого класса сегментов может быть до 100).

При сравнении средний участок сегмента по-ступившей на вход реализации

сравнивается с множеством эталонов, которые подучены от специально

обученных дикторов. Использование сегментации I уровня позволяет, как

отмечается в [l79], ускорить общую сегментацию в пять раз по сравнению

с унифицированной, основанной .исключительно на коэффициентах линейного

предсказания.

Как уже отмечалось, ключевой проблемой систем понимания Речи является

верификация сдоврсиьк гипотез.подожданных различ-иыми источниками знаний.

Блок словесной верификации должен оце-нвдь, насколько акустические данные

входной реализации соответствуют фонетической транскрипции

гипотезируеного слова.

2S

В соответствии с оценкой, словесный верификатор отбрасывает

большее числе гипотезированных слов, сохраняя возможные пра~ вильные, чтобы

впоследствии отобрать единственное с помощью инфор~ мации высших уровней.

В Hearsay -П слова порождаются либо словесным гипотезато-ром снизу

вверх (блоком POMOW), либо преде называются сверху вниз семантико-

синтаксическим блоком sass . Блок словесной верификации wizard

обрабатывает гипотезы о словах снизу вверх, используя акустическую

информацию и результаты автоматической сегментации. Каждый сегмент

высказывания представлен вектором фонемных вероятностей (т.е. с каждым

отрезком высказывания связываются определенные звуки, которым

присваиваются некие веса), Каждое слово словаря записывается эталонным

графом возможных фонетических произнесений, учитывающим все

альтернативные варианты произнесений. Однородная модель, используемая

блоком словесной верификации, дает возможность найти оптимальное совпадение

одного из эталонов (соответствующее пути на одном из эталонных графов) и

участка входной реализации, соответствующего слову.

В системе Hearsay-П при словесной верификации стыки между словами не

рассматриваются, делается лишь их внутренняя обработка. wizard пытается

верифицировать слова, как будто они находятся в изоляции.

При верификации слова обрабатываются снизу вверх следующим образом:

предсказанные моменты начала и конца слова связываются с

соответствующими сегментами высказывания bseg и eseg. Исследуются все пути

в эталонных графах возможных слов, которые совпадают с отрезками и

входной реализацией. Сравниваются с эталонами отрезки, которые начинаются

в (baeg-I: beeg +I ) и заканчиваются в jeseg -I I eeeg +I(, т.е.

параллельно рассматриваются девять возможных участков высказывания,

что приводит к девяти оптимальным путям на эталонных графах, из

которых выбирается тот. оценки которого наибольшие, или наиболее

соответствуют рассматриваемому участку. Сдвиг на один сегмент вправо

или влево позволяет избегать ошибок при представлении входного,

высказывания (акустических данных) различными источниками знаний. В

результате блок словесной верификации может изменять время словесных

гипотез, а также их оценки. Следует отметить, что если в проектах ВШ

(Speechlis и HWIM) идет непосредственный переход от фонетического

описания к словесному, то в Hearsay-П используется еще промежуточный,

слоговый уровень между словами и звуковыми сегментами. Для поддержки

словесных гипотез используются так называемые типовые слоги, слоготипы

(syltypes).

Ццея слоготипов сводится к тому, что слоги, имеющие похожие сегменты

(например "та", " па"), относятся к одному типу. Никаких попыток различать

слова с одинаковыми слогами в Нвагвау-П не делается. Каждый слоготип

Страницы: 1, 2, 3, 4, 5, 6, 7, 8



2012 © Все права защищены
При использовании материалов активная ссылка на источник обязательна.