Рефераты. Машины, которые говорят и слушают

из 100 слов);

- при кооперативном обучении средняя надежность распознавания для

четырех членов кооператива составляем 98^, что вполне приемлемо для

практического использования;

- кооперативное обучение способствует существенному превышению

надежности распознавания речи лиц, не участвовавших в получении обучающей

выборки (для двух новых дикторов средняя надежность распознавания 97 и

92%).

S 1.3. Развитие систем распознавания/понимания слитной речи

Задача общения человека и ЭВМ с помощью естественной,слитной речи

оказалась гораздо более сложной, чем построение систем распознавания

изолированных слов. Одной из первых практических систем распознавания

последовательности слитных словосочетаний (пять слов исходного словаря)

явилась система фирмы KdC .описанная ранее.

В дальнейшем будем различать системы распознавания *и системы

понимания слитной речи. В первых, как правило, рассматриваются фразы,

составленные из последовательности слов, между которыми синтаксическая и

семантическая связь либо отсутствует,либо слишком жесткая (используется

автономная грамматика).Системы понимания, в отличие от систем

распознавания, при декодировании входного высказывания используют высшие

лингвистические уровни языков, близкие к естественным, работая с

фразами, в которых допустимы стилистические ошибки, бессмысленные

звуковые сочетания, произвольные паузы и междометия.

При построении систем понимания речи необходимо в большей степени,

чем при создании систем распознавания слитной речи, использовать опыт

специалистов по искусственному интеллекту, а также привлекать

специальные знания о синтаксисе, семантике и прагматике языка общения.

В то же время отметим, что деление на системы автоматического распознавания

и понимания является 20

достаточно условным и фактически определяется коэффициентом ветвления,

который показывает, сколько возможных слов допускается после каждого слова

высказывания. В современных системах распознавания слитной речи средний

коэффициент не превышает,как правило, 30 (в системе Nac-ISQ), а в

системах понимания этот коэффициент достигает 200-300 (бессмысленные

звукосочетания типа цмм ... , эээ ... и т.д., а также паузы и

междометия можно рассматривать в СПР как возможные варианты слов).

Так как автоматическое распознавание 300 - 300 слов в непрерывном

речевом потоке - сложная задача, веди использовать обычные математические

методы распознавания, то для ее решения и привлекаются высшие уровни

знания о языке (синтаксис, сематика и прагматика), а также другие

способы, обеспечивающие сужение числа альтернатив на каждом шаге

принятия решения о слове, используемые обычно в задачах искусственного

интеллекта (ИИ). В связи с этим в системах понимания говорят о

семантической точности распознавания смысла фразы, когда не все

составляющие (слова) могут быть распознаны правильно.

Перейдем к рассмотрению систем распознавания слитной речи. Как

правило, такие системы работают по принципу фонемного распознавания, от

точности которого зависит общая надежность работы системы. Одной из

наиболее интересных отечественных систем с обучением на конкретного

диктора и словарь является система, построенная в Институте кибернетики

АН УССР им. В.М.Гяуи-кова [l9,20] , развитием которой стала кооперативная

система распознавания рвчи[213.

В основу этой системы положена математическая модель речевого сигнала,

в которой каждой фонеме соответствует полученный алгоритмически (на

основе анализа текущей автокорреляции сигнала, параметров линейного

предсказания и текущего энергетического спектра) определенный набор

бинарных признаков ( двоичный код). Модель учитывает коартикуляционныв

эффекты, изменение длительности фонем и динамику интенсивности сигнала.

Модель автоматического распознавания Института кибернетики АН СССР

использует анализ сигнала посредством синтеза.

Некоторый процеср порождает из элементарных эталонных сигналов по

определенным правилам эталонную слитную речь (общий для всех слов алфавит

эталонных элементов содержит около 80 элементов кодов). Распознавание

слитной рччи сводится к необходимости нахождения наиболее правдоподобного

эталонного сигнала слитной речи.

21

В этой модели автоматически находятся границы отдельных фонем, паузы,

тип и общее количество фонем в распознаваемой последовательности о

учетом априорной вероятности частоты встречаемости фонем. Эталонный сигнал

слитной речи формируется из эталонных сигналов отдельных слов путем

нелинейного преобразования исходных словесных эталонов. При этом

эталонные сигналы слов складывались в эталонную слитную речь так, что

паузы между словами имели различную длительность (в том чис/ie и

нулевую),а длительность элементов фразы изменялась плавно. Параметрами

грамматики, порождающей эталонные фразы, являлись: алфавит эталонных

элементов, акустике-фонетические транскрипции слов, правила стыковки слов

во фразе, правила нелинейной деформации сигналов вдоль оси времени и

некоторые другие параметры.

Для экспериментов по распознаванию слитной речи ( словарь включал 200

слов) были получены 1000 реализации этих слов, произнесенных одним

диктором (обучающая выборка). При испытаниях система дала 0,5% ошибок и 3%

отказов при распознавании слов в слитном потоке. Расширение словаря до 300

слов увеличило количество ошибок до 1%, причем отказов было 3,5%. При

экспериментах со словарем из 100 слов удалось получить время

распознавания (на ЭВМ БЭСМ-6), равное I с на I слово [193 • Отметим,

что близкий к этому метод используется в системах распознавания слитной

речи (СРСР), разработанных в Отделе вычислительной науки

исследовательского центра фирмы 1УЫ. В связи с тем, что данная фирна

(так же, как и фирма Sperry Univac ) активно занимается

исследованиями по распознаванию слитной речи после завершения проекта

arpa , рассмотрим эти работы более подробно.

В С39] описана СРСР, в основе которой лежит модель акустического

канала, обеспечивающая автоматическое порождение всех возможных

поверхностных форм предполагаемого высказывания совместно с

вероятностями их порождения. Это порождение осуществляется с помощью

акустико-фонологических правил (АФП).приложенных к базовой цепочке

высказывания. АФП учитывают в слитной речи такие фонологические явления,

как пропуски, вставки и замены отдельных фонем внутри слов, повышенный тон

речи, диалектные особенности, изменения на стыках слов и т.д.

Удобной структурой для выражения поверхностных форд высказывания

явился направленный граф, дуги которого помечены возможными звуками.

Каждому узлу графа соответствует распределение вероятностей, указанных на

выходящих дугах. Дуги на концах графа, соответствующего совокупности всех

поверхностных форм произнесен-

22

ного слова, имеют связанные с начальными и конечными состояни-яни условия

соединения, определяемые фонологическими явлениями на стыках слов.

Язык системы определяется автоматной грамматикой, представленной графом

и включающей 250 слов. Для распознавания использовался лингвистический

декодер-алгоритм последовательного декодирования, обеспечивающий

нахождение предложения о максимальной апостериорной вероятностью по

последовательности цепочки фонем, поступающих с выхода специального

акустического процессора. Точность декодирования высказываний на

контрольной выборке составила (по данным на август 1977 г.) 95% при 6%

ошибочной интерпретации, которые были вызваны 0,6% ошибок неправильного

распознавания слов. Следует отметить, что рассматриваемая система

была сияьно модифицирована за последние три года: упрощен акустический

процессор, с которого быви сняты функции фонемной сегментации и

маркировки. Сказалось возможным, используя алфавит из 33 фонем,

маркировать ими десятимиллисвкундные отрезки речевого сигнала

непосредственно по акустическим данным.Преимущество такого представления

авторы работы [Ю5Д видят в том, что, во-первых, информация о

звуке,распределенная по длине фонем, оказывается более полезной для

распознавания, так как при этом возрастает количество информации,

поступающей от акустического процессора к лингвистическоу декодеру. Во-

вторых, сегментация и маркировка (принятие решения о звуке) разнесены

во времени, и лингвистический декодер может, основываясь на структуре

отдельных слов, во время сравнения решить, представляет ли короткая

маркированная цепочка десятимиллисекунцных сегментов истинный звук или

же это - ошибочная ложная ставка.

Дальнейшее совершенствование сантисенундного акустического процессора (

asAJ ) за счет использования 45 эталонных фонетических меток вместо 33

позволило повысить точность классификации (на языке со словарем из 250

слов) до 98,8% на контрольном материале 100 предложений [l07] . Следует

отметить, что еще более совершенный процессор ( wbap ), на котором

получены наилучшие результаты распознавания (0% ошибок), использует лишь

пять параметров, один из котррых - кратковременные изменения общей

энергии сигнала, а четыре - отражают параметры гласных и описаны ранее

в [l4l] . Этот процессор осуществляет акустическое сравнение

Страницы: 1, 2, 3, 4, 5, 6, 7, 8



2012 © Все права защищены
При использовании материалов активная ссылка на источник обязательна.