Рефераты. Машины, которые говорят и слушают

Дзя того, чтобы показать влияние фонетической структуры слов словаря  на  сложность распознавания, рассмотрим, в качестве при­мера. три словаря: I) "А", "Б", "В"; 2) "ОДИН", "ДВА","ТРИ";   3) "А", "П", "Г".

Сравнивая словари I  и  2, нетрудно заметить, какой словарь легче распознавать. В данном случае интуитивно можно утверждать, что словарь 2)легче распознавать  из-за более сложной фонетичес­кой структуры  слов, так как можно привлечь больше дополнительной информации  о  последовательности звуков, составляющих слова.Срав­нивая словари  I) и 3)по сложности распознавания, трудно дать од­нозначный ответ, какой словарь легче распознавать объективными ме-тздами. Точность автоматической классификации слов словарями "А", "Б",  "В"  и  "А",  "П",  "Г"  сильно  зависит от объективно реги­стрируемой степени акустического сходства элементов калиюто  сло­варя, относящихся  к  различным классам, т.е. от методов  первич­ной обработки  и представления речевых сигналов, соответствующих этим словам, от порогов срабатывания устройств, преобразующих ана­логовый сигнал  в  цифровой, и правил принятия решения.

Существующие системы распознавания изолированных слов  пока­зывают,  что  количество слов словаря (при одинаковой    точности распознавания)  не  может быть, вообще говоря, мерой качества сис­темы распознавания. В   [139]  исследуются два словаря: алфавитно-цифровой, содержащий 26 букв  и  10 цифр, и словарь географических названий, состоящий  из  250 слов. В результате была     получена точность распознавания первого словаря 88,6% и  второго    97,356. Хотя  объем второго словаря почти на порядок больше, точность рас­познавания слов, входящих  в  этот словарь, выше. Можно предполо­


жить,  что  это объясняется более сложной фонетической     струк­турой слов второго словаря, которая и обеспечивает меньшие  труд­ности  при  автоматическом распознавании.

В  системах, работающих без подстройки под диктора, наиболее груднокдассифицируемыми звуками русской речи являются, как  пока­зано  в  С4, 26, 62, 97]  , носовые и боковые сонорные согласниэ, звонкие взрывные  и  безударные гласные. Кроме того, следует  от­метить,  что  в опоеделенном фонетическим окружении даже   звуки, относительно хорошо классифицируемые,  в другом    фонетическом контексте  могут вызвать определенные трудности при автоматичес­ком распознавании из-за аллофонных изменений, связанных с  коар-уикуляцией.  Все  это следует учитывать при оценке  сложности рас­познавания словаря   в "неадаптивных" системах автоматического рас­познавания речи. Отметим,  что  на  точность распознавания   речи влияют также синтаксические ограничения, так  как синтаксис  язы­ка определяет грамматические изменения словоформ  и порядок  сле­дования слов.

Далее рассмотрим некоторые подходы, позволяющие, по   нашему мнению, осуществлять относительное сравнение сложности распозна­вания словарей,  и введем определения, связанные с оценкой    ка­чества автоматического распознавания слов проблемно-ориентирован­ного языка.

2.2.2. Информационный критерий оценки фонетической неопреде­ленности.  При распознавании устной речи необходимо стремиться  к тому, чтобы  все фонемы классифицировались правильно, поэтому нас интересует распознавание полной последовательности  фонетических единиц, составляющих высказывание.  При  этом основным источником неопределенности  при  распознавании речи является сам акустичес­кий сигнал. Еще большую неопределенность представляет параметри­ческое  описание речевой волны. Рассмотрим неопределенности  аку­стического сигнала  и приведем меру оценки фонетической неопре­деленности. Используя эти  мерь, можно оценить лексическую и фра­зеологическую неопределенности. Слитная речь расчленяется на пос­ледовательность сегментов  по  признакам способа образования зву­ков.  К этим признакам добавляются признаки места образования,ко­торые изменяются непрерывно  как внутри сегментов, так и через их Границы  С 91,97]. С некоторыми дискретными единицами-звуками ре­чи - фонемами или квааифонемами сегменты связаны таким образом,что смысловые единицы речи (слова) представляются цепочкой фонем.

Большинство систем автоматического распознавания речи  [79] преобразует речевой сигнал  в  такую фонемную цепочку, которая за­тем сравнивается  с  ожидаемыми  в слове звуками. Процесс  преоб-

79


разования речевого сигнала  в последовательность фонем включает нахождение признаков, сегментацию  и  маркировку сегментов.

Опишем модель фонетической неопределенности, позволяющую оце­нивать результаты неправильного распознавания фонем. Далее будем использовать матрицу ошибок распознавания фонем  и фонетическую структуру слов словаря при  оценке лексической неопределенности.

Лексическая неопределенность будет иметь место тогда,  когда слова неверно классифицируются из-за близости  их фонетической структуры, т.е. последовательности параметров, определяющих   эту структуру,  на  конкурирующих словах. Например, в словах "слезать" и "срезать"  первичные параметры звуков, входящих  в  эти  слова, сходны. Когда оба эти слова входят в один и тот же словарь,их точ­ная классификация затруднена, поэтому  их  можно считать   лекси­чески неопределенными.  В реальных системах, если позволяет  зада­ча, следует подбирать слова,чтобы такой ситуации не возникло.При­ведем критерии сложности словаря для  того, чтобы можно было  оце­нить степень различимости словарей   [63].

рассмотрим распознавание речи как процесс передачи  речевой информации через канал  с  шумом и оценим информацию,  теряющуюся в  канале. Потерянная информация является мерой неопределенности или  сложности распознавания фонем. В идеальном канале числи вход­ных идеальных, полученных после сегментации высказывания  экспер­тами-фонетистами, и  выходных фонетических единиц должно быть оди­наковым,  а  последовательность фонем  на  выходе должна соответ­ствовать входной последовательности. Если  же  это условие не соб­людается,  в  канале теряется информация, и в зависимости от вели-vwi потерь можно говорить  о  большей или меньшей неопределенно­сти классификации фонем. При практической оценке фонетической не­определенности  в данной работе использовались система   призна­ков   [73]  и алгоритм сегментации речи  на семь типов сегментов:

V   - гласный,  Т  - переходный,  М  - сонорный, L - низкоча­стотный,  Н  - высокочастотный,  /?  - шумный,  П  - пауза.  Затем алгоритм маркировки ставил   в  соответствие каждому сегменту  не­который фонетический символ, используя априорно полученные гисто­граммы параметров.  От  надежности маркировки сегментов во многом зависит точность работы GPP.

Так как СРР рассматривается здесь  как канал передачи  инфор­мации, предположим, что имеются  г   возможных входных символов алфавита  А  и  s    возможных выходов алфавита  В . Таким  об­разом, СРР описывается канальной матрицей.  На рис. 2.1    приво­дится схема канала передачи информации и канальной матрицы.

60


 

 

 

 

 

 

 

 

а, "г

'и Рг,

Р„ • • Р„ ••

• • • P,s • • • Р„

*

 

 

 

 

 

 

 

 

 

 

 

 

'.

 

 

 

 

 

 

^

Рг, • •

• • Prs

 

рис. 2.1. Блок-схема канала передачи иниормации и канальной мат­рицы

Канал передачи информации, используемой для описания  сис­темы распознавания речи, представленной цепочкой фонем, преобразу­ет незашумденную последовательность звуков в выходную последова­тельность "машинных " фонем, содержащую ошибки пропуска, вставки слияния и замены звуков.

Символами Ar'l.    и ^s={Ц'}   обозначены  соответ­ственно входной и выходной алфавиты фонем. Дхя простоты предпо­лагается, что канал представляет собой независимый   дискретный канал без памяти. Если р {Ь. /а^) - вероятность символа Ь- на выходе канала при подаче символа а^ , то этот канал  передачи информации можно описать матрицей условных вероятностей   Р = = [^(6//o,)J . Очевидно, £ p( &/•/<?,)= 7 ; i=f~r. На рис. 2.2 приводится пример матрицы условных вероятностей   при распознавании изолированных звуков.

Пусть элемента входного фонетического алфавита {аЛ появля­ются на входе с некоторой априорной вероятностью р(а ),р(а ),-.. ••.,/?(а^), а элементы алфавита [Ь.\  на виходв - с вероятностью P(ti,), p(by),..., р(.Ьу) • Как отмечено ранее, работу канала пере­дачи входного ад^евита {а^} кластеризует канальная ма'грипа,поэт<аду


(2.1)


Символ

а

о

и

 

0,69 0.10  0.01


 

Страницы: 1, 2, 3, 4, 5



2012 © Все права защищены
При использовании материалов активная ссылка на источник обязательна.