Рефераты. Машины, которые говорят и слушают
Дзя того, чтобы показать
влияние фонетической структуры слов словаря на сложность распознавания,
рассмотрим, в качестве примера. три словаря: I) "А", "Б",
"В"; 2) "ОДИН", "ДВА","ТРИ"; 3) "А",
"П", "Г".
Сравнивая словари I и 2, нетрудно заметить, какой словарь легче распознавать.
В данном случае интуитивно можно утверждать, что словарь 2)легче распознавать
из-за более сложной фонетической структуры слов, так как можно привлечь
больше дополнительной информации о последовательности звуков, составляющих
слова.Сравнивая словари I) и 3)по сложности распознавания, трудно дать однозначный
ответ, какой словарь легче распознавать объективными ме-тздами. Точность
автоматической классификации слов словарями "А", "Б",
"В" и "А", "П", "Г" сильно
зависит от объективно регистрируемой степени акустического сходства элементов
калиюто словаря, относящихся к различным классам, т.е. от методов первичной
обработки и представления речевых сигналов, соответствующих этим словам, от
порогов срабатывания устройств, преобразующих аналоговый сигнал в цифровой,
и правил принятия решения.
Существующие
системы распознавания изолированных слов показывают, что количество слов
словаря (при одинаковой точности распознавания) не может быть, вообще
говоря, мерой качества системы распознавания. В [139] исследуются два
словаря: алфавитно-цифровой, содержащий 26 букв и 10 цифр, и словарь
географических названий, состоящий из 250 слов. В результате была
получена точность распознавания первого словаря 88,6% и второго 97,356. Хотя
объем второго словаря почти на порядок больше, точность распознавания слов,
входящих в этот словарь, выше. Можно предполо
жить, что
это объясняется более сложной фонетической структурой слов второго
словаря, которая и обеспечивает меньшие трудности при автоматическом
распознавании.
В системах, работающих без подстройки под диктора, наиболее
груднокдассифицируемыми звуками русской речи являются, как показано в С4,
26, 62, 97] , носовые и боковые сонорные согласниэ, звонкие взрывные и
безударные гласные. Кроме того, следует отметить, что в опоеделенном
фонетическим окружении даже звуки, относительно хорошо классифицируемые, в
другом фонетическом контексте могут вызвать определенные трудности при
автоматическом распознавании из-за аллофонных изменений, связанных с
коар-уикуляцией. Все это следует учитывать при оценке сложности распознавания
словаря в "неадаптивных" системах автоматического распознавания
речи. Отметим, что на точность распознавания речи влияют также
синтаксические ограничения, так как синтаксис языка определяет
грамматические изменения словоформ и порядок следования слов.
Далее рассмотрим некоторые
подходы, позволяющие, по нашему мнению, осуществлять относительное
сравнение сложности распознавания словарей, и введем определения, связанные с
оценкой качества автоматического распознавания слов проблемно-ориентированного
языка.
2.2.2. Информационный критерий оценки фонетической неопределенности. При распознавании устной речи необходимо стремиться к тому, чтобы
все фонемы классифицировались правильно, поэтому нас интересует распознавание
полной последовательности фонетических единиц, составляющих высказывание.
При этом основным источником неопределенности при распознавании речи
является сам акустический сигнал. Еще большую неопределенность представляет
параметрическое описание речевой волны. Рассмотрим неопределенности акустического
сигнала и приведем меру оценки фонетической неопределенности. Используя эти мерь,
можно оценить лексическую и фразеологическую неопределенности. Слитная речь
расчленяется на последовательность сегментов по признакам способа
образования звуков. К этим признакам добавляются признаки места
образования,которые изменяются непрерывно как внутри сегментов, так и через
их Границы С 91,97]. С некоторыми дискретными единицами-звуками речи -
фонемами или квааифонемами сегменты связаны таким образом,что смысловые единицы
речи (слова) представляются цепочкой фонем.
Большинство систем
автоматического распознавания речи [79] преобразует речевой сигнал в такую
фонемную цепочку, которая затем сравнивается с ожидаемыми в слове звуками.
Процесс преоб-
79
разования речевого сигнала в последовательность фонем
включает нахождение признаков, сегментацию и маркировку сегментов.
Опишем модель фонетической неопределенности, позволяющую
оценивать результаты неправильного распознавания фонем. Далее будем
использовать матрицу ошибок распознавания фонем и фонетическую структуру слов
словаря при оценке лексической неопределенности.
Лексическая неопределенность будет иметь место тогда,
когда слова неверно классифицируются из-за близости их фонетической
структуры, т.е. последовательности параметров, определяющих эту структуру,
на конкурирующих словах. Например, в словах "слезать" и
"срезать" первичные параметры звуков, входящих в эти слова,
сходны. Когда оба эти слова входят в один и тот же словарь,их точная
классификация затруднена, поэтому их можно считать лексически неопределенными.
В реальных системах, если позволяет задача, следует подбирать слова,чтобы
такой ситуации не возникло.Приведем критерии сложности словаря для того,
чтобы можно было оценить степень различимости словарей [63].
рассмотрим распознавание речи как процесс передачи речевой
информации через канал с шумом и оценим информацию, теряющуюся в канале.
Потерянная информация является мерой неопределенности или сложности
распознавания фонем. В идеальном канале числи входных идеальных, полученных после
сегментации высказывания экспертами-фонетистами, и выходных фонетических
единиц должно быть одинаковым, а последовательность фонем на выходе
должна соответствовать входной последовательности. Если же это условие не
соблюдается, в канале теряется информация, и в зависимости от вели-vwi потерь можно говорить о большей или меньшей неопределенности
классификации фонем. При практической оценке фонетической неопределенности в
данной работе использовались система признаков [73] и алгоритм
сегментации речи на семь типов сегментов:
V - гласный, Т - переходный,
М - сонорный, L - низкочастотный, Н - высокочастотный, /? - шумный, П -
пауза. Затем алгоритм маркировки ставил в соответствие каждому сегменту некоторый
фонетический символ, используя априорно полученные гистограммы параметров.
От надежности маркировки сегментов во многом зависит точность работы
GPP.
Так как СРР рассматривается здесь как канал передачи
информации, предположим, что имеются г возможных входных символов
алфавита А и s возможных выходов алфавита В
. Таким образом, СРР описывается канальной матрицей. На рис. 2.1 приводится
схема канала передачи информации и канальной матрицы.
60
а , "г
'и Рг,
Р„ • • Р„ ••
• • • P,s • • • Р„
*
•
'.
"г
^
Рг, • •
• • Prs