Банк Рефератов - Машины, которые говорят и слушают - скачать рефераты, бесплатно рефераты

Рефераты. Машины, которые говорят и слушают

Апостериорная вероятность того, '•то, если в результате распознавания Получили фонеыу Ь, , то на вход поступила фонема а^ , определяется по Формуле Байеса

Зак.480 у

0,15 0,75 0,10

0,01 0,10 0,89

Рис. 2.2. Ilptttcap мктрицы условных вероятностей распознавания изолированных звуков

(2.2)

Ииормацня 7(а^; Ь ), получаемая от канала, когда на его вход потупила фонема а.^ , а на выходе распозналась как 6, , опредедется [91]

. , p^Jbj)

l^i\b^lo<j ^ . (2.3)

С]»дняя информация, получаемая на выходи канаха с потерями при жредаче (распознавании) входного алфавита фонем A:={a•^, которШ распознается как алфавит в = { ^ } , будет

UA,B)=^p(a„^)Ha^^)=

^^,6,)^^/^-а,в' L J у? р(а,)

=-ip(a„b-)lo^p(ai)^p(a^b,)io^p(a,/^)^

^,0 /1,0

=-ip(a,)log,p(a^lp(a,^toy^p(a,/ 6,);

л, в

I (А ,В) = Н W^P^, ^}to^f){a, /Ь,). (2.4)

л, в

С»метим, чтоН(Л)- энтропия, характеризующая степень неоп-редвдедости входного алфавита А-=-{а^] . Из (2.4) подучаем,что

H(A)-I(A,S)=-^p(a,,b..)iw,p(ai/b^=

Л, о

=-рР(^/Ь/)р(Ь,)1о^р(а,/6,)-

Д,В

=-^р(^-)^/?1'а,/^-)^/)(^./^.)= Н(А/В); (2.5)

Н(А^)- апостериорная ентропия входного алфавита фонем, которая 82

характеризует меру информации, теряемой в системе распознавания дрй передаче входного алфавита { я^} . Апостериорная внтропия и является мерой, оценивающей сложность входного словаря для автоматического распознавания при фиксированном параметрическом описании.

При наличии значений энтропии входного алфавита фонем можно вычислить размер (объем), равный У'"', а значения 2 vw характеризуют среднее количество возможных альтернативных (конкурентных) элементов алфавита {о I на входе СРР после того, как на выходе получили множество { 6 } , т.е. меру сложности распознавания входного алфавита фонем. Назовем эту меру эквивалентным размером алфавита фонем. Значение у"^0' можно назвать энтропийным критерием оценки фонетической неопределенности, который является обобщенной характеристикой сложности распознавания алфавита фонем < а^ \ данной системы распознавания. Если СРР работает без ошибок, условная энтропия Н(А/В)вО и эквивалентный размер алфавита фонем 2"("/°' = i. Естественно, что если Н(А/В)»0, то Z"^^!, а в случае, когда СРР не распознает Н(А/В)=Н(А), то эквивалентный размер алфавита фонем равен Z"^

Эквивалентный размер алфавита фонем дает возможность количественно оценить среднее число возможных конкурентных фонем (имеющие близкие параметрические описания), и для его определения необходимо знать апостериорные вероятности p(a^/b-) входного алфавита.

Для решения конкретных проблем автоматического распознавания ограниченных наборов слов взе многообразие фонем можно свести к двум-трем рабочим фонетическим единицам (например,к классам длительных шумных, звонких и смычных звуков), которые При использовании простой системы признаков к несложных алгоритмов распознавания дают нулевую апостериорную энтропию. Однако ври решении задачи распознавания относительно сложных словарей и/иди требование надежной фонетической верификаций произнесенного слова такого количества рабочих фонем сказывается явно недостаточно. Работать Же с полным набором фоней "ложно из-за ошибок их автоматического распознавания. Поэтому к приходится идти на компромиссные решения - искать какой-то оптимуи при фонетическом описании рабочих словоформ. Эти проблемы будут частично рас-емотрены в а. 2.2.3.

Условные вероятности распознавания фонем ^(6,/д.), определяющие эквивалентный размер фонетического алфавита, можно опре-• Делить несколькими методами.

Статистический мегод позволяет получать вероятности распознавания фонем, используя реальную СРР. ото осуществляется путем сравнения результата распознавания системы с точной ручной сег~ ментацией и маркировкой речевого сигнала (иди его параме-гричес-кого представления), поступающего на вход системы распознавания. В результате получается классическая матрица правильной и оаибочной классификации входного алфавита фонем.

Акустико-параметрический метод, когда матрица ошибок классификации фонем получается путем прямого сравнения их параметрического описания. При этом эталон фонемы выбирается из множества реализации данной фонемы. Расстояние между фонемами используется для оценки условных вероятностей ошибочной классификации фонем. Точность этого метода зависит от выбранного эталона и объема исследовательского материала.

Кроме этих методов, оценку вероятности ошибочной классификации фонем можно произвести на основе моделирования речеобразующе-го тракта человека [73.

^.2.3. Оценка сложности распознавания слов по их фонетичес-кой структуре. Рассмотрим неадаптивную систему распознавания слов как канал передачи информации. Слова входного словаря V= ^Я.,У„,... ..., V.,..., v„} можно представить последовательностью фонетичес-

'• f Г Г /* 1

~ " /•> ' * о JiHftBa п^гуппылрп ^ЛП—

НИХ СИМВОЛОВ V

\ а^ , af , . . . , af \ , а слова выходного сло-11 г "- 1

варя канала W= {

'I 2 " ^ "1 ^,,^,.. . W -.^}

цепочками

_^.. „_..... квазифонетических эталонов iff, -- i bj , bj , . . . , bj } , где Q^ e А , Ъ, f- В - соответственно входной и выходной алфавиты фонем канала; г= /, R ; s= /, 5 ; л= п(г) ; 1= l(s). Тогда оценку сложности распознавания слов, производимого сравнением входной реализации с цепочками квааифонетических эталонов, можно осуществить на основании анализа матрицы ошибок, подученной при представлении эталонов слов Wy ё. W поверхностными формами й^ f Wg , k^ f,Ky каждого выходного слова. Фактически сложность распознавания входного словаря V определяется наличием сходных эталонных поверхностных форы U^ выходного словаря W и частотой встречаемости зтих поверхностных форм р (w<n). Основная проблема При построении матрицы ошибок для каждого словаря заключается в формировании эталонов поверхностных форм г^ е w, для реализация каждого слова и получения квазй-фонвтического графа /Т г^), учитывающего все поверхностные формы в вероятностями их появления. Все множество квазифоиетических поверхностных форм слова w, записать в виде эталонного графа трудно, так как ори аппаратурно-програмыном методе распознавания появляются не только поверхностные формы слова, обусловленные

В4

особенностями произношения, но и формы, включающие случайные сегменты, маркированные квазифонетическими метками, появление которых связано с неидеальностью автоматической фонетической сегментации и маркировки нашим алпаратурно-програмыным методом, вызванной, например, изменением интенсивности речевого сигнала.

В дальнейшем будем рассматривать влияние двух обстоятельств на формирование эталонных поверхностных форм слов рабочего словаря, учитывая, что поверхностные формы, связанные о особенностями произношения и матрицей ошибок квазифонемной классификации, можно построить вручную (или автоматически,исполь-ауя таблицу акустико-фонодогических правил, хранящуюся в памяти, и прилагаемых к базовой квазифонетической цепочке), а поверхностные формы w . , обусловленные особенностями аппаратуры выделения информативных признаков, можно получить, анализируя статистику реализации квазифояетических цепочек слов рабочего словаря, полученных с помощью ЭВМ. Получение этой статистики не всегда обязательно, особенно если рассматриваются слова,контраст-ные по своим акустическим свойствам. Предварительную оценку сложности распознавания слов можно сделать аналогично оценке сложности фонетического алфавита - по фонетической структуре слов, вычисляя апостериорную словесную неопределенность и не исследуя статистики реализации.

Все эталоны слов и^у б W рабочих словарей должны быть представлены последовательностью маркированных фонетическими метками отрезков, где квазифонемы должны делиться на опорные, обязательные для данного слова (определяющие базовую форму и, как Правило, присутствующие во всех поверхностях), и "вспомогательные", трудноклассифицируемые. Трудноклаосифицируемые сегменты должны быть расчленены (хотя бы грубо) на несколько квазифонетических элементов, если длина этих сегментов выше пороговой (это делает на первом этапе человек на основании знаний фонетической структуры возможных форм каждого слова). Опорными сегментами слова следует считать маркированные отрезки которые при их маркировке квазифонетичаскими метками допускают суммарную ошибку ниже ввристически определенного порога.

При автоматическом распознавании выбор эталонов (из словаря эталонов) должен быть в первую очередь обусловлен наличием в Поступившей на вход реализации опорных, обязательных маркированных сегментов о. с учетом того, что за счет иеидеадьности сегментации общее число сегментов входной реализации может не совпадать с возможным числом сегментов эталонного графа,за счет Неопорных сегментов, образующихся или выпадающих случайно.

Страницы: 1, 2, 3, 4, 5