Рефераты. Машины, которые говорят и слушают

Апостериорная вероятность того, '•то, если в результате распознавания Получили фонеыу Ь, , то на вход пос­тупила фонема а^ , определяется   по Формуле Байеса

Зак.480                          у


0,15 0,75 0,10

0,01 0,10 0,89

Рис. 2.2. Ilptttcap мктрицы условных вероятностей рас­познавания   изолированных звуков


 


(2.2)

Ииормацня 7(а^; Ь ), получаемая от канала, когда на   его вход потупила фонема  а.^ ,   а на выходе распозналась как 6, , опредедется    [91]

. , p^Jbj)

l^i\b^lo<j ^ .               (2.3)

С]»дняя информация, получаемая на выходи канаха с потерями при жредаче (распознавании) входного алфавита фонем A:={a•^, которШ распознается   как алфавит в = { ^ } , будет

UA,B)=^p(a„^)Ha^^)=

^^,6,)^^/^-а,в'   L J   у?  р(а,)

=-ip(a„b-)lo^p(ai)^p(a^b,)io^p(a,/^)^

^,0                          /1,0

=-ip(a,)log,p(a^lp(a,^toy^p(a,/ 6,);

л, в

I ,В) = Н W^P^, ^}to^f){a, /Ь,).         (2.4)

л, в

С»метим, чтоН(Л)- энтропия, характеризующая степень неоп-редвдедости входного алфавита А-=-{а^] .  Из (2.4) подучаем,что

H(A)-I(A,S)=-^p(a,,b..)iw,p(ai/b^=

Л, о

=-рР(^/Ь/)р(Ь,)1о^р(а,/6,)-

Д,В

=-^р(^-)^/?1'а,/^-)^/)(^./^.)= Н(А/В);     (2.5)

Н(А^)- апостериорная ентропия входного алфавита фонем, которая 82


характеризует меру информации, теряемой в системе распознавания дрй передаче входного алфавита { я^} .   Апостериорная внтропия и является мерой, оценивающей сложность входного словаря для авто­матического распознавания при  фиксированном параметрическом описании.

При наличии значений энтропии входного алфавита фонем можно вычислить размер (объем), равный У'"', а значения 2 vw   ха­рактеризуют среднее количество возможных альтернативных (конку­рентных) элементов алфавита {о I     на входе СРР после того, как на выходе получили множество { 6 } ,  т.е. меру   сложно­сти распознавания входного алфавита фонем. Назовем эту     меру эквивалентным размером алфавита фонем. Значение у"^0'    можно назвать энтропийным критерием оценки фонетической неопределенно­сти, который является обобщенной характеристикой сложности рас­познавания алфавита фонем < а^ \   данной системы распознавания. Если СРР работает без ошибок, условная энтропия    Н(А/В)вО и эквивалентный размер алфавита фонем 2"("/°' = i.   Естественно, что если Н(А/В)»0, то Z"^^!, а в случае, когда СРР не   рас­познает Н(А/В)=Н(А), то эквивалентный размер алфавита    фонем равен Z"^

Эквивалентный размер алфавита фонем дает возможность коли­чественно оценить среднее число возможных конкурентных    фонем (имеющие близкие параметрические описания), и для его определе­ния необходимо знать апостериорные вероятности p(a^/b-) вхо­дного алфавита.

Для решения конкретных проблем автоматического распознава­ния ограниченных наборов слов взе многообразие фонем    можно свести к двум-трем рабочим фонетическим единицам   (например,к классам длительных шумных, звонких и смычных звуков),    которые При использовании простой системы признаков к несложных   алго­ритмов распознавания дают нулевую апостериорную энтропию. Однако ври решении задачи распознавания относительно сложных словарей и/иди требование надежной фонетической верификаций произнесенно­го слова такого количества рабочих фонем сказывается явно недо­статочно. Работать Же с полным набором фоней "ложно из-за оши­бок их автоматического распознавания. Поэтому к приходится идти на компромиссные решения - искать какой-то оптимуи при фонетичес­ком описании рабочих словоформ. Эти проблемы будут частично рас-емотрены в а. 2.2.3.

Условные вероятности распознавания фонем ^(6,/д.), опреде­ляющие эквивалентный размер фонетического алфавита, можно опре-• Делить несколькими методами.

83

Статистический мегод позволяет получать вероятности распоз­навания фонем, используя реальную СРР. ото осуществляется   путем сравнения результата распознавания системы с точной ручной сег~ ментацией и маркировкой речевого сигнала (иди его параме-гричес-кого представления), поступающего на вход системы   распознава­ния. В результате получается классическая матрица правильной и оаибочной классификации входного алфавита фонем.

Акустико-параметрический метод, когда матрица ошибок клас­сификации фонем получается путем прямого сравнения их парамет­рического описания. При этом эталон фонемы выбирается из   мно­жества реализации данной фонемы. Расстояние между фонемами исполь­зуется для оценки условных вероятностей ошибочной классификации фонем. Точность этого метода зависит от выбранного эталона и объе­ма исследовательского материала.

Кроме этих методов, оценку вероятности ошибочной классифика­ции фонем можно произвести на основе моделирования речеобразующе-го тракта человека  [73.

^.2.3. Оценка сложности распознавания слов по их фонетичес-кой структуре. Рассмотрим неадаптивную систему распознавания слов как канал передачи информации. Слова входного словаря V= ^Я.,У„,... ..., V.,..., v„} можно представить последовательностью фонетичес-

'•                 f       Г            Г                           /*  1

~                    "                  /•> '   *       о  JiHftBa  п^гуппылрп    ^ЛП—

НИХ СИМВОЛОВ  V

\ а^ , af , . . . , af \ , а слова выходного сло-11   г        "- 1

варя канала W= {

'I     2             " ^ "1 ^,,^,.. .  W  -.^}

цепочками

_^.. „_.....                                                квази­фонетических эталонов iff, -- i bj , bj , . . . , bj } ,   где  Q^ e А , Ъ, f- В     - соответственно входной и выходной алфавиты  фонем канала; г= /, R ; s= /, 5 ; л= п(г) ; 1= l(s).   Тогда    оценку сложности распознавания слов, производимого сравнением    входной реализации с цепочками квааифонетических эталонов, можно   осу­ществить на основании анализа матрицы ошибок, подученной    при представлении эталонов слов Wy ё. W    поверхностными  формами й^ f Wg , k^ f,Ky      каждого выходного слова.    Фактически сложность распознавания входного словаря  V   определяется нали­чием сходных эталонных поверхностных форы U^ выходного словаря W и частотой встречаемости зтих поверхностных форм р (w<n). Основная проблема При построении матрицы ошибок для     каждого словаря заключается в формировании эталонов      поверхностных форм г^ е w,   для реализация каждого слова и получения квазй-фонвтического графа /Т г^), учитывающего все поверхностные формы в вероятностями их появления. Все множество квазифоиетических по­верхностных форм слова w,    записать в виде эталонного графа трудно, так как ори аппаратурно-програмыном методе распознавания появляются не только поверхностные формы слова,   обусловленные

В4

особенностями произношения,  но и формы, включающие случайные сег­менты, маркированные квазифонетическими метками, появление  кото­рых связано с  неидеальностью автоматической фонетической сегмен­тации  и  маркировки нашим алпаратурно-програмыным методом,  выз­ванной, например, изменением интенсивности речевого сигнала.

В дальнейшем  будем рассматривать влияние двух      обстоя­тельств  на  формирование эталонных поверхностных  форм слов  ра­бочего словаря,  учитывая,  что   поверхностные формы, связанные о особенностями произношения  и  матрицей ошибок   квазифонемной классификации, можно построить вручную (или автоматически,исполь-ауя  таблицу акустико-фонодогических правил, хранящуюся в памяти, и прилагаемых  к  базовой квазифонетической цепочке), а   поверх­ностные формы  w . ,  обусловленные особенностями аппаратуры  вы­деления информативных признаков, можно получить, анализируя  ста­тистику реализации  квазифояетических цепочек слов рабочего  сло­варя, полученных  с  помощью ЭВМ. Получение этой статистики   не всегда  обязательно, особенно если рассматриваются слова,контраст-ные  по  своим акустическим свойствам. Предварительную     оценку сложности распознавания слов  можно сделать аналогично     оценке сложности  фонетического алфавита - по фонетической структуре слов, вычисляя  апостериорную словесную неопределенность и не  исследуя статистики реализации.

Все эталоны слов  и^у б W  рабочих словарей должны быть пред­ставлены последовательностью маркированных фонетическими  метками отрезков,  где  квазифонемы должны делиться  на  опорные,  обяза­тельные  для данного слова (определяющие базовую форму и,    как Правило, присутствующие  во  всех поверхностях), и "вспомогатель­ные", трудноклассифицируемые. Трудноклаосифицируемые     сегменты должны быть расчленены (хотя бы грубо)  на несколько квазифонети­ческих элементов, если длина этих сегментов выше пороговой (это делает  на  первом этапе человек на основании знаний фонетической структуры возможных форм каждого слова). Опорными сегментами сло­ва следует считать маркированные отрезки  которые  при их  марки­ровке квазифонетичаскими  метками допускают суммарную ошибку ниже ввристически определенного порога.

При автоматическом распознавании выбор эталонов (из  словаря эталонов) должен быть  в  первую очередь обусловлен наличием    в Поступившей  на  вход реализации опорных, обязательных маркирован­ных сегментов   о.   с учетом того,  что  за счет  иеидеадьности сегментации общее  число сегментов входной реализации может    не совпадать  с  возможным числом сегментов эталонного графа,за счет Неопорных сегментов, образующихся  или выпадающих случайно.

Страницы: 1, 2, 3, 4, 5



2012 © Все права защищены
При использовании материалов активная ссылка на источник обязательна.