Рефераты. Машины, которые говорят и слушают

Машины, которые говорят и слушают

nOCIPOFHHE СИСТЕМ ДИСКРЕТНОГО РАСПОЗНАВАНИЯ РЕЧИ, РАБОТАЮЩИХ БЕЗ ПОДСТРОЙКИ ПОД ДИКТОРА

§ 2.1. Общие проблемы автоматической подстройки неадаптивных систем распознавания речи

Ьеадаптивные системы дискретного распознавания речи,   рас­сматриваемые в настоящей главе, позволяют произвольному диктору-ногитедю нормы произношения данного языка производить автоматичес­кий речевой ввод изолированными словами или короткими     спиво-сочетанияуи. Такие системы являются, как правило,   аппаратурно-ц рог равным и и основываются на выделении некоторых   устойчивых фонетических признаков, проявляццихся у множества дикторов-носи­телей нормы данного языка для различных классов звуков,и на даль­нейшем использовании этих признаков (представленных   гистограм­мами их распределения) для декодирования высказывания.   Однако фактически и в этих системах осуществляется некая    подстройка под множество дикторов (обучение) во время сбора    статистики, построения гистограмм параметров для различных звуков и при вы­боре решающих правил. Поэтому, строго говоря, такие системы    не следовало бы называть неадаптивными, т.е. термином, достаточно широко распространенным в настоящее время. Кроме того,автомати­ческое разбиение всего множества дикторов-пользователей на груп­пы (кластеры) и формирование обобщенных эталонов слов дяя каж­дой группы само по себе есть обучение на диктора,     адаптация универсальной системы к этому множеству пользователей,что также заставляет быть осторожным в применении Термина-"неада^тивные", Если же говорить об использовании этого термина в смысле отсут­ствия адаптации к новому словарю и языку системы, го, действи­тельно, все известные невдаптивные системы [10, 16,25, 166, 167] практически не обеспечивав автоматическое изменение этих   ос­новных характеристик. Попытка универсальной сегментации слов, яв-хякхцейся основой подстройки иод словарь, рассмотрена в  [133 • Задача настоящей главы - исследовать более широкие аспекты проб­лемы перестройки к новым условиям не адаптивных систем, ориенти­рованных на работу с произвольным диктором. Под адаптацией бу­дем здесь понимать расширение, развитие неадаптивной системы ав­томатического распознавания фраз, составленных мэ изолирований

74

йдов, эа счет некоторого изменения языка этой системы и его сло­варного состава. Как правило, в конкретных задачах речевого уп­равления возникают Проблемы, связанные с обогащением языка, до­бавлением новых слов и понятий. В отдельных случаях   требуется медиком заменить словарный состав языка, приспособить системы   к совершенно новой задаче. При этом желательно сохранить   основные структурные (синтаксические) свойства языка, связи между лингви­стическими уровнями, соотношения между понятиями внутри   уровня, т.е. придать свойствам языка универсальный характер, формализовать язык речевого запроса таким образом, чтобы он напоминал язык опи-оанйя   баз данных - сетевой, иерархической или реляционной.

Основными лингвистическими вопросами, возникгшцими при этом, явжявтся:

1) как оценить сложность языка речевого общения и попытаться, используя синонимию, свести трудности распознавания сдов, вызван­ные фонетическими неопределенностями, до минимума;

2) каким образом ограничить гибкость проблемно-ориентнрова!:-иого языка, не слыпком сдерживая желания и возможности человека общаться с информационной системой естественными фразами; какие задачи позволяют нам практически использовать относительно прос­той синтаксис языка;

3) как автоматически расширять словарный запас языка;

4) как при этом корректировать язык, на базе которого   соз­дана неадаптивная система автоматического распознавания.

(Вопросы о расширении круга пользователей, включая пользо­вателей, говорящих с акцентом иди дефектом речи, а также проб­лемы поиска новых информативных признаков, использования телефон­ного канала опускаем, относя их к техническим вопросам,которые • работе не рассматривается.)

Некоторые из перечисленных лингвистических проблем   возни­кают и для адаптивных систем, работающих с подстройкой под дик-Юра и словарь. 3 известных работах по аравтическому использо­ванию адаптивных систем [134,140] нет сведений об адаптации си­стем к новому изменяемому языку речевого общения (если не счи­тать замену словаря в системах типа  vir-юо   подстройкой под язык).

йервой мз проблем посвящен § 2.2, где выбор словаря обус-яовлен точностью распознавания слоя и связанной с ней вероят­ностной оценкой неопределенности распознавания При заданной сово­купности фонетические признаков. Оценка граю-атнческой сложности яэыка, используемого   в неадаптивных системах распознавания ре-11^^ (языка, древовидной структуры без сложных внутренних связей)

76

(си. § 2.3), позволяет подойти  к  решению вышеуказанной    проб­лемы 2). Задаче автоматического расширения словарного состава пос­вящена четвертая глава, тесно связанная  с  пятой главой, где опи­саны эксперименты  по  построению системы распознавания  понятий­ных фраз конкретного языка описания данных информационной системы, для которого строилась модель. Кратко  о  проблеме 3 говорится  в п. 2.3.3 ,  в  котором рассматривается автоматическая подстройка "под язык", изменяющийся  с  изменением словарного состава.

Рассматривающиеся далее вопросы,на наш взгляд,имеют   весьма важное значение  как  идеологическая основа будущих систем  авто­матического речевого запроса информации, ориент грованных на произ­вольного пользователя. Если первые практические неадаптивные сис­темы распознавания речи (СРР) могут  и  отличаться от аппаратурно-программных, аналогичных нашей (скажем, основываться на мультимик-ропроцессорных системах,  в  которые речевой сигнал поступает   с АЦП),  то  общие лингвистические проблемы, указанные здесь, неиз­менно будут возникать  при  любой структуре системы и любом  под­ходе  к  первичному описанию сигнала. Не следует забывать,    что неадаптивные системы автоматического распознавания являются основ­ными системами будущего - при общении-, с  роботами и информацион­ными системами общего назначения. Вопросы, рассматриваемые далее, будут относиться  к  неадаптивным системам, ориентированным   на пословный  ввод речевой информации,  а  также на ввод  информации короткими  словосочетаниями, которые можно рассматривать как одно слово. Это  связано  с тем, что лишь  на изолированных словах   и коротких словосочетаниях параметры звуков (выцеляемые алпаратурно) являются относительно устойчивыми (обладают малой дисперсией),  и можно говорить  о  возможном использовании характеристик, опреде­ляемых гистограммами параметров, для автоматического распознава­ния .

При распознавании изолированных слов представляется целесооб­разным разработать алгоритм, который обеспечивал бы устойчивое сег­ментирование поступающих  на  вход реализации слов на    участки, соответствующие различи™ способам образования звуков, т.е. на то­нальные отрезки речи, шумные  и  участки, соответствующие  гиухии смычковым (коротким паузам внутри слова). Звонкие фрикативные зву­ки можно было  бы отнести к шумным. Существуют различные   методы такой классификации  в  зависимости от первичного описания  рече­вых сигналов. Для  аппаратурно-программного метода достаточно вы­сокую точность классификации отрезков речи на участки "тон - иум ' Пауза"  для произвольного диктора дают бинарные признаки способа образования звуков, выделяемые аппаратурно   [97] .

76


Динамика участков "тон - шум - пауза" является хорошим приз­наком распознавания слов для небольших специально    подобранных „доварей. Не представляет труда перейти к небольшому    новому словарю, используя лишь признаки классификации отрезков речи   на вти трч класса и динамику типов участков в слове. Вакно правиль­но выбрать фонетическую структуру слов этого словаря. В зависгзло-стИ от возможностей надежной классификации отрезков речи на эта­пе анализа сигнадоч (первичная сегментация и маркировка)    mosko использовать большее число классов сегментов (классов фонетической структуры слова), динамика которых позволит надекно классифициро­вать большее число слов словаря. (В наших работах на    начальной уровне анализа речи использовалось как семь типов сегментов (ей. Я, 2.2.2), так и три типа - тональный-шумный-сауза (см. § 5.5).)

В связи с этим Ж.Дрейфу о-Граф для распознавания словар­ного состава разработал специализированный язык речевого общения sotina , состоящий из бессмысленных слов, которым условно при­дается некое смысловое значение, и включал лишь "контрастные" в Пространстве используемых признаков звуки, поэтому легко различае­мые автоматически [127] . Словарный состав языка sotina включал бессмысленные слова, на базе которых предлагалось создать   ис­кусственный язык для речевого общения человека и 5ВУ.

§ 2.2. Оценка сложности распознавания словаря речевого общения

2.2.1.Связь точности распознавания с особенностями фонетики слов.Сравнивать качество распознавания существующих СРР и СПР толь­ко по точности распознавания или объему словаря недостаточно   по нескольким причинам. Во-первых,разные задачи, естественно,   тре­буют различных языков общения,словарный состав которых включает слова, имеющие различные акустические (фонетические) характеристи­ки.Источники информации о таких высших уровнях знаний языка, как синтаксис, семантика, прагматика, накладывают различные ограниче­ния на возможные альтернативы, поэтому задача распознавания упро­щается для различных языков по-разному; даже для словаря с высо­кой степенью фонетической неопределенности можно   получить   (за счет семантико-синтаксических ограничений) высокую точность иитер-Чрета11ии высказывания. Во-вторых, СРР используют разнообразные ме­тоды первичной обработки и представления речевых сигналов на ниж-них уровнях. С этим связана различная точность фонетической клас­сификации , являющейся основой распознавания. Рассмотрим, как раз-

77

лишаются речевые сигналы  на  разных уровнях знания и  как    они используются  при  распознавании слов. Известно, что   наибольшие оаибхи дают слова  и  фразы с близкой фонетической    структурой, входящие  в  общий словарь распознавания. При этих условиях   за­дача распознавания  как  изолированных слов, так и слитной   речи усложняется,  но синтаксис и другие высшие источники знаний    о языке накладывают ограничения, которые сокращают неопределенности, тем самкл повкаая точность распознавания слов.

При выборе словаря СРР важно,  как  уже отмечалось, знать не только размер словаря,  но и степень различимости слов. Для част­ных применений  и  малых словарей необходимо предварительно  про­вести отбор  и  разумную замену слов, если позволяет задача,   с целью увеличения различимости слов словаря. Поэтому целесообразно исследовать  неопределенности, ограничения и сложности, встречае­мые  при  использовании различных языков практических СРР.

Страницы: 1, 2, 3, 4, 5



2012 © Все права защищены
При использовании материалов активная ссылка на источник обязательна.