н^-^, ^ ^О^/^О,
(2.15) где Т - максимальная длина предложения. Естественно, что
(2.16)
г z pa^)=f.
/,., iyki, г
В случае, когда различные предложения, порождаемые грамматикой G ,
имеют разные смысловые интерпретации, тогда энтропия Языка характеризует
его возможность передавать информации. В соответствии с теорией
кодирования информации число возможных фраз языка с энтропией H(Z) будет 2н(t), и это значение определяет размер
входного языка.
Для
определения сложности (неопределенности) распознавания языка речевого обшения
рассмотрим процесс распознавания предложения в виде последовательности
распознавания слов из подсловарей данного уровня, размеры которых определяются
коэффициентами ветвления К^ . Тогда для оценки сложности
распознавания языка необходимо оценить сложность распознавания всех N
подсловарей
93
этого
уровня, где <V - число точек ветвления. Ранее, в п.
2.2.3, рассматривали, как можно оценить сложность распознавания словарей
по фонетической структуре слов, поэтому здесь на этом вопросе подробно
останавливаться не будем, а только отметим, что вероятность появления слова
г^
вероятностью P(Vf, } применения'
в подсловаре i- определяется /с.-го
правила подстановки в
каждом узле дерева стохастической автоматной
грамматики. Имея условные вероятности р. (v^/Шс) ошибочного распознавания
слов каждого из подсловарей и рассматривая CPF как
канал передачи информации, определяем потери информации /„ду в случае
распознавания предложений, произносимых пословно, следующим образом:
к к;
£
с?
Обычно
интересуются, как распределены потери информации по различным понятийным
уровням S^ и различным узлам графа,
представлякщего автоматную грамматику уровня. Важно знать,в каком узле языка
общения "тонкое место" и как его устранить.
Для общей оценки сложности
распознавания предложений, которые произносятся пословно в соответствии с
заданной грамматикой G ,
можно пользоваться выражением 2 "" , которое определяет
среднее число возможных альтернативных фраз на входе в СРР. В случае,
если СРР работает баз ошибок, при пословном произношении фразы на выходе
системы всегда одно предложение.
Формула (2.17) оценивает
сложность распознавания фраз языка речевого общения СРР. При этом отметим,
что эта мера зависит как от фонетической структуры слов словаря, так и от
грамматических правил образования предложений. В практических СРР при
распознавании языка необходимо, чтобы /„ была близка к нулю
^пот < ] порог • (РВД11118 ошибки при распознавании слов можно устранить
словами устного автоматического редактирования .) Если это условие не удовлетворяется,
то возникает проблема изменения языка, которая сводится к изменению
словаря системы и/ияи грам-иатики языка с целью увеличения точности
распознавания.Для этого можно либо использовать синонимию в подсловарях,
имеющих наибольшую неопределенность, либо изменить грамматическую структуру
предложения путем изменения грамматики G , которая используется
как механизм сокращения области поиска, ограничивающей число приемлемых
альтернатив.
94
г.3.3.
Изменение языка в
неадаптивных системах автоматического речевого запроса.Описанный во.
2.3.1 в общем видепоня-тийный язык речевого общения "человек -
информационная систеыа" допускает его развитие на основе некоторого ядре
или создание -не базе общих представлений о структуре языка. Суть
развития этого языка ("подстройка под язык") сводится: к замене или
увеличению числа терминальных символов грамматики в", определяющей
появление, замену или уничтожение целых понятийных уровней, язык которых
определяется грамматиками ^ ; к замене, уменьшению или увеличении
числа терминальных символов грамматик G^ без изменения числа понятийных уровней.
Понятийный
язык речевого запроса информации рассматривается как лингвистический процессор,
который представяен комплексом Программ, обеспечивающим автоматический
перевод устного текста в заданный момент для того, чтобы информационная
система могла воспринимать (понимать) фразы, относящиеся к рассматриваемой
пред-иетной области. Тогда задача "подстройки под язык" сводится к
модификации (иди вообще построению) этого лингвистического процессора, который
допускает только правильные, осмысленные пред-жижения, обусловяенные
грамматики 6°, G,', <?,,..., <?/.
В
соответствии с п. 2.3.1, задача построения такого лингвистического
процессора, если заданы множества слов { у,
, г^, . . . .... Уд,} словаря V описания данных
информационной системы, формально сводится к построению некоторой функции
/ = <f> (v,, ^ , . . .. 1^ ),
где i v,
, Vy , . . . , гГд. } б V , полностью
определяющей работу «Ннгвистичесного процессора (семантико-синтаксического
анализатора), который допускает только слова, являющиеся грамматически
правильными в данном контексте.
Дяя этой цели фразы
языка речевого общения представим в виде направленного графа с конечным числом
состояний без циклов
(2.18)
Весь словарь (узлы графа) разобьем на I
непересекающихся понятийных уровней, т.е.
V П V^ П . .. П V = О
(2.19)
Для указания связи между словами (узлами) понятийного графа строим
матрицу смежности 2)= [и';,], которая распадается на
9Ь
D, ,Д,, . . .
,Д„, . . . ,^_, подматриц, где Д„ =(о^ б {О,/}) указывает смежность п-го
и п+1 уровней графа 6(1/, Г). Тогда задача подстройки
"под язык" заключается в задании
и/или изменении словаря языка речевого общения
и матрицы смежности D > указывающей связь между словами понятийного
графа.
Иными словами, частичная иди
полная замена словари в неадаптивных системах распознавания фраз, составленных
из изолированных слов и коротких словосочетаний на основе понятийных языков,
описываемых грамматиками { 6°, G\, CJ, . . .
, G^ } ,
приводит к изменению грамматик, к приспособлению понятийного графа к новым
требованиям,
Замена терминальных символов
{V- ^ грамматик {С/} производится записью в соответствующий
массив, где хранятся эталоны старых слов, новых слов и квазифонетических
поверхностных форм, представляющих эталоны нового терминального символа. Если
используются программы автоматического порождения множества поверхностных
форм по базовой форме слов (слова), определяющих новый терминальный символ,
то дл.-: замены терминального символа (получения множества эталонов) требуется
ввести лишь информацию о последовательности квазифонетических символов; запись
новых символов можно производить аналогично описанному. Эталоны названий
новых понятийных уровней вводятся так же,потому что они являются терминальными
символами грамматики верхнего уровня G"• При введении нового уровня необходимо
описать грамматику языка этого уровня и включить эталоны новых терминальных
символов. Изменение матрицы смежности производится в зависимости от требований
измененного языка, от новых понятий и новых взаимоотношений между словами
понятийного графа. Если необходима замена правильных слов словами-синонимами,
то никаких изменений матрицы смежности не производится. Оысл введения
слов-синонимов сводится лишь в уменьшению 1^, (2.17).