Рефераты. Машины, которые говорят и слушают

Преимущество метода ЛПК заключается в тс-л, что он позволяет

воспользоваться тем фактом, что голосовой тракт человека относительно

медленно меняет свои параметры при речеобразовании.Это свойство

ограничивает диапазон изменения форматных параметров, которые могут

следовать за форматами уже с генерированных отрезков звуков речи. Такое

прогнозирование уменьшает требования к объему памяти системы, а также к

скорости обмена данными; с описываемой системой она равна 1200 бит/с.

Синтезатор National Semiconduoton Inc. способен осуществлять анаяого-

цифровое преобразование речевых сигналов и сохранять их в памяти для

дальнейшего восстановления. Такой метод предполагает огромный объем

информации, которая должна храниться в памяти, что делает его

малопривлекательным. Однако в рассматриваемой системе эта трудность

обходится за счет использования различных методов сжатия данных. Это

позволило реализовать качественный синтез речи во временной области на

уровне &1С.

Дискретизацию и сжатие исходной речи, записанной на магнитной ленте,

осуществляет мини-ЭВМ. Результирующие данные сохраняются в постоянном

запоминающем устройстве (ПЗУ) для последующего восстановления,

осуществляемого БИС процессора речи. Благодаря применению Трех методов

сжатия (подстройки фазового угла, дельта-модуляции и полупериодного

обнуления) скорость поступления данных, по которым восстанавливается

нормальная речь, снижается примерно до 1000 бит/с речи, так что по ПЗУ

емкостью 10 кбит можно хранить примерно 10 слов.

Процесс сяатия начинается с дискретизации аналогового речевого Сигнала и

разделения цифрового массива на участки, в каждом из которых 128 оГсчетов;

эти участки в какой-то степени характеризуют периоды основного тона. Для

получения набора цифровых выборок, аналогичных формируемому предложению,

подстраиваются фазовые углы этих отрезков. Дальнейшее сжатие

осуществляется с помощью дельта-модуляции, в результате чего вместо

хранения абсолютной амплитуды каждой выборки в память записываются только

знаки приращения амплитуд относительно предшествующего значения.

46

рассмотрим далее более подробно несколько современных систем

параметрического синтеза.

В ГЮО] описана разработанная фирмой Texas Instrument a программа,

позволяющая преобразовывать произвольный текст в речь. Программа совместно

с интегральным синтезатором речи типа tms-5й00 позволяет читать вслух

информацию, отражаемую на экране дисплея домашнего компьютера 9S14. В

отличив от Speak and Spell система не иоподозувт записанные ранее в ПЗУ

слова и фразы, а синтезирует слова из 128 аллофонов (аналогично системе

Votrax описанной ранее), которые объединяются системой для образования

слитной речи. Программа преобразования текста в цепочку аллофонов выбирает

аллофоны из библиотеки и определяет их ударение и интонацию. Затем эта

информация поступает в блок синтеза речи, который формирует звуки,

используя кодирование, основанное на линейном предсказании.

Блок-схема преобразования текста в речь, реализованного Texas

Instruments, представлена на рис.I.I.

Аллофоны имеют переменную длительность от 50 до 200 мс и кодируются в

соответствии с параметрами, необходимыми для организации синтеза,

основанного на линейном предсказании. Библиотека аллофонов, включающая

длинные и короткие паузы, кодируется по энергиям и коэффициентам,

необходимым для установки характеристик фильтра ЛПК-синтезатора.

Библиотека аллофонных кодов занимает 3 кбайта памяти.

Для преобразования текста, поступающего на вход в пооледова-тедьность

аллофонов, используется набор из 650 правил, который в процессе испытаний

обеспечивал правильный выбор 97^ фонем и 92% аллофонов. Правила занимают 7

кбайт памяти. Программа конструиро-

Синтез речи

Конструирование речи (программное формирование кодовой аллофонной цепочки)

|Вход|Правил| |Преобразо|1|Центр|

|ное |а | |вание |+|альны|

| |преобр| |аллофонов|1|й |

| |азован| |в данные | |Проце|

| |ия | |для | |ссор |

| |текста| |синтезато| | |

| |в | |ра | | |

| |аллофо| | | | |

| |ны | | | | |

|текс| | | | | |

|т | | | | | |

[pic]

|Упра| |Син|Ре|

|влен| |тез|чь|

|ие | |ато| |

|Памя| |р | |

|ть | |реч| |

| | |и | |

| | |тае| |

| | |- | |

| | |520| |

| | |0 | |

| | | | |

| |. 1 | |

| |(множественного числа, прошедшего времени, палаталлэации) применяются ке^

Правила модификации признаков

3. [\tfns\—-[-tens'] /_ [+ ret]

Применение ТМ-оравмя к сяоэу carlna дает:

< с а г е + i n (f буква буква

букм буква буква буква буква соги. глас. согя. гяас.

пас. согя. согд.

Таким обозом, эти аравияа вводят новую букву е , а также опредедяшт

границу модемы "+" и суффикса " •". (Введенные си»»-воям служ*»т важной

частью иравия контекста, которые исоояьауются С- и / М-правияами.)

Модифицированный текст и связанные с ним признаки далее обрабатываются

С-оравмяаыи, которые формируют фонетическую цепочку из последовательности

буке, полученных на предыдущем ваге. С-иравияо (рис. 1.Ь ), например,

показывает, что буква "а" произносится, как "е", когда она предшествует

одиночной согяас-ной, за которой сявдует эаканчиваиаая морфему буква "е".

(Это

70

Оравию применяется к "а" в w»e Bathing,гд,» звуки " th " проиэ. косятся

как один согяасный, но не к "а" в слове taxina , где •х'1 произносится как

два согласных.) Результат применения всех оравил конверсии к сдову carinq

позвояяет пожучить ояедующгю вались:

9

согл. взрывной,

подъема, альвеолярный велярный, передний звонкий

+ А- е г -+. I n согл. гдас. согя.

глас. con. взрывной, среднего ретро- верхнего назальный,

велярный, пид-ьеыа, Фявчсный подъема, гяухой передний

Если правила модификации текста изменяют текстовую цепочку непосредственно,

то С-правила формируют ноаую цепочку (фонем) на основе tm{iupuaiyiH.

заключенной в текстовой цепочке, F/И-пра-

•ила модифицируют фонетическую цепочку, применяя прарила контекстной

зависимости х матрице признаков и включая или устраняя соот катет йущяв

сегменты. Так. ГМ -правило устанавливает, что напряженный гласный

становится напряженным перед ретрофлексными звуками. Другии /^"дравидом

яуяяетая правило объединения п и д , когда произносится п . Все эти правила

использовались совместно с английскими правилами порождения параметров,

соответствующих фонемам, для похучения речевой волны.

В [%] рассматривается математическое обеспечение однокристальной

микроЭВМ модели <»20, преднааначенной для обработки сигналов. Благодаря

наличию аналоговых входных и выходных схем М высокому быстродействию она

легко может быть перестроена для синтеза речи. На атой микроЭВМ можно

реализовывать различий способы синтеза речи. Описаны программы,

моделирующие работу генератора голосовых импульсов (программа формирует ряд

асимметричных треугольных импульсов), а также генератор шумового сигнала,

который моделируется при помощи генератора псевдослучайных чи~ Св*. Для

моделирования передаточных функций речеобразумаего тра-«»а разработаны

программы модификации выходных значений сигна-

*ов, поступающих с выхода генератора голосовых импульсов и гене-Р»тора

шумовых сигналов. Для втого применяют моделирование рекурсивных фильтров с

переменными временными параметрами и ыиогоавен-чах. В [96] приведена

типичная программа для одного звена ччогозввнного фнютра, управляемого

параметром, который иивет раз-чые значения для различных звеньев.

Отмечается, что для пос-•Ровния типичного синтезатора речи требуется два

микропроцессора ®20; первый обеспечивает работу генератора воабуадаицих

сигна-

71

лов и моделирование нескольких первых звеньев многозвенного фидьтра,

а второй - для остальных звеньев этого фильтра. Для построения

форматного синтезатор»» достаточно воспользоваться одним микропроцессором

2920. Речевой тракт моделируется здесь последовательностью рекурсивных

фильтров второго порядка (в [96] при» водится программа такого фильтра).

Для удовлетворительного синтеза последовательно включают не менее трех

звеньев,моделирующих три форманта.

1.4.6. Отечественные системы автоматического речевого вывода. Основные

работы по автоматическому синтезу речи связаны с построением

параметрических синтезаторов [6,43, 48-50, 53, 70, 75]. Некоторые из

систем речевого вывода информации из ЭВМ внедрены в опытную эксплуатацию

[43,48] , другие - близки к внедрению [6, 70,78] , третьи - используются

в экспериментальных установках [50, 56] .

Развитие работ по построению систем автоматического речевого вывода

ведется в нашей стране в широком диапазоне - от фо" немных синтезаторов

до словесных и даже фразовых временных компиляторов.

Если в работах первого направления, при которых фонема

рассматривается как набор заданной последовательности движения

артикулятороа в артикулчторной программе, стремятся к компактности

представления генерируемого речевого сообщения и универсальности,

обеспечивающей речевое отображение произвольной текстовой информации, то

в компилятивных временных синтезаторах второго направления делается упор

на разборчивость и естественность скомпилированных высказываний (в

ущерб универсальности и компактности представления сигнала).

Одним из наиболее типичных синтезаторов параметрического типа

является ортогональный синтезатор речи [48] . Синтезатор предназначен для

выцачи голосом из ЭВЫ в телефонный канал счетов-справок о стоимости

состоявшихся междугородных переговоров городской телефонной сети. Речевой

сигнал (слово ограниченного по объему словаря) представлен временными

изменениями параметров сигнала - логарифмов огибающей амплитудных

спектров. Речевые ответы (фразы) вначале формируются в виде списков

номеров слоя, речевые эквиваленты которых затем посегментно объединяются

и выводятся на синтезатор. Отмечается, что разборчивость синтезируемых

фраз близка к 100%, скорость вывода речевого сигнала на синтезатор равна

12 бит/с.

При артикуяяторно-форматном синтезе речи по печатному тексту L6.^] в

качестве минимального артикуяяторного компдйкса

72

используется элементарный слог, представленный набором артикуля-торных

команд способа и места образования входящих в него фонем. Процесс

реализации слога делится на три основные фазы: переходная фаза от

предыдущего слога к данному, фаза реализации согласной фонемы и фаза

реализации гласной. Синтезатор учитывает просодические характеристики

естественной речи, а также то обстоятельство. что в ней могут встретиться

сочетания согласных и гласных фон-эы. Система синтеза в последнем случае

вводит фиктивные согласные и гласные, разбивая речевой поток не

слоги,причем фиктивным звукам приписывается длительность, равная нулю. Для

автоматического задания интонационных характеристик фраз в синтезируемой

текстовой информации выделяются ранжированные единицы:

фраза, синтагма, фонетическое слово, слог. При автоматической обработке

синтезируемого текста определяется число единиц ранга К в единице ранга K-

I, номер логически выцеденной единицы ранга К, а также тип интонации.

Для моделирования алгоритмов синтеза использовалась универсальная мини-

ЭВМ, обдацаищая быстродействием 200 тыс. операций в I с и оперативной

памятью 16 кбайт. Объем программ нодедм синтеза речи составляет 1200 32-

разрядных команд. В настоящее время принципы технической реализации

артикуляционного синтезатора легли в основу разработки стандартного

устройства речевого вывода с микропроцессорным управлением для ЕС ЭВМ [б] .

Появились первые синтезаторы, основанные на параметрах линейного

предсказания [55,78].

В нашей стране и за рубежом появляется также интерес к устройствам речевого

вывода, основанным на компиляции речевого сигнала, соответствующего фразам,

из более мелких отрезков речевой волны: слов, слогов, аллофонов

['44,96]. Подобные синтеза-Юры предназначены для информирования

пользователей ограниченным количеством типов фраз, часто вполне

достаточным. Большие же затраты памяти для хранения в цифровом виде

элементов, из которых формируются фразы, не так страшны, потому что новые

виды запоминающих устройств (например, на цилиндрических магнитных до-

хенах) позволят хранить в малых объемах десятки мегабайт. В СССР работы

по компиаятивному выводу ориентированы на использование в качестве

основного элемента синтеза как слов, так и схо-^в. Предполагается, что

такой синтезатор компилятивного типа ^УДет изготовлен серийно.

Зак.480

Страницы: 1, 2, 3, 4, 5, 6, 7, 8



2012 © Все права защищены
При использовании материалов активная ссылка на источник обязательна.