Рис. 9.
Прохождение вершины t в прямом (а) и обратном (б) направлении.
Предлагается
рассматривать обучение нейронных сетей как задачу оптимизации. Это означает,
что весь арсенал методов оптимизации может быть испытан для обучения.
Существует,
однако, ряд специфических ограничений. Они связаны с огромной размерностью
задачи обучения. Число параметров может достигать 108 - и даже
более. Уже в простейших программных имитаторах на персональных компьютерах
подбирается 103 - 104 параметров.
Из-за высокой
размерности возникает два требования к алгоритму:
1. Ограничение по
памяти. Пусть n - число параметров. Если алгоритм требует затрат памяти
порядка n2 ,то он вряд ли применим для обучения. Вообще
говоря, желательно иметь алгоритмы, которые требуют затрат памяти порядка Kn,
K=const.
2. Возможность
параллельного выполнения наиболее трудоемких этапов алгоритма и желательно -
нейронной сетью.
По обучающей
выборке невозможно сказать, какая структура сети (число слоев, элементов сети)
требуется для решения задачи. Также не существует конструктивного алгоритма
определения значений адаптивных параметров сети исходя из обучающей выборки.
Хотя и был предложен подход [17,20] к анализу достаточности структуры сети при
помощи оценки константы Липшица функции, вычисляемой сетью, и выборочной оценки
константы Липшица для обучающей выборки, но он не учитывает влияния и вида
используемой при обучении целевой функции (функции оценки) и некоторых других
аспектов.
Поэтому обычно
задаются некоторой избыточной структурой сети и адаптивные параметры находят
путем обучения сети, т.е. с привлечением методов оптимизации [16-20]. Это
приводит к тому, что часто в нейронной сети присутствует некоторое число
избыточных элементов, без которых можно вполне обойтись при решении задачи.
Удаление таких элементов из нейросети называется упрощением сети.