РОССИЙСКО – АРМЯНСКИЙ (СЛАВЯНСКИЙ) ГОС. УНИВЕРСИТЕТ

КУРСОВАЯ РАБОТА

Тема «Рекуррентный многослойный персептрон».

Руководитель: Баградян В.Г.

Исполнитель: Алексанян А.С.

ЕРЕВАН – 2004 г.

Введение

Персептрон – это перцептрон ( от латинского perceptio – понемание, познование, восприятие), математическая модель процесса восприятия. Сталкивясь с новыми явлениями или предметми, человек их узнаёт, т.е. относит к тому или иному понятию (т.е. к классу). Эта способность человека и получила название феномена восприятия. Человек умеет на основании опыта вырабатывать и новые понятия, обучаться новым системам классификации. Например, при обучении различению рукописных знаков ученику показывют рукописные знаки и сообщают, каким буквам они соответствуют, т.е. к кким классам эти знаки относятся. В результате у него вырабатывается умение првильно классифицировать знаки.

Восприятие осуществляется припомощи сети нейронов. Модель восприятия (персептивная модель) может быть представлена в виде трёх слоёв нейронов: рецептивного слоя (N_I), слоя преобразующих нейронов (N_H) и слоя реагирующих нейронов (N_o).

Нейрон (соглсно наиболее простой модели Мак – Каллока – Пирса) – это нервная клетка, которая имеет несколько входов и один выход. Входы могут быть либо возбуждающие, либо тормозные. Нейрон возбуждается и посылет импульс в том случае, если количество сигналов на возбуждающих входах превосходит число сигналов на тормозных входах на некоторую величину, называемую порогом сбрасывания нейрона.

В звисимости от характера внешнего раздражения в N_I – слое образуется некая совокупность импульсов (сигнлов), которые расспространяясь по нервным путям, достигают нейронов N_H – слоя , где в соответствии с совокупностью пришедших импульсов образуются новые импульсы, поступающие на входы нейронов N_o – слоя. В нейронах N_H – слоя суммируются входные сигналы с одним и тем же коэффициентом усиления (возможно с разными знаками), в нейронах же N_o – слоя суммируются сигналы с различными как по величине, так и по знаку коэффициента.

Считают, что коэффициенты усиления реагирующих нейронов подобраны так, что различным объектам одного класса соответствуют совокупности импульсов , возбуждающие один и тот же нейрон N_o – слоя. Формирование нового понятия заключется в установлении коэффициента усиления соответствующего реагирующего нейрона.

Математическое исследование персептронных схем связано с здачей обучения распозновнию образов, где выясняется, как должна быть построена преобразующая часть и каков алгоритм установления коэффициентов усиления N_o – элементов в режиме обучения.

Рекуррентный многослойный персептрон (RMPL).

Перед тем как перейти к структуре сети RMLP, поймём сперва, что такое многослойный персептрон.

Нейроны могут объединяться в сети различным образом. Самым рспространённым видом сети стал многослойный персептрон.

Сеть состоит из произвольного числа нейронов. Нейроны каждого слоя соединяются с нейронами предидущего и последующего слоёв по принципу «каждый с каждым». Первый слой (слев) называется входным, внутренние слои называются скрытыми, последний (самый правый, из одного нейрона) – выходным. Количество нейронов в слоях может быть произвольным. Обычно во всех скрытых слоях одинковое количество нейронов.

Обозначим количество слоёв и нейронов в слое. Входной слой N_I нейронов; N_H нейронов в каждом скрытом слое; N_o выходных нейронов. Х – вектор входных сигналов, Y – вектор входных сигналов.

Существует путаница с подсчётом количества слоёв в сети. Входной слой не выполняет никаких вычислений, а лишь распределяет входные сигналы, поэтому иногда его считают, иногда – нет.

Оюозначим через N_L полное количество слоёв в сети, считая входной.

Работа многослойного персептрона описывается формулами:

NET_jl=Sw_ijlx_ijl

OUT_jl = F(NET_jl - q_jl)

x_{jl (l+1)} = OUT_il ,

где индексом i всегда будем обозначать номер входа, j – номер нейрона в слое, l – номер слоя.

x_ijl – i –й входной сигнал j – го нейрона в слое l;

w_ijl – весовой коэффициент i – го входа нейрона номер j в слое l;

NET_jl – сигнал NET j – го нейрона в слое l;

OUT_jl – выходной сигнал нейрона;

q_jl – пороговый уровень нейрона j в слое l;

Введём обозначения: w_jl – вектор – столбец весов для всех входов нейрона j в слое l; w_l – матрица весов всех нейронов в слое l. В столбцах матрицы расположены вектора w_jl. Анологично x_jl– выходной вектор – столбец слоя l.

Каждый слой рассчитывает нелинейное преобразование от линейной комбинации сигналов предидущего слоя. Отсюда видно, что линейная функция активации может применяться только для тех моделей сетей, где не требуется последовательное соединение слоёв нейронов друг за другом. Для многослойных сетей функция активации должна быть нелинейной, иначе можно построить эквивалентную однослойную сеть, и многослойность оказывается ненужной. Если применен линейная функция активации, то каждый слой будет давать на выходе линейную комбинацию входов. Следующий слой даст линейную комбинацию выходов предидущего, а это эквивалентно одной линейной комбинации с другими коэффициентами, и может быть реализовано в виде одного слоя нейронов.

Персептронная сеть с обратной связью.

Один из простейших способов построения рекуррентной ИНС состоит во введении в персептронную сеть обртной связи.

В дальнейшем мы будем сокращённо называть такую сеть RMLP ( Recurrent MultiLayer Perceptron). Для выполнения последующих рассчётов введём новые обозначения элементов сети. Её обобщённая структура представляется так:

Рис.: Структура сети RMLP.

Это динамическая сеть, характеризующяся запаздывнием входных и выходных сигналов, объединяемых во входной вектор сети. Рассуждения косаютя узла x(k) и одного выходного нейрона, также одного скрытого слоя. Такая система реализует отобржение:

y(k+1) = f(x(k), x(k-1), …, x(k-(N-1)), y(k-1), y(k-2), …, y(k-P)), (1)

где N-1 – количество зодержек входного сигнала, а P – количество зодержек выходного сигнала.

Обозначим K количество нейронов в скрытом слое. В этом случае сеть RMPL можно характеризовать тройкой чисел (N,P,K). Подаваемый на вход сети вектор x имеет вид:

x(k) = [1, x(k), x(k-1), …, x(k-(N-1)), y(k-P), y(k-P+1), …, y(k-1)]^T.

Допостим, что все нейроны имеют сигмаидальную функцию активации. Обозначим u_i взвешенную сумму сигналов i – го нейрона скрытого слоя, а g – взвешенную сумму сигналов входного нейрона. Тогда мы получим:

Алгоритм обучения сети RMLP.

Сеть RMLP адаптируется с применением градиентного алгоритма обучения. Рассчитывется градиент целевой функции относительно каждого веса. Для упращения будем рассматривать сеть с одним выходным нейроном. В этом случае целевя функция в момент t может определить в виде

Дифференцируя эту функцию относительно произвольного веса w_a⁽²⁾ (a = 0,1, …, k) выходного слоя сети, получем:

С учётом зависимостей (2) – (5)

где v_i = f(u_i).

Производная равна 1 только при i = a и равна 0 во всех остальных случаях.

Тогда

причём

С учётом зависимостей (6) – (10) получим

Рекуррентная формула (11) позволяет рассчитать значение производной dy(k)/dw_a⁽²⁾ в произвольный момент времени по её значениям в предидущие моменты. Она связывает значения производных в момент t со значениями тех же функций в моменты t-1, t-2, …, t-P. Можно предположить, что начльные значения производных от сигналов перед началом обучения равны, т.е.

При использовнии в процессе обучения метода наискорейшего спуска адаптация весов выходного слоя определяется формулой

Актуализация весов скрытого слоя происходит аналогичным образом. После расчёта производной сигнала y(k) относительно веса w_a_,_bb⁽¹⁾ скрытого слоя получем

Следовательно, формула, определяющая адаптацию веса w_a,_bb⁽¹⁾ скрытого слоя, при использовании метода наискорейшего спуска принимает вид

В конечном виде алгоритм обучения сети RMLP является:

1. Выполнить инициализацию случайным образом весов нейронов скрытого и выходного слоёв.

2. Для кждого момента t при заданном возбуждении в виде вектора x рассчитать состояние всех нейронов сети в соответствии с формулами (2) – (5).

3. С помощью зависимостей (11) и (13) определить значение производных dy(k)/dw_a⁽²⁾ и dy(k)/dw_a_b⁽¹⁾ для всех значений a и b,соответствующих весам сети из изначально выбранной структурой.

4. Актуализировать веса в соответствии с формулами (12) и (14), после чего вернуться в п.2 настоящего алгоритма.

Предствленный алгоритм функционирует «онлайн», принимая поступающие входные данные и соответствующие им значения ожидаемого вектора d и оперативно корректируя знчения весов.

При обучении нейронной сети по методу обратного распространения ошибок решающее влияние на скорость обучения и на получаемые конечные результаты оказывает коэффициент обучения h. Если обозначить e_i_-1 и e_iпогрешность адаптации на i – м и (i-1) – м шаге, а h_i_-1 и h_i - соответствующие им коэффициенты обучения, то в случае e_i>k_we_i_-1 (k_w – коэффициент допустимого прироста погрешности) производится уменьшение значения h по формуле

h_i+1 = h_ia_d,

где a_d является коэффициентом уменьшения значения h. В противном случае e_i>k_we_i_-1,значение этого коэффициента увеличивается по формуле

h_i+1 = h_ia_i,

где a_i является коэффициентом увеличения значения h.

И в заключение дадим описание проекта, написанного мною н C++: мы обучаем персептрон цифрам от 1 до 10(кроме нуля) и критерию чётности и нечётности. В ячейке Count мы набираем количество цифр, которым обучаем. В ячейке Signaly мы по очереди набираем те цифры, которым хотим обучить персептрон (порядок не важен). Когд задаётся более 10 цифр программа выдаёт предупреждение, что количество сигналов переполненно. После чего мы нажимаем на кнопку Obuchenie и по очереди выдаются в словесном виде все введённые числа, после чего разбиваются чётные и нечётные цифры соответственно в ячейках Kriterie Chotnosti и Kriterie nechotnosti.

КУРСОВАЯ РАБОТА

С учётом зависимостей (6) – (10) получим

Следовательно, формула, определяющая адаптацию веса wa,bb(1) скрытого слоя, при использовании метода наискорейшего спуска принимает вид

Следовательно, формула, определяющая адаптацию веса w_a,_bb⁽¹⁾ скрытого слоя, при использовании метода наискорейшего спуска принимает вид