Рефераты. Курсовая работа p>Вывод: не наблюдается явной зависимости между признаком-фактором и признаком результатом.

Лабораторная работа № 2
Тема: Корреляционный анализ, множественная линейная регрессия.
Цель: выбор оптимальной модели многофакторной регрессии на основе анализа различных моделей и расчитан для них коэффициентов множественной детерминации и среднеквадратических ошибок уравнения многофакторной регрессии.

Корреляционная матрица

Таблица 1
| |0 |1 |2 |3 |4 |
|0 |1 |0,572 |0,115 |0,486 |0,200 |
|1 |0,572 |1 |0,218 |0,471 |-0,112 |
|2 |0,115 |0,218 |1 |0,452 |-0,048 |
|3 |0,438 |0,471 |0,452 |1 |-0,073 |
|4 |-0,2 |-0,112 |-0,048 |-0,073 |1 |

Где х0 – средний балл зачётки (результат), х1 – посещаемость занятий, х2 – самообразование (доп. курсы), х3 – подготовка к семинарским занятиям, х4 – сон.
Введём обозначения признаков-факторов: 1 – посещаемость занятий на 1 курсе
(ч/нед); 2 – самообразование (ч/нед); 3 – подготовка к семинарским и практическим занятиям (ч/нед); 4 – сон (ч/сут); 0 – средний балл зачётки по итогам экзаменов за 1 курс.

Расчётная таблица для моделей многофакторной регрессии.

Таблица 2
|Модель многофакторной |R2 |E2 |
|регрессии | | |
|1-2-3-4 |0,39 |0,45 |
|1-2-3 |0,37 |0,46 |
|2-3-4 |0,23 |0,51 |
|1-3-4 |0,38 |0,45 |
|1-2 |0,33 |0,47 |
|1-3 |0,36 |0,46 |
|1-4 |0,35 |0,47 |
|2-3 |0,20 |0,52 |
|2-4 |0,05 |0,56 |
|3-4 |0,22 |0,51 |

По трём критериям выбираем оптимальную модель.

1. число факторов минимально (2)

2. max R, R = 0,36

3. min E, E = 0,46
Следовательно, оптимальной моделью является модель 1-3. Значит, признаки- факторы «посещаемость занятий на 1 курсе» и «подготовка к семинарским занятиям» влияют значительнее других факторов на признак-результат.
Среднеквадратическая ошибка уравнения многофакторной регрессии небольшая по сравнению с ошибками, рассчитанными для других моделей многофакторной регрессии.
Составляю для этой модели уравнение регрессии в естественных масштабах.
Х0/1,3 = a + b1x1 + b3x3

Корреляционная матрица.

Таблица 3
| |0 |1 |3 |
|0 |1,00 |0,57 |0,48 |
|1 |0,57 |1,00 |0,47 |
|3 |0,43 |0,47 |1,00 |

t0/1,3 = (1t1 + (3t3
0,57 = (1 + 0,47(3 0,57 = (1 + 0,47(0,44 – 0,47(1)

(1 = 0,4
0,44 = 0,47(1 + (3 (3 = 0,44 – 0,47(1

(3 = 0,25 t0/1,3 = 0,4t1 + 0,25t3 b1 = ((0 / (x1) (1 = (0,47 / 4,4) 0,4 = 0,071 b3 = ((0 / (x3) (3 = (0,79 / 2,68) 0,25 = 0,073 a = x0 – b1x1 – b3x3 = 4,27 – 0,071 ( 16,13 – 0,073 ( 4,08 = 2,8 имеем: х0/1,3 =2,8 + 0,071х1 + 0,073х3 – уравнение линейной множественной регрессии.
R0/1,3 = ((1r01 + (3r03
R0/1,3 = (0,4 ( 0,58 + 0,25 ( 0,48 = 0,6

Вывод: коэффициент (1 говорит о том, что признак-результат—средний балл зачётки за 1 курс на 0,4 долю от своего среднеквадратического отклонения
(0,4 ( 0,79 = 0,316 балла) при изменении признака-фактора—посещаемости на 1 курсе на одно своё СКО (4,4 ч/нед).
(3 – средний балл зачётки изменится на 0,25 долю от своего СКО (0,25 0,79
= 0,179 балла) при увеличении признака-фактора—подготовки к семинарским занятиям на одно своё СКО (2,68 ч/сут).
Т. к. (1 < (3, следовательно фактор 1—посещаемость занятий влияет на средний балл зачётки больше, чем фактор 3—подготовка к занятиям.
R2 говорит о том, что 36% общей вариации значений среднего балла зачётки на
1 курсе вызвано влиянием посещаемости и подготовки к занятиям. Остальные
60% вызваны прочими факторами.
R = 0,58 свидетельствует о том, что между посещаемостью занятий и подготовкой к ним и средним баллом зачётки существует заметная линейная зависимость.
Коэффициент b1 говорит о том, что если посещаемость занятий увеличится на
1 ч/нед, то средний балл зачётки увеличится в среднем на 0,071 балла, при условии неизменности всех остальных факторов. b2 говорит о том, что если подготовка к занятиям увеличится на 1 ч/нед, то средний балл зачётки в среднем увеличится на 0,073 балла.

(1 = 0,4

(3 = 0,25

r01 = 0,52

r03
= 0,44

r13 = 0,47

Граф связи признаков-факторов: х2 – подготовки к семинарским занятиям, ч/нед; х1 - посещаемости занятий, ч/нед с признаком-результатом х0 – средним баллом зачётки по итогам экзаменов за 1 курс.
(1 – мера непосредственного влияния на признак-результат посещаемости занятий.
(3 – мера непосредственного влияния подготовки к занятиям на средний балл зачётки.

r01 = (1 + r13(3, где r01 – общее влияние х1 на r13(3 – мера опосредованного влияния х1 через х3 на х0. r01 = 0,4 + 0,47 ( 0,25 = 0,52 r03 = (3 + r31(1, где r03 – общее влияние х3 на r31(1 – мера опосредованного влияния х3 через х1 на х0.

Лабораторная работа № 3.
Тема: «Дисперсионное отношение. Эмпирическая и аналитическая регрессии.»
Цель: выявление зависимости между признаками-факторами и признаком- результатом.

Таблица с исходными данными.

Таблица 1
|Средний балл |Посещаемость |Самообразование |Подготовка к |
|зачётки по |занятий на первом |(доп. Курсы) |семинарским |
|итогам |курсе (ч/нед) |(ч/нед) |занятиям (ч/нед) |
|экзаменов за | | | |
|1-ый курс | | | |
|(баллы) | | | |
|4,7 |19,5 |0 |5 |
|4,5 |22 |2 |6 |
|4,2 |22 |0 |2 |
|4,3 |19,5 |0 |7 |
|4,5 |17,5 |0 |3 |
|4,2 |9,5 |6 |12 |
|4,0 |12,5 |0 |5 |
|4,7 |22 |4 |7 |
|4,6 |17,5 |3 |4 |
|4,7 |9,5 |0 |2 |
|4,5 |11,5 |6 |3 |
|4,0 |11,5 |2 |3 |
|4,2 |19,5 |4 |8 |
|4,0 |20,5 |6 |9 |
|3,2 |9,5 |0 |0 |
|4,0 |17,5 |0 |8 |
|3,2 |14,5 |0 |2 |
|3,5 |14,5 |0 |2 |
|4,8 |22 |0 |10 |
|4,6 |8,5 |0 |1 |
|4,5 |22 |0 |4 |
|4,5 |22 |6 |2 |
|4,2 |17,5 |4 |4 |
|4,5 |14,5 |6 |4 |
|4,2 |11,5 |2 |2 |
|4,8 |17,5 |0 |4 |
|4,0 |10,5 |0 |2 |
|4,2 |17,5 |2 |6 |
|3,0 |9,5 |0 |0 |
|4,8 |19,5 |2 |2 |
|4,8 |19,5 |2 |6 |
|4,3 |17,5 |4 |2 |
|3,2 |6,0 |0 |0 |
|4,5 |22 |2 |5 |
|4,7 |22 |4 |3 |
|4,2 |22 |3 |5 |
|4,6 |9,5 |0 |1 |
|3,0 |14,0 |0 |2 |
|3,0 |6,5 |0 |5 |
|4,0 |22 |2 |5 |
|4,7 |17,5 |6 |0 |
|3,5 |11,5 |0 |6 |
|4,7 |22 |6 |2 |
|4,5 |22 |0 |0 |
|3,2 |17,5 |4 |8 |
|4,8 |22 |0 |0 |
|3,2 |9,5 |0 |5 |
|4,5 |17,5 |0 |3 |
|3,0 |14,5 |5 |3 |
|4,7 |11,5 |5 |3 |

Рассматриваю первую пару признаков: признак-фактор—посещаемость занятий на
1 курсе (ч/нед) и признак-результат—средний балл зачётки по итогам экзаменов за 1 курс (баллы). Далее обосную взаимосвязь между ними.
Расчётная таблица №1

Таблица 2

|Посещаемость|Число |xi |yi |(yi |(2yi |(2yi |yi - y|(yi–y)|
|занятий |наблюде| | | | |(i | |2(I |
|(ч/нед) |ний | | | | | | | |
|[6-10] |9 |8,6 |3,7 |0,71 |0,5 |4,5 |-0,5 |2,25 |
|[10-14] |8 |11,5 |4,1 |0,38 |0,14 |1,12 |-0,1 |0,08 |
|[14-18] |15 |16,4 |3,7 |1,01 |1,02 |15,3 |-0,5 |3,75 |
|[18-22] |18 |19,6 |4,4 |0,31 |0,09 |1,62 |0,4 |2,88 |
|Сумма |50 |- |- |- |- |22,54 |- |8,96 |
|Средняя |- |15,3 |4,0 |- |- |5,6 |- |2,24 |

(2y = (((yi–y)2(I)
( 2y = 8,96 / 50 = 0,1792 (балла)2

E2y= ((б2yi(I) / ((I
E2y = (4,5 + 1,12 + 15,3 + 1,62) / 50 = 0,4508(балла)2

б2y = E2y + ( 2y = 0,4508 + 0,1792 = 0,63 (балла)2

(2 = ( 2y / б2y = 0,1792 / 0,63 = 0,28 (0,28%) построение аналитической регрессии. yx = a + bx xy = ((xy(I) / ((I = 62,52 б2x = 19,4 (ч/нед)2 b = (xy – x y) / б2x = (62,52 – 15,3 ( 4,0) / 19,4 = 0,068 a = y – bx = 4,0 – 0,068 ( 15,3 = 2,96

Линейное уравнение регрессии зависимости среднего балла зачётки за 1 курс от посещаемости: строим по двум точкам yx = 2,96 + 0,068х

1. yx = 2,96 + 0,068 ( 6 = 3,358

2. yx = 2,96 + 0,068 ( 22 = 4,446 rxy = (xy – x y) / бxбy = 0,37

Корреляционное поле
Эмпирическая линия регрессии
Аналитическая линия регрессии

Распределение среднего балла зачётки за 1 курс по признаку- фактору—посещаемости занятий на 1 курсе.

Вывод: (2 свидетельствует о том, что 28% общей вариации результативного признака вызвано влиянием признака фактора—посещаемостью. Остальные 72% - вызваны влиянием прочих факторов. Можно сказать, что это слабая корреляционная зависимость. Интерпретируя параметр b, предполагаем, что для данной совокупности студентов с увеличением посещаемости занятий на 1 курсе на 1 ч/нед средний балл зачётки увеличивается на 0,068 балла. rxy говорит о том, что между признаком-результатом и признаком-фактором заметная линейная связь.
Рассматриваю вторую пару признаков:
Расчётная таблица № 2.

Таблица 3

|Подготовка|Число |xi |yi |(yi |(2yi |(2yi |yi - y|(yi–y)|
|к |наблюде| | | | |(i | |2(i |
|семинарски|ний | | | | | | | |
|м занятиям| | | | | | | | |
|(ч/нед) | | | | | | | | |
|[0-3] |20 |1,2 |3,78 |0,63 |0,39 |7,8 |-0,22 |0,96 |
|[3-6] |18 |4,0 |4,31 |0,45 |0,2 |3,6 |0,31 |1,72 |
|[6-9] |9 |6,8 |4,46 |0,28 |0,07 |0,63 |0,46 |1,9 |
|[9-12] |2 |9,5 |4,4 |0,399 |0,15 |0,3 |0,4 |0,32 |
|Сумма |50 |- |- |- |- |2,33 |- |4,9 |
|средняя |- |3,5 |4,0 |- |- |3,08 |- |1,2 |

(2y = (((yi–y)2(I)
( 2y = 4,9 / 50 = 0,098 (балла)2

E2y= ((б2yi(I) / ((I
E2y = 12,33 / 50 = 0,25 (балла)2

б2y = E2y + ( 2y = 0,35 (балла)2

(2 = ( 2y / б2y = 0,098 / 0,35 = 0,28 (0,28%)
( = 0,53 построение аналитической регрессии.

yx = a + bx xy = ((xy(I) / ((I xy = 15,2 б2x = 7,2 (ч/нед)2 b = (xy – x y) / б2x = (15,2 – 3,5 ( 4,0) / 7,2 = 0,16 a = y – bx = 4,0 – 0,16 ( 3,4

Линейное уравнение регрессии зависимости среднего балла зачётки за 1 курс от подготовки к семинарским занятиям: yx = 2,96 + 0,068х x = 0 y = 3,4 x = 7 y = 4,5 rxy = (xy – x y) / бxбy = (15,2 – 14) / 2,6 = 0,46

Корреляционное поле
Эмпирическая линия регрессии
Аналитическая линия регрессии

Распределение среднего балла зачётки за 1 курс по признаку- фактору—подготовке к семинарским занятиям.
Вывод: (2 свидетельствует о том, что 28% общей вариации результативного признака вызвано влиянием признака фактора—подготовкой к семинарским занятиям. Остальные 72% - вызваны влиянием прочих факторов. Можно сказать, что это слабая корреляционная зависимость. Интерпретируя параметр b, предполагаем, что для данной совокупности студентов с увеличением подготовки к занятиям на 1 курсе на 1 ч/нед средний балл зачётки увеличивается на 0,16 балла. rxy говорит о том, что между признаком- результатом и признаком-фактором есть умеренная линейная связь.
Рассматриваю третью пару признаков:
Расчётная таблица № 3

Таблица 4

|Самообразовани|Число |xi |yi |(yi |(2yi |(2yi |yi - y|(yi–y)|
|е (ч/нед) |наблюд| | | | |(i | |2(i |
| |ений | | | | | | | |
|0 |25 |0 |4,07 |0,68 |0,46 |11,5 |-0,03 |0,022 |
|2 |8 |2 |4,38 |0,3 |0,09 |0,72 |0,28 |0,62 |
|3 |2 |3 |4,40 |0,2 |0,04 |0,08 |0,3 |0,18 |
|4 |6 |4 |4,22 |0,5 |0,25 |1,5 |0,12 |0,08 |
|5 |2 |5 |3,35 |0,35 |0,12 |0,24 |-0,75 |1,16 |
|6 |7 |6 |3,3 |0,40 |0,16 |1,12 |0,2 |0,28 |
|Сумма |50 |- |- |- |- |15,88 |- |2,34 |
|средняя |- |1,96 |4,1 |- |- |0,31 |- |0,39 |

(2y = (((yi–y)2(I)
( 2y = 2,34 / 50 = 0,046 (балла)2

E2y= ((б2yi(I) / ((I
E2y = 15,88 / 50 = 0,31 (балла)2

б2y = E2y + ( 2y = 0,31 + 0,046 = 0,36 (балла)2

(2 = ( 2y / б2y = 0,046 / 0,36 = 0,13 (13%)
( = 0,36 построение аналитической регрессии.

yx = a + bx xy = ((xy(I) / ((I xy = 8,22 б2x = 5,1 (ч/нед)2 b = (xy – x y) / б2x = (8,22 – 8,036) / 5,1 = 0,032 a = y – bx = 4,1 – 0,032 ( 1,96 = 4,03

Линейное уравнение регрессии зависимости среднего балла зачётки за 1 курс от самообразования: yx = 2,96 + 0,068х x = 0 y = 3,4 x = 7 y = 4,5 rxy = (xy – x y) / бxбy = (8,2 – 8,036) / 2,25 ( 0,6 = 0,12

Корреляционное поле
Эмпирическая линия регрессии
Аналитическая линия регрессии

Вывод: (2 свидетельствует о том, что 13% общей вариации результативного признака вызвано влиянием признака фактора—самообразованием. Можно сказать, что это очень слабая корреляционная связь. Зная коэффициент b, предполагаем, что для данной совокупности студентов с увеличением самообразования на 1 ч/нед средний балл зачётки увеличивается на 0,032 балла. rxy говорит о том, что между признаком-результатом и признаком- фактором есть слабая прямая линейная связь.

Министерство Высшего Образования РФ

Санкт-Петербургский Государственный Инженерно-Экономический Университет

Лабораторные работы

По статистике

Студентки 1 курса

Группы 3292

Специальность коммерция

Харькиной Анны.

Преподаватель: Карпова Г. В.
Оценка:

СПб 2001


-----------------------

Х1

[pic]

Х0

Х3



Страницы: 1, 2



2012 © Все права защищены
При использовании материалов активная ссылка на источник обязательна.