Введение

1. Назначение

2. Состав комплекса

3. Работа с меню системы

4. Подготовка исходных данных

5. Вывод результатов

6. Задачи корреляционного анализа

6.1. Проверка предпосылок

Выделение аномальных измерений

Выделение аномальных измерений

Проверка нормальности выборки

6.2. Вычисление параметров

6.3. Комплексный анализ

6.4. Парная корреляция

6.5. Корреляционное отношение

6.6. Частная корреляция

6.7. Частная линейная регрессия

6.8. Множественная корреляция

6.9. Покомпонентный анализ

6.10. Статистические распределения

Рекомендуемая литература

 

 

Введение

 

      При анализе совокупности случайных величин нас может инте­ре­совать либо взаимозависимость между несколькими случайными вели­чи­нами, либо зависимость одной или большего числа величин от остальных.

      Теория корреляции занимается изучением взаимозависимости. Имен­но на это нацелены алгоритмы и методы корреляционного ана­лиза многомерных случайных величин. С помощью аппарата корреля­ци­онного анализа можно убедиться в наличии взаимозависимости вели­чин, исследовать взаимозависимость величин при устранении влияния совокупности других (частная корреляция), рассмотреть зависимость одной величины от группы величин (множественная корреляция), прийти к выводу о наличии статистической зависимости, возможно даже предположить и наличие функциональной зависимости, скрытой за ошибками результатов измерений. Но с помощью статистических методов невозможно установить причинной связи. Исследование функ­ци­ональных закономерностей, присущих соответствующей области, лежит вообще за рамками статистики. Корреляционный анализ не занимается и построением регрессионных зависимостей. Исследованием статистических зависимостей, построением моделей занимаются уже в рамках регрессионного анализа.

      С использованием результатов корреляционного анализа исследо­ватель может делать определённые выводы о наличии и характере взаимозависимости, что уже само по себе может представлять существенную информацию об исследуемом объекте. Результаты могут подсказать и направление дальнейших исследований, и совокупность требуемых методов, в том числе статистических, необходимых для более полного изучения объекта.

      Особенно реальную пользу применение аппарата корреляционного анализа может принести на стадии ранних исследований в областях, где характеры причин определённых явлений ещё недостаточно понят­ны. Это может касаться изучения очень сложных систем различ­ного характера: как технических, так и социальных.

 

1. Назначение

 

      Комплекс программ корреляционного анализа предназначен для анализа и обработки выборок многомерных случайных величин (век­тор­­ного параметра некоторой системы или некоторого технологичес­кого процесса).

      Он позволяет вычислять оценки вектора математических ожиданий, ковариационной матрицы, матрицы парных корреляций, матрицы кор­ре­ляционных отношений, матриц частных корреляций, вектора множес­т­венных корреляций, проверять гипотезы о значимости различных па­раметров или о равенстве их определенным значениям, о наличии функциональных зависимостей.

      Предоставляет возможности анализа многомерных выборок на нали­чие аномальных измерений, на случайность, на принадлежность к нормальной генеральной совокупности.

      Позволяет вычислять вероятности и квантили для ряда статисти­ческих распределений, наиболее часто используемых в задачах про­верки статистических гипотез.

      Использование комплекса дает возможность выявления характера статистических зависимостей между компонентами многомерной слу­чайной величины и определения меры линейности этих связей.

      Комплекс программ будет весьма полезен при обработке резуль­татов экспериментальных исследований и анализе статистических данных в технике, медицине, биологии, при обработке социологичес­ких обследований.

 

2. Состав комплекса

 

      В состав программного обеспечения входят 5 файлов:

                kora.exe

                kora00.exe

                kora01.exe

                kr_ega.exe

                title.leo

                kora.hlp

                act.txt

      Головной программой является kora.exe. Остальные файлы должны находиться в этой же директории.

      Файлы kora00.exe и kora01.exe осуществляют вычисления в соот­ветствии с алгоритмами выбранных задач и запускаются непосред­ственно программой kora.exe. Управляющая информация о заданной задаче, исходной выборке, ее местонахождении и, определенные пользователем известные ему параметры задачи передаются через формируемый файл с именем KoraBase.txt.

      В процессе работы по желанию пользователя система создает файл результатов (по умолчанию KoraRes.txt).

 

3. Работа с меню системы

 

      В меню системы входит ряд сервисных функций, поддерживающих выбор требуемой задачи, определение входного файла, содержащего данные с исходной выборкой, задание размерности анализируемой случайной величины и объема выборки, задание имени файла, в ко­торый будут записаны результаты вычислений, запуск выбранной за­дачи на выполнение. Встроенный редактор позволяет создавать ис­ходные файлы с данными, просматривать и при необходимости коррек­тировать файлы с результатами.

      Движение по разделам меню и выбор определенной задачи или функции осуществляется перемещением указателя курсора и кла­вишей <Enter> или с помощью манипулятора "мышь". Выбор опреде­ленной задачи осуществляется повторным нажатием клавиши <Enter>. Для возврата на предыдущий уровень меню необходимо нажать клавишу <Esc>.

      Для обращения за пояснениями к выбираемой задаче или функции (для обращения за справками к файлу kora.hlp) необходимо нажать клавишу <F1>. Выбор соответствующей подсказки может быть осущест­влен указателем курсора и клавишей <Enter> или манипулятором "мышь". Отказ от помощи - манипулятором "мышь", а при ее от­сутствии - клавишей <Esc>.

 

4. Подготовка исходных данных

 

      Файл act.txt - это демонстрационный файл с исходной выборкой случайной величины размерности  и объемом  является примером подготовки исходных данных. Все приводимые ниже примеры используют в качестве исходной выборки этот файл.

Информация, содержащаяся в этом файле, имеет следующий вид:

 

X1

X2

X3

X4

154.0

178.0

59.0

21.0

133.0

164.0

63.0

27.0

58.0

75.0

36.0

18.0

145.0

161.0

62.0

10.0

94.0

107.0

48.0

26.0

...

...

...

...

85.0

91.0

48.0

25.0

              

      Первая строка файла является символьной, она обязательно дол­жна присутствовать, но может иметь и другой содержательный смысл (вид).

      Результаты наблюдений многомерной случайной величины (выбор­ка) должны быть представлены в исходном файле в аналогичном виде. размерность наблюдаемой величины определит количество X-столбцов, а объем выборки - количество строк.

 

X1

X2

X3

X4

X1

X2

X3

X4

1

154

178

59

21

31

98

140

40

30

2

133

164

63

27

32

97

115

86

35

3

58

75

36

18

33

105

101

55

15

4

145

161

62

10

34

71

93

43

7

5

94

107

48

26

35

39

69

30

29

6

113

141

64

20

36

122

147

55

28

7

86

97

44

23

37

33

52

25

38

8

121

127

57

33

38

78

117

56

11

9

119

138

62

19

39

114

138

62

15

10

112

125

51

27

40

125

149

63

20

11

85

97

45

25

41

73

76

32

21

12

41

72

45

5

42

77

85

43

24

13

96

113

51

16

43

47

61

36

16

14

45

89

41

13

44

68

85

38

15

15

99

109

49

29

45

137

142

61

21

16

51

95

46

33

46

44

69

32

27

17

101

114

63

9

47

92

116

48

7

18

169

209

73

19

48

141

157

54

30

19

87

101

55

21

49

155

193

60

29

20

88

139

65

30

50

136

155

65

6

21

83

98

46

25

51

82

81

41

17

22

106

111

58

25

52

136

163

55

27

23

92

104

45

20

53

72

79

43

23

24

85

103

46

21

54

66

81

40

21

25

112

118

55

33

55

42

61

29

22

26

98

102

48

14

56

113

123

49

6

27

103

108

50

20

57

42

85

36

22

28

99

119

60

11

58

133

147

52

12

29

104

128

41

25

59

153

179

72

27

30

107

118

65

12

60

85

91

48

25

 

 

5. Вывод результатов

 

      Результаты вычислений оценок параметров или проверки конкрет­ных гипотез могут выводиться либо в файл на диске, либо на экран. Но в последнем случае их затруднительно фиксировать.

      При выборе вывода результатов "В файл" система предлагает вывод в файл "KoraRes.txt" в текущей директории, но может быть указан любой другой файл. При решении каждой очередной задачи ре­зультаты решения предыдущей теряются, если только Вы не поменяете имя файла вывода.

      После завершения очередной задачи, результаты ее решения могут быть вызваны для визуального просмотра. Для этого в меню "Выход" должно быть выбрано подменю "Просмотр", а затем команда "Просмотр результатов".

 

6. Задачи корреляционного анализа

 

6.1. Проверка предпосылок

 

      Сюда входят проверка выборки на наличие грубых, аномальных из­мерений, проверка гипотез о случайности выборочных данных и при­надлежности выборки нормальной генеральной совокупности. Стати­сти­ческие выводы осуществляются отдельно по каждой компоненте наблюдённой многомерной случайной величины

      Выделение аномальных измерений. Резко выделяющиеся наблю­де­ния, или выбросы, могут быть реакцией системы на некоторое рез­кое случайное воздействие, либо быть ошибками измерений. Выброс может оказаться также одним из экстремальных значений случайной величины. В первом случае выброс должен быть отброшен, а во втором - он несёт полезную информацию о системе.

      Если выборка взята из нормальной совокупности с известной дисперсией, то самый простой анализ её на наличие аномальных измерений может быть проведен по правилу “трёх сигм”. Пусть  выборка одномерной случайной величины,  - выборочное среднее. Тогда величины , распределены по нормальному закону с нулевым математическим ожиданием и дисперсией . Поэтому как аномальные надо отбросить те наблюдения, для которых .

      Проверка случайности выборки. Внешним проявлением случай­ности наблюдений является полная непредсказуемость очередного результата. Наиболее часто при проверке случайности используется непараметрический критерий ранговой корреляции Кендалла.

      Рангом  i-го наблюдения  из выборки  называется номер этого наблюдения в упорядоченной по возрастанию последо­вательности. Инверсией называется ситуация, когда больший ранг предшествует меньшему:  при .

      Статистика

,

где  - число инверсий в перестановке рангов,  - объем выборки, имеет нормальное распределение с нулевым математическим ожида­нием и дисперсией . Гипотеза о случайности принимается, если  и  определяется из условия

 .

      Проверка нормальности выборки. При проверке гипотезы о нормальности выборки одним из критериев проверки является следующий. Вычисляется статистика

,

где , , которая при  распределена приближенно по нормальному закону с математическим ожиданием  и дисперсией . Если выполня­ется неравенство

,

 где  определяется как и в предыдущем случае при проверке случайности, то гипотеза о нормальности принимается.

Примечание: При выявлении аномальных измерений, последние фиксируются в файле результатов, но не исключаются из входного файла. Поэтому следует помнить, что для того, чтобы эти измерения в дальнейшем не влияли на результаты анализа, Вы должны сами удалить указанные аномальные наблюдения из входного файла.

      Ниже приведен результат решения этих задач с исходными данны­ми из прилагаемого файла act.txt:

 

Файл ввода act.txt

В исходной выборке аномальных наблюдений нет

"Анализ выборки на случайность"

Уровень значимости alfa = 0.0500

Гипотеза о случайности выборки ПРИНИМАЕТСЯ

"Анализ выборки на нормальность"

Уровень значимости alfa = 0.0500

Гипотеза о нормальности выборки ПРИНИМАЕТСЯ

 

      Известно, что задачи и методы корреляционного анализа опирают­ся на многомерное нормальное распределение. И, очевидно, что ес­ли гипотеза о нормальности наблюденной выборки не отвергается, и выборка случайна, то дальнейшие выводы статистического анализа будут наиболее достоверными.

      В то же время решение задач корреляционого анализа принесет несомненную пользу и в том случае, когда гипотеза о нормальности исходной выборки отвергается.

 

6.2. Вычисление параметров

 

      В данном случае могут решаться 2 задачи. Первая - оценка пара­метров многомерного нормального распределения: вектора математи­ческих ожиданий , где  - -мерная случайная вели­чина, ковариационной матрицы  и матрицы ко­эффициентов парных корреляций с элементами

,

где  - математическое ожидание, а  - диагональный элемент матрицы , дисперсия слу­чайной компоненты .

      Оценка максимального правдоподобия (ОМП) математического ожидания многомерной случайной величины  вычисляется по формуле

,

где  - выборка -мерной случайной вели­чины  объёмом . Несмещенная ОМП ковариационной матрицы  определяется соотношением

.

      Элементы матрицы парных коэффициентов корреляции оценива­ются в соответствии с выражением

,

где  - элементы матрицы .

      Результаты оценивания параметров по выборке, содержащейся в файле act.txt, имеют вид:

 

 Файл ввода act.txt

Вектор математического ожидания

1

2

3

4

1

9.603333e+01

1.151667e+02

5.070000e+01

2.093333e+01

 

Ковариационная матрица

1

2

3

4

1

1.0911510e+03

1.063689e+03

3.008068e+02

-2.218081e+00

2

1.063689e+03

1.185294e+03

3.135423e+02

7.231637e+00

3

3.008068e+02

3.135423e+02

1.423831e+02

-4.986442e+00

4

-2.218081e+00

7.231637e+00

-4.986442e+00

6.3351410e+01

 

Матрица парных коэффициентов корреляции

1

2

3

4

1

1.000000e+00

9.353179e-01

7.631606e-01

-8.436385e-03

2

9.353179e-01

1.000000e+00

7.632276e-01

2.639037e-02

3

7.631606e-01

7.632276e-01

1.000000e+00

-5.250291e-02

4

-8.436385e-03

2.639037e-02

-5.250291e-02

1.000000e+00

 

      Этот же пункт меню предусматривает проверку гипотез о равен­стве математического ожидания некоторому известному вектору, т.е. проверку гипотез вида .

      Такая задача очень часто возникает на практике, когда, напри­мер, на основании наблюдений некоторого многомерного показателя технологического процесса желают убедиться, что эти показатели равны номинальному значению, т.е. процесс протекает нормально, а отклонения наблюденных значений от номинальных объясняются лишь ошибками наблюдений (измерений).

      При решении этой задачи возможны две ситуации: ковариационная матрица  может быть известна из ранее проводимых экспериментов, по другим выборкам, (в этом случае пользователь в процессе диало­га должен будет ввести элементы этой матрицы), или неизвестна, тогда в процессе вычислений она должна быть оценена.

      В случае проверки гипотезы  при известной ковариа­ци­­он­­ной матрице вычисляется статистика

.

При справедливой гипотезе  эта статистика имеет  распределение с m степенями свободы. Таким образом, гипотеза  принимается, если

,

где  - уровень значимости и

.

В случае проверки гипотезы  при неизвестной ковариа­ци­­он­­ной матрице вычисляемая статистика имеет вид

.

Если гипотеза  справедлива, то эта статистика подчиняется -распределению Фишера с m и  степенями свободы. В данном случае гипотеза  принимается, если выполняется условие

.

Величина  определяется из равенства

,

где .

      В случае неизвестной матрицы по данным из файла act.txt имеем следующий результат:

 

Файл ввода act.txt

С уровнем значимости alfa = 0.0500 ОТВЕРГАЕТСЯ

гипотеза: МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ равно:

1

2

3

4

1

9.500000e+01

1.000000e+02

3.500000e+01

1.500000e+01

 

6.3. Комплексный анализ

 

      Этот пункт меню может выполняться либо с проверкой предпосы­лок, т.е. анализом на наличие грубых ошибок измерений, на случай­ность и нормальность, либо без. Если задание выполняется с про­веркой предпосылок, и в выборке обнаруживаются аномальные измере­ния, то в дальнейшем анализе они не участвуют (но в исходном фай­ле сохраняются!).

      При выполнении этого задания вычисляются оценки математичес­кого ожидания, ковариационной матрицы, матрицы парных корре­ляций, проверяются гипотезы о значимости элементов этой матрицы, для значимых парных корреляций строятся доверительные интервалы. Далее вычисляются оценки корреляционных отношений и проверяются гипотезы о их значимости, т.е. гипотезы вида : . Затем вычисля­ется оценка матрицы частных корреляций, элементы которой представ­ляют собой корреляцию между соответствующими эле­ментами, при условии что все остальные  компоненты -мерной случайной величины фиксированы (т.е. рассматривается условное распределение 2 компонент). Все элементы этой матрицы проверяются на значи­мость, для значимых частных коэффициентов корреляции строятся доверительные интервалы.

        Вычисляется вектор множественных коэффициентов корреляции, каждый элемент которого представляет собой корреляцию (меру  линейной зависимости) между соответствующей компонентой случайной величины и множеством остальных  компонент. Отно­си­тельно каждого элемента этого вектора проверяется гипотеза о значимости.

      Результаты выполнения этого пункта меню без проверки предпосы­лок для рассматриваемого примера имеют вид:

 

          Файл ввода act.txt

 Вектор математического ожидания

1

2

3

4

1

9.603333e+01

1.151667e+02

5.070000e+01

2.093333e+01

 

 Ковариационная матрица

1

2

3

4

1

1.0911510e+03

1.063689e+03

3.008068e+02

-2.218081e+00

2

1.063689e+03

1.185294e+03

3.135423e+02

7.231637e+00

3

3.008068e+02

3.135423e+02

1.423831e+02

-4.986442e+00

4

-2.218081e+00

7.231637e+00

-4.986442e+00

6.3351410e+01

 

 Матрица парных коэффициентов корреляции

1

2

3

4

1

1.000000e+00

9.353179e-01

7.631606e-01

-8.436385e-03

2

9.353179e-01

1.000000e+00

7.632276e-01

2.639037e-02

3

7.631606e-01

7.632276e-01

1.000000e+00

-5.250291e-02

4

-8.436385e-03

2.639037e-02

-5.250291e-02

1.000000e+00

 

Матрица значимых коэффициентов корреляции

Уровень значимости alfa =   0.0500

1

2

3

4

1

1.000000e+00

9.353179e-01

7.631606e-01

0.000000e+00

2

9.353179e-01

1.000000e+00

7.632276e-01

0.000000e+00

3

7.631606e-01

7.632276e-01

1.000000e+00

0.000000e+00

4

0.000000e+00

0.000000e+00

0.000000e+00

1.000000e+00

 

Доверительные интервалы для значимых парных коэф-в корреляции

Уровень значимости alfa =0.0500

Коэффициент корреляции

Доверительный интервал

r( 1, 2) = 0.9353179

0.8936307 0.9610038

r( 1, 3) = 0.7631606

0.6316382 0.8519835

r( 2, 3) = 0.7632276

0.6317346 0.8520275

 

Матрица корреляционных отношений

1

2

3

4

1

1.000000e+00

8.884497e-01

7.039601e-01

2.831308e-01

2

9.007756e-01

1.000000e+00

7.056496e-01

3.454498e-01

3

6.026155e-01

6.750155e-01

1.000000e+00

     3.260075e-01

4

8.177995e-02

7.801921e-02

1.972346e-01

1.000000e+00

 

Матрица значимых корреляционных отношений

Уровень значимости alfa = 0.0500

1

2

3

4

1

1.000000e+00

8.884497e-01

7.039601e-01

0.000000e+00

2

9.007756e-01

1.000000e+00

7.056496e-01

3.454498e-01

3

6.026155e-01

6.750155e-01

1.000000e+00

     3.260075e-01

4

0.000000e+00

0.000000e+00

0.000000e+00

1.000000e+00

 

Mатрица значимых корней кв. из корреляционных отношений

1

2

3

4

1

1.000000e+00

9.425761e-01

8.390233e-01

0.000000e+00

2

9.490920e-01

1.000000e+00

8.400295e-01

5.877498e-01

3

7.762831e-01

8.215933e-01

1.000000e+00

5.709707e-01    

4

0.000000e+00

0.000000e+00

0.000000e+00

1.000000e+00

 

 Матрица частных коэффициентов корреляции

1

2

3

4

1

1.000000e+00

8.455458e-01

2.073441e-01

-7.151330e-02

2

8.455458e-01

1.000000e+00

2.247293e-01

1.153210e-01

3

2.073441e-01

2.247293e-01

1.000000e+00

-9.491602e-02

4

-7.151330e-02

1.153210e-01

-9.491602e-02

1.000000e+00

 

Матрица значимых частных коэффициентов корреляции

Уровень значимости alfa = 0.0500

1

2

3

4

1

1.000000e+00

8.455458e-01

0.000000e+00

0.000000e+00

2

8.455458e-01

1.000000e+00

0.000000e+00

0.000000e+00

3

0.000000e+00

0.000000e+00

1.000000e+00

0.000000e+00

4

0.000000e+00

0.000000e+00

0.000000e+00

1.000000e+00

 

Доверительные интервалы для

Значимых частных коэффициентов корреляции

Уровень значимости alfa = 0.0500

Коэффициент корреляции

Доверительный интервал

r( 1, 2) =0.8455458

0.7513443 0.9059756

 

 Вектор множественных коэффициентов корреляции

1

2

3

4

1

9.387504e-01

9.392858e-01

7.781507e-01

1.355840e-01

 

Вектор значимых множественных коэффициентов корреляции

Уровень значимости alfa = 0.0500

1

2

3

4

1

9.387504e-01

9.392858e-01

7.781507e-01

0.000000e+00

 

6.4. Парная корреляция

 

      В данном пункте может анализироваться либо вся матрица парных корреляций (оценивание, проверка значимости и построение довери­тельных интервалов для значимых), либо отдельный коэффициент пар­ной корреляции. В последнем случае можно раздельно или совместно решать следующие задачи: определение оценки парного коэффициента корреляции, проверка гипотезы о его значимости (гипотезы вида : ), проверка, при необходимости, гипотезы вида :  (т.е. ра­венства его определенному конкретному значению), а также построе­ние для него доверительного интервала.

      Если оценка ковариационной матрицы  уже известна, то оценка парного коэффициента корреляции может быть найдена в соответствии с выражением

,

где  - элемент матрицы .

    При проверке гипотезы  вычисляется статистика

,

которая при справедливой гипотезе  имеет t-распределение Стьюдента с  степенями свободы. При конкурирующей гипотезе  гипотеза  принимается, если

,

где  - уровень значимости. Величина  при  определяет­ся равенством

.

    При проверке гипотезы  статистика

,

при справедливой гипотезе  подчиняется стандартному нормальному распределению. Гипотеза  принимается, если

,

где  - квантиль стандартного нормального распределения и

.

      Доверительный интервал для парного коэффициента корреляции определяется неравенством

.

 

      Ниже представлены результаты проверки гипотезы о значимости, т.е. гипотезы вида , и гипотезы вида , для выборки из файла act.txt:

 

Файл ввода act.txt

Парный коэффициент корреляции r( 1, 2)=0.935318

ЗНАЧИМ с уровнем значимости alfa = 0.0500

Гипотеза: r=0.50000 ОТКЛОНЯЕТСЯ при alfa = 0.0500

Гипотеза будет принята при alfa < 2.93e-05

Доверительный интервал = (0.893631,0.961004)

 

      Зачастую хотелось бы проверить гипотезу вида : . А сде­лать этого нельзя, так как в вычисляемой статистике оказывается 0 в знаменателе. Но в то же время, Мы можем проверить, например, гипотезу вида : , т.е. сравнить с величиной близкой к 1. Выдача результата в таком случае для нашей выборки имеет вид:

 

Файл ввода act.txt

Оценка парного коэф. корреляции r( 1, 2)=0.93532

Гипотеза: r=0.99000 ОТКЛОНЯЕТСЯ при alfa = 0.0500

Гипотеза будет принята при alfa < 5.36e-13

 

6.5. Корреляционное отношение

 

      Корреляционное отношение случайной величины  по  опре­деляется отношением дисперсии условного математического ожидания  к дисперсии :

.

      Соотношение между коэффициентом корреляции  и корреляцион­ным отношением  позволяет сделать следующие выводы:

а) , если  и  независимы;

б) , тогда и только тогда, когда имеется строгая ли­нейная функциональная зависимость  от ;

в) , тогда и только тогда, когда имеется строгая нели­нейная функциональная зависимость  от ;

г) , тогда и только тогда, когда регрессия  по  строго линейна, но нет функциональной зависимости;

д) , указывает на то, что не существует функциональной зависимости и некоторая нелинейная кривая регрессии "подхо­дит" лучше, чем "наилучшая" прямая линия.

      То есть, равенство квадрата коэффициента корреляции корреляци­онному отношению указывает на то, что для регрессии нельзя найти лучшей кривой, чем прямая линия.

      Оценка корреляционного отношения определяется выражением

,

где  - количество интервалов значений (сечений) для компоненты ,  - среднее значение -го -сечения,  - число наблюдений в этом сечении,  - значение компоненты  с номером  в -сечении, .

      При проверке гипотезы  используется статистика

,

которая при справедливой гипотезе  имеет F-распределение Фишера с числом степеней свободы  и . Гипотеза  принимается, если

,

где  - критическая точка критерия с уровнем значимости .

    При проверке гипотезы  (гипотезы о линейности регрессии  по ) статистика имеет вид

.

При справедливой гипотезе  она подчиняется F-распределению Фишера с числом степеней свободы  и . Гипотеза  принимается, если

.

      Данный пункт меню предусматривает либо анализ матрицы корре­ля­ционных отношений (оценивание и проверку значимости элементов матрицы), либо анализ определенного корреляционного отношения между компонентами с номерами i и j случайной величины: вычис­ление оценки , проверку значимости (гипотеза : ), проверку линей­ности регрессии  по  (проверяется гипотеза о равенстве корреляци­онного отношения квадрату парного коэффици­ента корреляции).

      Результат анализа выборки из файла act.txt в последнем случае имеет вид:

Файл ввода act.txt

Корреляционное отношение ro( 1, 2)=0.888450

ЗНАЧИМО с уровнем значимости alfa = 0.0500

Коэффициент корреляции r ( 1, 2)=0.935318

С уровнем значимости alfa = 0.0500

    ПРИНИМАЕТСЯ гипотеза: ro=r*r

(наилучшая регрессия x( 1) по x( 2) - линейная) Гипотеза: ro=r*r будет отвергнута при alfa > 8.17e-01

 

6.6. Частная корреляция

 

      В случае двух нормальных или почти нормальных случайных вели­чин коэффициент корреляции между ними может быть использован в качестве меры взаимозависимости. На практике при интерпретации "взаимозависимости" приходится сталкиваться с трудностями следу­ющего характера: если одна величина коррелирована с другой, то это может быть всего лишь отражением того факта, что они обе кор­релированы с некоторой третьей величиной или совокупностью ве­личин. Указанная возможность приводит к необходимости рассмотре­ния условных корреляций между двумя величинами при фиксирован­ных значениях остальных величин, т.е. частных корреляций.

      Если корреляция между двумя величинами уменьшается, когда мы фиксируем некоторую другую случайную величину (компоненту много­мерной величины), то это означает, что их взаимозависимость воз­никает частично через воздействие этой величины; если же частная корреляция равна нулю или очень мала, то мы делаем вывод, что их взаимозависимость целиком обусловлена этим воздействием. Наобо­рот, когда частная корреляция больше первоначальной корреляции между двумя величинами, то мы заключаем, что другие величины ослабляли эту связь, или, можно сказать, "маскировали" корреля­цию.

      По существу, мы должны рассматривать условное распределение  подвектора  при известном подвекторе  и анализировать корреляцию между компонентами подвектора .

      Представим случайный вектор  в следующем виде

,

где , , соответственно, вектор ма­тематических ожиданий и ковариационную матрицу

.

      Если случайный вектор  подчиняется нормальному закону распределения с вектором средних  и ковариационной матрицей , то условное распределение подвектора  при известном  является нормальным с математическим ожиданием  и ковариа­ционной матрицей , где , .

      ОМП для частного коэффициента корреляции определяется следу­ю­щим соотношением

,

где  - элемент i-й строки и j-го столбца матрицы . В данном случае при оценке взаимозависимости между компонентами  и  случайной величины  исключается влияние компонент .

      При проверке гипотез вида  и , а так­же при построении доверительных интервалов для частного коэффици­ента корреляции используются те же самые статистики, что и для парного коэффициента корреляции. В этом случае в соответствующих соотношениях  заменяется на , где  - объём выборки,  - размерность случайного вектора,  - число компонент в условном распределении (в частном случае ).

 

      В этом пункте меню может анализироваться или вся матрица част­ных корреляций (оценивание, проверка значимости и построение доверительных интервалов для значимых коэффициентов при условии, что остальные  компоненты -мерной величины фиксированы), или отдельный коэффициент частной корреляции. В последнем случае можно, решая задачи отдельно или одновременно, найти оценку част­ного коэффициента корреляции, проверить гипотезу о его значимос­ти, при необходимости проверить гипотезу вида , а также построить доверительный интервал для частного коэффициента корре­ляции.

      Для выборки из файла act.txt результаты имеют следующий вид:

 

Файл ввода act.txt

Частный коэффициент корреляции r( 1, 2) = 0.845546

при фиксированных компонентах с индексами: 3, 4,

ЗНАЧИМ с уровнем значимости alfa = 0.0500

Гипотеза: частный коэф-т корреляции r( 1, 2)=0.700000 ОТВЕРГАЕТСЯ с уровнем значимости alfa = 0.0500

Гипотеза будет принята при alfa < 6.51e-03

Доверительный интервал =(0.751344,0.905976)

 

      В предыдущих параграфах было получено, что парный коэффициент корреляции , а вычисленный в данном пункте частный коэффициент корреляции при исключении влияния на корреляцию компонент  и  равен 0.845546. Т.е. связь  с  частично осуществляется через  и . Продолжив анализ и вычислив коэффициент корреляции при исключении влияния только  и только , получим, соответственно, 0.845086 и 0.935900. Отсюда можно сделать вывод, что связь  с  осуществляется частично через , но компонента  на эту связь практически не влияет. Кроме того, если в дальнейшем у Вас возникнет необхо­димость в построении регресси­онной модели, то, если рассматривать только регрессию  по , то наилучшая модель линейная, а, если включать в нее , то, возможно, нелинейная модель окажется предпочтительней. Что касается компо­ненты , то ее влияние не значимо, и, следовательно, присутствие в регрессионной модели будет излишним.

 

6.7. Частная линейная регрессия

 

      На основе частных коэффициентов корреляции можно найти оценки параметров частных линейных регрессионных зависимостей. Каждая i-я строка вычисляемой матрицы представляет собой линейную рег­рессионную модель вида

 

где в правой части равенства  - элементы i-й строки мат­рицы ко­эф­фициентов (),  - условное математическое ожида­ние случайной величины .

      Соответствующее уравнение регрессии имеет вид:

.

      Правомерность использования линейной регрессионной модели, описывающей связь между компонентами случайной величины выявля­ется в результате анализа соответствующих парных и частных коэф­фициентов корреляции и корреляционных отношений.

Для выборки из файла act.txt результаты имеют следующий вид:

 

Файл ввода act.txt

Матрица частных коэффициентов линейной регрессии

1

2

3

4

1

1.000000e+00

8.147302e-01

3.149224e-01

-1.032269e-01

2

8.775273e-01

1.000000e+00

3.542393e-01

1.727579e-01

3

1.365143e-01

1.425688e-01

1.000000e+00

-9.020554e-02

4

-4.954284e-02

7.698020e-02

-9.987264e-02

1.000000e+00

 

Т.е. линейная регрессия, например, для  будет иметь вид:

 

.

 

6.8. Множественная корреляция

 

      Множественный коэффициент корреляции является мерой зависи­мос­ти компоненты случайной величины от некоторого множества компо­нент.

      Можно рассматривать корреляцию между одной компонентой слу­чай­ного вектора и множеством всех остальных или каким-то подмно­жес­твом.

      Следует отметить, что множественный коэффициент корреляции  случайной величины  относительно некоторого множества других случайных величин всегда не меньше, чем абсолютная величина любого парного коэффициента корреляции  с таким же первичным индексом. Более того, множественный коэффициент корреляции никогда нельзя уменьшить путем расширения множества величин, относительно которых измеряется зависимость .

      Если коэффициент корреляции между  и множеством всех остальных компонент многомерной случайной величины равен нулю (: ), то все коэффициенты корреляции этой величины относи­тельно любого подмножества также равны 0, т.е. величина  полностью некоррелирована со всеми остальными величинами.

      С другой стороны, если  относительно множества всех остальных компонент равен единице (: ), то по крайней мере один из коэффициентов корреляции относительно некоторого под­множества компонент должен быть равен 1.

      Надо отметить, что коэффициент корреляции, например, между  и множеством всех остальных компонент является обычным коэффициентом корреляции между  и условным математическим ожиданием .

      Если представим случайный вектор  в виде

,

где , , и, соответственно, кова­риа­ци­онную матрицу

,

тогда ОМП множественного коэффициента корреляции между , , и множеством компонент  определится соотноше­нием

,

где  - элемент матрицы , а  - i-я строка матрицы .

    При проверке гипотезы  используется статистика

,

которая при справедливой гипотезе  имеет F-распределение Фишера с числом степеней свободы  и . Гипотеза  принима­ется, если

,

где  - уровень значимости, а  - критическая точка крите­рия с уровнем значимости .

 

      В данном пункте меню можно анализировать или вектор множест­венных коэффициентов корреляции (относительно множества всех ос­тальных величин, образующих многомерную величину), находить оцен­ки и проверять значимость компонент этого вектора, или анализи­ровать множественный коэффициент корреляции между определенной компонентой и задаваемым подмножеством остальных компонент.

      В последнем случае для выборки из файла act.txt получается результат:

 

Файл ввода act.txt

Множественный коэффициент корреляции между 1 компонентой

и множеством компонент с индексами: 3, 4,

        r = 0.763818

ЗНАЧИМ с уровнем значимости alfa = 0.0500

 

      Для сравнения, парный коэффициент корреляции , а , и по абсолютной величине меньше вычисленного множественного коэффициента корреляции.

 

6.9. Покомпонентный анализ

 

      Этот пункт предполагает решение задач проверки гипотез двух видов для каждой из компонент многомерной случайной величины:

·        проверку гипотез о равенстве математических ожиданий компонент определенным значениям, причем стандартные отклонения для этих компонент могут быть либо известны, либо неизвестны (гипотезы : );

·        проверку гипотез о равенстве стандартных отклоне­ний известным величинам, и, в свою очередь, соответствующие мате­матические ожидания могут быть известны или нет (гипотезы : ).

      Следует подчеркнуть, что, строго говоря, проведение покомпо­нент­ного анализа оправдано при некоррелированности величин, вхо­дящих в систему.

      Проверка гипотезы  при известной дисперсии компо­ненты . Вычисляемая статистика

,

где  - среднее значение компоненты , при справедливой гипотезе  подчиняется стандартному нормальному распределению. Гипотеза  принимается, если

,

где критическое значение  при заданном  определяется равенством

.

      При проверке аналогичной гипотезы при неизвестной дисперсии компо­ненты  вычисляемая статистика

,

где  и  - j-е наблюдение компоненты , при справедливой гипотезе  имеет t-рас­пределение Стьюдента с  степенью свободы. Гипотеза  при­ни­ма­ется, если

,

где критическое значение  при заданном  и  опреде­ляется равенством

.

      Проверка гипотезы  при известном математическом ожи­дании компо­ненты . В этом случае статистика

имеет -распределение с  степенями свободы, если гипотеза  справедлива. Гипотеза  при­ни­ма­ется, если

,

где значения  и  определяются равенством

,

и  - функция плотности -распределения с  степенями свободы.

      Если математическое ожидание компоненты неизвестно, то при проверке данной гипотезы вычисляемая статистика имеет вид

и при справедливой гипотезе  имеет -распределение с  степенями свободы. Решение о принятии или отклонении гипотезы  осуществляется как и в предыдущем случае.

 

      В случае проверки гипотез относительно математических ожида­ний при неизвестных стандартных отклонениях для выборки из act.txt результаты имеют вид:

 

Файл ввода act.txt

"Покомпонентный анализ"

Проверка гипотезы о значимости отклонения математического ожи­дания от заданного значения при известном векторе стандартныx отклонений.

Уровень значимости alfa = 0.0500

№ компоненты

Заданное значение мат.ожидания

Вычисленное значение мат.ожидания

Значимость отклонения

1

9.600000e+01

9.603333e+01

Незначимо

2

1.150000e+02

1.151667e+02

Незначимо

3

5.000000e+01

5.070000e+01

Незначимо

4

2.000000e+01

2.093333e+01

Незначимо

 

6.10. Статистические распределения

 

      В данном пункте меню предоставляется возможность вычисления вероятностей или квантилей для распределений наиболее часто используемых в задачах статистического анализа:

·        стандартного нормального распределения;

·        -распределения;

·        t-распределения Стьюдента;

·        F-распределения Фишера;

·        B-распределения (бета).

      Функция плотности нормального распределения имеет вид

,

-распределения с числом степеней свободы  -

,

t-распределения Стьюдента с числом степеней свободы  -

F-распределения Фишера с числом степеней свободы  и

,

B-распределения -

,

где  - бета-функция.

      При определении вероятности того, что случайная величина X  больше x вычисляется интеграл вида

,

а при вычислении квантили решается уравнение

.

      Например, при вычислении квантили для F-распределения Фишера с числом степеней свободы 3 и 8 результат имеет вид:

 

 F-распределение Фишера (числа ст.св.- 3,8)

 P{ X ≥2.92380e+00} = 1.00000e-01

 

      Здесь символ P{.} означает вероятность события. А для квантили B-распределения с параметрами a=5 и b=4:

 

 B(5.000000,4.000000)-распределение

 P{ X ≥3.44623e-01} = 9.00000e-01

 

Рекомендуемая литература

 

1.          Андерсон Т. Введение в многомерный статистический анализ. - М.: Физматгиз, 1963.

2.          Кендалл М., Стьюарт А.. Статистические выводы и связи. - М.: Наука,  1973.

3.          Кендалл М., Стьюарт А.. Многомерный статистический анализ и временные ряды. - М.: Наука, 1976.