Помадин С.С. Исследование распределений статистик многомерного анализа данных при нарушении предположений о нормальности // Диссертация на соискание уч. ст. к.т.н. по специальности 05.13.17 — теоретические основы информатики / Научн. рук. д.т.н., проф. Лемешко Б.Ю./ Новосибирский государственный технический университет, 2004 г.

 

 

 

 

 


Введение. 4

Глава 1. Постановка задач исследования. 11

1.1. Основные понятия и определения. 11

1.2. Задачи корреляционного анализа. 13

1.2.1. Критерии проверки гипотез о векторе математических ожиданий и ковариационной матрице  13

1.2.2. Критерии проверки гипотез о коэффициентах корреляции. 15

1.2.3. Критерии проверки гипотез о корреляционном отношении. 17

1.3. Цели исследования распределений статистик корреляционного анализа при нарушении предположения о нормальности. 18

1.4. Проблемы моделирования многомерных псевдослучайных величин. 20

1.5. Выводы.. 21

Глава 2. Исследование критериев проверки гипотез о математических ожиданиях и дисперсиях при вероятностных законах, отличающихся от нормального. 22

2.1. Классические критерии проверки гипотез о математических ожиданиях и дисперсиях  23

2.2. Распределения статистик , , ,  при нарушении предположений о нормальности  25

2.3. Выводы.. 31

Глава 3. Исследование критериев проверки гипотез о векторе математических ожиданий и ковариационной матрице. 32

3.1. Классические критерии проверки гипотез о векторе математических ожиданий и ковариационной матрице. 32

3.1.1. Проверка гипотез о векторе математических ожиданий. 32

3.1.2. Проверка гипотез о ковариационной матрице. 33

3.2. Исследование распределений статистик критериев в случае принадлежности наблюдений нормальному закону. 33

3.3. Исследование распределений статистик при законах, отличающихся от нормального. 36

3.4. Уточнение моделей распределений статистик рассматриваемых критериев. 42

3.5. Выводы.. 45

4. Исследование критериев проверки гипотез о коэффициентах корреляции. 46

4.1. Классические критерии проверки гипотез о коэффициентах корреляции. 46

4.1.1. Проверка гипотез о коэффициентах парной корреляции. 46

4.1.2. Проверка гипотез о коэффициентах частной корреляции. 47

4.1.3. Проверка гипотезы о коэффициенте множественной корреляции. 49

4.2. Исследование распределений статистик критериев для различных многомерных законов  50

4.2.1. В случае принадлежности наблюдений многомерному нормальному закону. 50

4.2.2. В случае принадлежности наблюдений многомерным законам, моделируемым на основе семейства симметричных распределений (6.4) 54

4.2.3. Случай принадлежности наблюдений многомерному закону Стьюдента. 58

4.3. Выводы.. 60

5. Исследование критериев проверки гипотез о корреляционном отношении. 61

5.1. Классические критерии проверки гипотез о корреляционном отношении. 61

5.2. Влияние различных способов группирования и количества интервалов на оценку корреляционного отношения. 63

5.3. Исследование распределений статистики критерия проверки гипотезы о незначимости корреляционного отношения. 67

5.4. Исследование распределений статистики критерия линейности регрессии  по ..... 71

5.5. Выводы.. 74

Глава 6. Описание программной системы.. 75

6.1. Общая характеристика программной системы.. 75

6.2. Краткое описание интерфейса программной системы.. 76

6.2.1. Основная программа. 77

6.2.2. Вспомогательная программа. 79

6.3. Моделирование псевдослучайных величин. 79

6.3.1. Моделирование одномерных распределений. 80

6.3.2. Моделирование псевдослучайных нормальных векторов. 82

6.3.3. Моделирование многомерных величин по законам, отличным от нормального. 84

6.3.5. Моделирование функциональной линейной зависимости между  и ..... 90

6.4. Пример использования программной системы при обработке данных в медицине. 91

6.5. Выводы.. 93

Заключение. 95

Список использованных источников. 97

 


Введение

Современное состояние и актуальность темы исследований. Существует множество работ по многомерному статистическому анализу [13, 31, 36, 44, 45, 47, 94, 95, 108, 114], содержание которых указывает на актуальность и эффективность применения соответствующего математического аппарата в различных областях знаний, таких как экономика, биология и медицина. При этом в практике статистического анализа возникает существенно больше постановок задач, чем предлагается решений в классической математической статистике [101]. Разнообразие статистических гипотез, выдвигаемых в процессе статистического анализа в различных приложениях, оказывается существенно шире предлагаемого классическим аппаратом. Классический аппарат включает в себя ограниченный перечень задач проверки статистических гипотез, для которых найдены предельные распределения статистик, используемых в соответствующих критериях. Поэтому классические результаты оказываются применимыми при выполнении достаточно строгих предположений, которые на практике часто не имеют места.

С другой стороны, для обнаружения закономерных связей можно использовать аппарат анализа данных [53,54,63,64], когда рассматриваемые объекты представляются как <<черные ящики>>. В данном случае на анализируемые данные не накладываются какие"– либо строгие ограничения. Но применение такого подхода обычно привязано к определенному классу задач, например, распознавание образов, и поэтому далеко не всегда удается использовать методы анализа данных в растущем множестве различных статистических задач.

Таким образом, можно говорить о наличии в математической статистике множества <<пробелов>>, которые чаще всего связаны с проверкой разного рода статистических гипотез. В этом случае вопрос обычно упирается в необходимость нахождения предельного распределения статистики построенного критерия или распределения статистики при заданном объеме выборки. Как правило, нахождение предельного закона для статистики критерия проверки конкретной гипотезы аналитическими методами оказывается чрезвычайно сложной задачей, а задач, требующих разрешения, "— слишком много [124].

В большинстве случаев отсутствие необходимых теоретических результатов объясняется сложностью и трудоемкостью получения решений аналитическими методами. Можно констатировать, что количество и уровень сложности задач, выдвигаемых практикой, возрастают настолько быстро, что ресурсы человеческого интеллекта, его производительность просто не в состоянии обеспечить решение такого множества задач без создания и использования соответствующих вычислительных технологий.

Сегодня в связи с бурным развитием и внедрением персональных компьютеров, особую актуальность приобретает задача обеспечения высокого качества пакетов прикладных статистических программ. Несмотря на то, что, рынок насыщен различными пакетами программных систем статистического анализа[22,115], реализуемые в них методы и алгоритмы сильно отстают от последних достижений в области статистических исследований. С одной стороны это объясняется, прежде всего, тем, что подробное описание последних результатов исследований очень сложно отыскать в литературных источниках, поэтому они остаются труднодоступными для разработчиков программного обеспечения. К сожалению, с другой стороны необходимо отметить и то, что в некоторых работах встречаются ошибки применения статистических методов [98], что также не облегчает быстрое внедрение новых методов в программные пакеты.

Перспективы программного обеспечения по статистическому анализу данных обсуждались в работах [27-30,38], современные проблемы внедрения прикладной статистики поднимались в [100]. Расширяющиеся использование ЭВМ и их совершенствование в свою очередь отражается на развитии статистических методов и использовании статистических методов в приложениях [14, 32, 35, 42, 48, 56, 65, 104, 109, 116, 120].

Вышесказанное подчеркивает необходимость (а практика уже показывает возможность [61,67,81,82,86,89,90]) развития компьютерных методов исследования статистических закономерностей, компьютерных методов исследования свойств оценок и статистик различных критериев проверки статистических гипотез, построения вероятностных моделей для исследуемых закономерностей. Это позволяет с меньшими интеллектуальными затратами получать фундаментальные знания в области математической статистики, и, следовательно, осуществлять корректные статистические выводы при анализе данных в различных прикладных областях.

В последние годы при исследовании некоторых задач математической и прикладной статистики получено множество результатов, связанных с исследованием распределений статистик критериев согласия в случае проверки простых и сложных гипотез [84,86-88], с исследованием статистических свойств различных оценок [69,91], полученных как раз благодаря применению методов компьютерного моделирования. Накопленный опыт в данной области показал, что с использованием методов статистического моделирования и последующего анализа можно получать результаты по точности не уступающие аналитическим. Например, при оценивании параметров распределений некоторых законов в случаях проверки сложных гипотез с использованием методов статистического моделирования, когда наиболее часто применяют метод Монте"– Карло [37, 49, 51, 52, 113], были получены таблицы процентных точек для предельных распределений статистик непараметрических критериев [5, 17, 23, 24, 117–119, 121]. В этой связи появилась обоснованная уверенность, что с использованием данного подхода можно закрывать многие существующие в прикладной статистике <<пробелы>>, применяя относительно простой вычислительный и математический аппарат.

В различных приложениях статистического анализа многомерных случайных величин одну из ключевых позиций занимают задачи корреляционного анализа [122]. В процессе решения задач корреляционного анализа выявляется наличие и характер взаимосвязи величин, взаимозависимости величин при устранении влияния совокупности других или зависимости одной случайной величины от группы величин. Вычисляются оценки коэффициентов и матриц парной, частной и множественной корреляции, проверяются различные статистические гипотезы относительно параметров многомерного распределения и коэффициентов корреляции. На основании результатов корреляционного анализа может делаться вывод о наличии и характере функциональной зависимости или предпочтительности для описания исследуемого объекта регрессионной модели того или иного вида.

В основе существующего аппарата корреляционного анализа лежит предположение о принадлежности наблюдаемого случайного вектора многомерному нормальному закону. Базируясь на этом, получены предельные распределения статистик, используемых в критериях многомерного анализа [2, 16, 33, 57–59].

На практике, исследователь далеко не всегда имеет дело с нормальным законом [16,94,99]. Как правило, многие исследователи вообще не придают значения проверке этого важного предположения корреляционного анализа, либо они вынуждены <<в силу обстоятельств>> работать только с многомерными величинами, имеющим нормальное распределение, как это сделано в работах [31,114]. Например, в нашей жизни достаточно мало экономических процессов, отклонения которых распределены по нормальному закону. Поэтому данное ограничение приводит к сужению области применения корреляционного анализа в экономике. Естественно, возникает вопрос о справедливости выводов, получаемых на основании результатов корреляционного анализа при нарушении основного предположения. В доступной литературе ответ на данный вопрос найден не был, хотя можно найти указания на робастность некоторых критериев, применяемых в многомерном анализе.

Целью данной диссертационной работы явилось стремление разобраться, что будет происходить с распределениями различных статистик корреляционного анализа, если наблюдаемый закон будет отличаться от многомерного нормального.

Немаловажен и такой аспект. Большинство наиболее весомых результатов в математической статистике имеет асимптотический характер. На практике же всегда имеют дело с ограниченными объемами наблюдений. И свойства используемых статистик в таких ситуациях порой существенно отличаются от асимптотических. Не являются исключением и предельные распределения статистик корреляционного анализа, которые получены для выборок многомерных величин с объемом  [2, 33, 57, 58]. На практике исследователю важно знать конечные объемы выборок, начиная с которых можно пользоваться найденными предельными законами. Поэтому в процессе проводимых исследований можно оценить объемы выборок, которые могут быть рекомендованы как достаточные для принятия правильного решения по соответствующему критерию корреляционного анализа.

Очевидно, что ответить на поставленные вопросы, используя аналитические методы, чрезвычайно сложно из-за нетривиальности возникающих задач. Поэтому в основу проводимого исследования положена развиваемая на кафедре прикладной математики НГТУ методика компьютерного моделирования и анализа статистических закономерностей.

Цели и задачи исследований. Основной целью диссертационной работы является исследование поведения (предельных) законов распределений статистик многомерного анализа в случае принадлежности наблюдаемых случайных величин многомерным законам распределения, отличным от нормального.

Для достижения поставленной цели было предусмотрено решение следующих задач:

·         исследование эмпирических распределений статистик корреляционного анализа в случае многомерного нормального закона для подтверждения теоретических результатов и выявления скорости сходимости распределений к соответствующим предельным;

·         моделирование многомерных законов, отличных от нормального, с заданными вектором математических ожиданий, ковариационной матрицей и задаваемой мерой отклонения от нормального;

·         исследование распределений статистик, используемых при проверке гипотез о векторе математических ожиданий и ковариационной матрице, в случае многомерных законов, отличающихся от нормального;

·         исследование распределений статистик, используемых при проверке гипотез о парном, частном и множественном коэффициентах корреляции, в случае многомерных законов, отличающихся от нормального;

·         исследование влияния способов группирования и количества интервалов на оценку корреляционного отношения, исследование критериев, используемых при проверке гипотез о корреляционном отношении;

·         исследование критериев проверки гипотез о математическом ожидании и дисперсии в одномерном случае при наблюдениях, не подчиняющихся нормальному закону.

Методы исследования. Для решения поставленных задач использовался аппарат теории вероятностей, математической статистики, вычислительной математики, математического программирования, статистического моделирования.

Научная новизна диссертационной работы заключается в:

·         результатах исследования распределений статистик многомерного анализа данных при нарушении предположений о нормальном законе многомерных случайных величин;

·         результатах исследования распределений статистик критериев, используемых при проверке гипотез о математическом ожидании и дисперсии, в случае принадлежности наблюдений семейству симметричных распределений;

·         методе моделирования многомерных случайных величин по законам, заданным образом отличающихся от нормального.

Основные положения, выносимые на защиту.

Результаты исследования сходимости распределений статистик многомерного анализа к предельным распределениям в зависимости от объема выборки при наблюдаемом нормальном законе случайных векторов.

Подход и алгоритм моделирования многомерного закона распределения, отличающегося от нормального, с заданными вектором математических ожиданий и ковариационной матрицей.

Результаты исследований распределений статистик многомерного анализа для ситуаций, когда наблюдаемый многомерный закон отличается от нормального.

Результаты исследований распределений статистик критериев, используемых для проверки гипотез о математическом ожидании и дисперсии.

Практическая ценность и реализация результатов. Результаты исследования распределений статистик классического корреляционного анализа позволяют существенно расширить сферу корректного применения ряда критериев на многомерные законы, в достаточно широких пределах отличающиеся от нормального (более островершинных или более плосковершинных). Для законов такого вида показано, что распределения статистик, используемых в критериях проверки гипотез о векторе математических ожиданий и о нулевых значениях парного, частного и множественного коэффициентов корреляции, по–прежнему хорошо описываются классическими предельными распределениями. В случае других исследуемых критериев выявлена явная зависимость от наблюдаемого многомерного закона. Предложен метод моделирования многомерных случайных векторов с задаваемым параметром отклонения от многомерного нормального закона.

Апробация работы. Основные результаты исследований докладывались на Новосибирской межвузовской НТК <<Интеллектуальный потенциал Сибири>> (Новосибирск, 2000); Российской НТК <<Информатика и проблемы телекоммуникаций>> (Новосибирск, 2000, 2001, 2002, 2003, 2004); V международной конференции <<Актуальные проблемы электронного приборостроения АПЭП-2000>> (Новосибирск, 2000); Региональной НТК студентов, аспирантов, молодых ученых <<Наука. Техника. Инновации>> (Новосибирск, 2001); Всероссийской НТК <<Информационные системы и технологии ИСТ-2001>> (Нижний Новгород, 2001); VI международной конференции <<Актуальные проблемы электронного приборостроения АПЭП-2002>> (Новосибирск, 2002); Региональной конференции <<Вероятностные идеи в науке и философии>> (Новосибирск, 2003); всероссийской НТК <<Информационные системы и технологии ИСТ-2004>> (Нижний Новгород, 2004). Исследования по теме диссертации были поддержаны грантом Минобразования РФ (проект  A03-2.8-280), вошли составной частью в работы, поддержанные Российским фондом фундаментальных исследований (проект  00-01-00913) и грантом Минобразования РФ (проект  T02-3.3-3356).

Публикации. По теме диссертации опубликовано 16 печатных работ. Среди которых 8 публикаций отражают основные результаты исследований.

Структура работы. Диссертация состоит из введения, 6 глав основного содержания, включая 11 таблиц и 48 рисунков, заключения, списка использованных источников и приложения.

Краткое содержание работы. В первой главе представлен обзор проблем, связанных с встречающимися на практике многомерными наблюдениями, не подчиняющимися нормальному закону, и, как следствие, неприменимости ряда критериев многомерного анализа данных. Даются основные определения и теоремы, на которых базируется классический аппарат корреляционного анализа.

Во второй главе исследуются распределения классических статистик, используемых в критериях проверки гипотез о математических ожиданиях и дисперсиях, если наблюдаемый закон в той или иной мере отличается от нормального.

В третьей главе исследуются распределения статистик критериев, используемых при проверке гипотез о векторе математических ожиданий и ковариационной матрице, в случае многомерных законов, отличных от нормального.

В четвертой главе приводятся результаты исследования распределений статистик, применяемых в критериях проверки гипотез о парном, частном и множественном коэффициентах корреляции.

В пятой главе рассматриваются проблемы, связанные с вычислением оценки корреляционного отношения и влиянием различных способов группирования на получаемую оценку, исследуются критерии проверки гипотез о корреляционном отношении.

В шестой главе дано краткое описание исследовательской программной системы и предлагается метод моделирования многомерных случайных величин с заданным <<отклонением>> от многомерного нормального закона. Показывается различие между моделируемым и многомерным нормальным законами.


Глава 1. Постановка задач исследования

1.1. Основные понятия и определения

Введем для дальнейшего использования следующие обозначения:

 —  выборка из  наблюдений -мерного случайного вектора;

 —  математическое ожидание случайного вектора ;

 —  ковариационная матрица случайного вектора ;

 —  парный коэффициент корреляции между компонентами  и  случайного вектора ;

 —  частный коэффициент корреляции между компонентами  и  случайного вектора  при исключении влияния компонент ;

 —  множественный коэффициент корреляции между  и множеством компонент  случайного вектора ;

 —  корреляционное отношение компоненты  по  случайного вектора ;

 и  —  несмещенные оценки максимального правдоподобия (ОМП) математического ожидания и ковариационной матрицы, которые вычисляются по следующим формулам

                                                   

 

, ,  и  —  ОМП соответствующих величин, вычисляемых по формулам (4.1), (4.5), (4.8) и (5.2).

                                                                      (4.1)

 

Представим случайный вектор  в следующем виде [33]:

                                                            

а вектор математических ожиданий и ковариационную матрицу соответственно в виде

                                                                          

Тогда если случайный вектор  подчиняется нормальному закону с вектором средних  и ковариационной матрицей , то условное распределение подвектора  при известном  является нормальным с математическим ожиданием  и ковариационной матрицей , где ,  [58].

ОМП для частного коэффициента корреляции определяется соотношением:

                                                                                                                                         (4.5)

где  — элемент -й строки и -го столбца матрицы , — число компонент в условном распределении, . В данном случае при оценке взаимозависимости между компонентами  и  случайной величины  исключается влияние компонент .

С учетом выше рассмотренного разбиения случайного вектора  ОМП множественного коэффициента корреляции между  и множеством компонент  определяется соотношением

                                                                                                                                                       (4.8)

где — i-ая строка матрицы , — элемент матрицы .

Корреляционное отношение случайной величины  по  определяется отношением дисперсии условного математического ожидания  к дисперсии :

                                                                                                                                                         (5.1)

 

В отличие от коэффициента корреляции  корреляционное отношение  несимметрично относительно  и . Соотношение между коэффициентом корреляции  и корреляционным отношением  в случае многомерного нормального закона позволяет утверждать следующее[58]:

·         , если  и  независимы;

·         , тогда и только тогда, когда имеется строгая линейная функциональная зависимость  от ;

·         , тогда и только тогда, когда имеется строгая нелинейная функциональная зависимость  от ;

·         , тогда и только тогда, когда регрессия  по  строго линейная, но нет функциональной зависимости;

·         , указывает на то, что не существует функциональной зависимости, и некоторая нелинейная кривая регрессии <<подходит>> лучше, чем <<наилучшая>> прямая линия.

Таким образом, равенство квадрата коэффициента корреляции корреляционному отношению указывает на то, что для регрессии нельзя найти лучшей кривой, чем прямая линия.

Оценка корреляционного отношения определяется выражением

                                                                                                                                                    (5.2)

где  — количество интервалов сечений для компоненты ;  — среднее значение компоненты  в  – ом сечении;  — число наблюдений компоненты  в  – ом сечении;   — значение компоненты  с номером  в – ом сечении.

 

1.2. Задачи корреляционного анализа

1.2.1. Критерии проверки гипотез о векторе математических ожиданий и ковариационной матрице

Важными статистическими задачами корреляционного анализа являются задачи проверки гипотез о том, что вектор математических ожиданий нормального распределения является данным вектором. Эти задачи могут быть рассмотрены в предположении, что ковариационная матрица  известна из ранее проводимых экспериментов, или неизвестна, тогда она должна быть оценена.

Критерии для проверки гипотез о векторе математических ожиданий, основываются на следующих двух теоремах [2-4,18,19,25,33,59].

Теорема 1. Если проверяемая гипотеза для выборки объема , взятой из совокупности с нормальным законом , имеет вид  и ковариационная матрица  известна, тогда гипотеза  не отклоняется с уровнем значимости  при выполнении неравенства

                                                                                                                            (1.1)

где распределение  левой части неравенства есть "– распределение с  степенями свободы, и  удовлетворяет равенству

                                                                                                                        (1.2)

 

Теорема 2. Когда ковариационная матрица  неизвестна и проверяется гипотеза  по выборке "– мерного случайного вектора объема , полученной из совокупности с нормальным законом , то гипотеза  не отвергается для уровня значимости , если

                                                                                                     (1.3)

где распределение  левой части неравенства есть "– распределение Фишера с  и  степенями свободы, и  удовлетворяет равенству

                                                                                                           (1.4)

 

Задачи проверки гипотез о ковариационной матрице имеют вид , где  "— номинальное значение ковариационной матрицы. Подразумевается, что вектор математических ожиданий будет оцениваться по исследуемой выборке. В случае, когда проверяется совместная гипотеза о векторе математических ожиданий и о ковариационной матрице, тогда гипотеза имеет вид . В корреляционном анализе для задач о ковариационных матрицах используют критерии, определяемые следующими теоремами [2,11,33].

Теорема 3. Если проверяемая гипотеза имеет вид  для "– мерных случайных векторов , подчиняющихся нормальному закону , тогда отношение правдоподобия имеет вид

                                                                                                                                      (1.5)

где

                                                                                                                                           (1.6)

В этом случае распределение  статистики  представляет собой "– распределение с  степенями свободы. Гипотеза  принимается с уровнем значимости , когда выполняется условие

                                                                                                                                                        (1.7)

где  удовлетворяет равенству

                                                                                                  (1.8)

 

Теорема 4. Для проверки гипотезы  по выборке "– мерных случайных векторов , принадлежащих нормальному закону , отношение правдоподобия имеет вид

                                                                                                         (1.9)

В этом случае распределение  статистики  представляет собой "– распределение с  степенями свободы. Гипотеза  не отвергается при уровне значимости , если

                                                                                                                                                 (1.10)

где  определяется равенством

                                                                                       (1.11)

 

1.2.2. Критерии проверки гипотез о коэффициентах корреляции

В случае необходимости исследования взаимозависимости случайных величин применяют различные критерии корреляционного анализа, предназначенные для выявления характера статистической зависимости. В данной работе затрагиваются задачи корреляционного анализа, связанные с парной, частной и множественной корреляцией случайных величин.

Если требуется исследовать взаимозависимость двух величин, применяют критерии о парной корреляции, которые базируются на следующих теоремах [2,10,12,33,57,58].

Теорема 5. Пусть  "— независимые одинаково распределенные случайные величины с нормальным законом распределения . Если проверяемая гипотеза имеет вид , тогда гипотеза  не отвергается с уровнем значимости  при условии, что выполняется неравенство

                                                                                                                             (1.12)

где  "— ОМП парного коэффициента корреляции между компонентами вектора  и , распределение  статистики  есть "– распределение Стьюдента с числом степеней свободы , и  удовлетворяет равенству

                                                                               (1.13)

 

Теорема 6. Если проверяется гипотеза  по выборке  случайных векторов, распределенных по нормальному закону , то гипотеза  принимается с уровнем значимости , если выполняется соотношение

                                                                                                                                                     (1.14)

где ,  "— ОМП парного коэффициента корреляции между компонентами вектора  и , распределение  статистики  есть стандартное нормальное распределение, и  удовлетворяет

                                                                                           (1.15)

 

Если нас интересует взаимозависимость двух величин при устранении воздействия остальных величин, то исследуется, так называемая, частная корреляция. Критерии проверки гипотез о частном коэффициенте корреляции вида  и  базируются на тех же самых теоремах[2,8,33,58], что и для парного коэффициента корреляции. Только в этом случае в соответствующих соотношениях  заменяется на , где  "— число компонент случайного вектора в условном распределении  и  при фиксировании остальных.

Когда исследуется зависимость единственной величины от группы других, рассматривается множественная корреляция, и используют критерии проверки гипотез о множественной корреляции. В работе рассматривается критерий проверки гипотезы о значимости множественного коэффициента корреляции, базирующийся на следующей теореме [2,9,33,58].

Теорема 7. Если проверяется гипотеза вида  по выборке "– мерного случайного вектора объема , полученной из совокупности с нормальным законом, тогда гипотеза  принимается с уровнем значимости , если справедливо следующее неравенство

                                                                                                                 (1.16)

где  "— ОМП множественного коэффициента корреляции. Распределение  левой части неравенства представляет собой "– распределение Фишера с  и  степенями свободы,  удовлетворяет равенству

                                                                                       (1.17)

 

1.2.3. Критерии проверки гипотез о корреляционном отношении

В корреляционном анализе на основании соотношений между парным коэффициентом корреляции и корреляционным отношением можно судить о характере зависимости между компонентами случайного вектора.

Если требуется проверить гипотезы вида: о равенстве корреляционного отношения нулю  или о равенстве корреляционного отношения квадрату коэффициента корреляции  (критерий линейности регрессии  по ), применяют критерии о корреляционном отношении, которые базируются на следующих теоремах[58].

Теорема 8. Если проверяется гипотеза вида  по выборке "– мерного случайного вектора объема , полученной из совокупности с нормальным законом, тогда гипотеза  принимается с уровнем значимости , если справедливо следующее неравенство

                                                                                                                                               (1.18)

где  "— оценка корреляционного отношения. Распределение  левой части неравенства представляет собой "– распределение Фишера с  и  степенями свободы,  удовлетворяет равенству

                                                                                                     (1.19)

Теорема 9. В случае, когда проверяется гипотеза вида  по выборке  случайных векторов, распределенных по нормальному закону , то гипотеза  принимается с уровнем значимости , если справедливо следующее неравенство

                                                                                                                                           (1.20)

где  и  "— соответственно оценка корреляционного отношения и ОМП парного коэффициента корреляции. Распределение  левой части неравенства представляет собой "– распределение Фишера с  и  степенями свободы,  удовлетворяет равенству

                                                                                                   (1.21)

 

Из приведенных теорем видно, что рассмотренные критерии и распределения статистик получены в предположении о нормальном законе наблюдаемого случайного вектора.

1.3. Цели исследования распределений статистик корреляционного анализа при нарушении предположения о нормальности

Как уже отмечалось, в основе аппарата классического корреляционного анализа лежит предположение о принадлежности наблюдаемого случайного вектора многомерному нормальному закону. Базируясь на этом, сформулированы теоремы о распределениях статистик, используемых в критериях классического корреляционного анализа.

На практике предпосылки классического корреляционного анализа выполняются далеко не всегда. Очевидно и то, что многомерный нормальный закон далеко не всегда является наилучшей моделью для описания реально наблюдаемых многомерных случайных величин [99]. Например, в работе [94] Леонов В. П. отмечает, что за последние 10 лет ему довелось провести достаточно детальный статистический анализ более 150 массивов данных из различных областей экспериментальной биологии и медицины, содержавших от 10 до 300 признаков и от 100 до нескольких десятков тысяч наблюдений. Получилось, что в 50-80% случаев количественные показатели биологических объектов не подчинялись нормальному распределению.

Поэтому центральное место нормального закона не стоит объяснять его универсальной применимостью. Нормальный закон "— это один из многих типов распределения, правда, имеющий основание с относительно большим удельным весом для применения на практике. Его основная привлекательность "— это полнота теоретических исследований. В своих работах [93,94] Леонов В. П. призывает специалистов в биомедицине уделять больше внимания проверке выборок наблюдений на нормальность. Так, проанализированные им работы указывают на то, что некоторые авторы <<забывают>> об осуществлении соответствующих проверок, и впоследствии интерпретируют результаты некорректного применения классических критериев.

Что делать в случае, когда исследователь сталкивается с многомерным законом, который не является нормальным? Как использовать критерии корреляционного анализа? Или какой вид анализа применять в таком случае? Например, в работе [31] Айвазян С. А. предлагает два подхода для исследований наблюдений, которые не подчиняются многомерному нормальному закону. Первый подход заключается в использовании классических алгоритмов для получения первого начального приближения, а второй "— в подборе такого преобразования, которое осуществило бы переход к многомерному нормальному закону. Оба способа очень тяжело реализуются в общем случае, да и исследователь должен быть весьма подготовлен в области статистического анализа, чтобы корректно видоизменять и интерпретировать наблюдаемые величины.

Поэтому с практической точки зрения интересен вопрос о степени корректности выводов, формируемых на основании применения конкретных процедур классического корреляционного анализа, в случае нарушения основного предположения. Насколько корректны будут выводы статистического анализа, если истинная модель многомерного закона в той или иной мере отличается от нормального, и как такое отличие влияет на распределения исследуемых статистик?

Настоятельная потребность в исследовании некоторых критериев корреляционного анализа на устойчивость или, наоборот, неустойчивость к отклонению многомерного закона от нормального проявилась давно. Например, А. Гейен [58] рассмотрел устойчивость коэффициента корреляции к отклонениям от двумерного нормального закона. Им было показано что, когда коэффициент корреляции равен нулю и, в частности, когда случайные величины независимы, критерий проверки гипотезы о нулевом значении коэффициента корреляции устойчив. Но при больших значениях этого коэффициента отклонения от нормальной теории становятся заметными.

В данной работе при помощи методов компьютерного моделирования и анализа закономерностей мы попытались определить границы применимости классического корреляционного анализа, ответить на вопрос, какие критерии можно уверенно применять при отклонении многомерной выборки от нормального закона, а применение каких критериев требует строгого выполнения всех налагаемых условий.

Для подтверждения работоспособности методов компьютерного моделирования и исследования статистических закономерностей в случае многомерных величин в работе исследованы эмпирические распределения статистик классического корреляционного анализа в случае многомерного нормального закона. Эти исследования должны были подтвердить классические результаты и показать близость получаемых эмпирических распределений статистик, в данном случае, известным предельным законам. Соответствие в такой ситуации эмпирических распределений, получаемых в процессе моделирования, предельным классическим распределениям статистик должно послужить доводом, подчеркивающим достоверность результатов в общем случае.

1.4. Проблемы моделирования многомерных псевдослучайных величин

Ключевым моментом для исследования распределений статистик корреляционного анализа при некоторых произвольных многомерных законах (отличающихся от нормального) является необходимость моделирования псевдослучайных векторов в соответствии с такими законами. Причем желательно иметь возможность моделирования псевдослучайных векторов по законам с <<регулируемым удалением>> от многомерного нормального, чтобы проследить соответствующие изменения распределений исследуемых статистик корреляционного анализа.

Алгоритмы моделирования случайных векторов в случае нормального закона, а также для некоторых других частных случаев известны давно [51,52,106]. Эти алгоритмы позволяют достаточно быстро получать выборки случайных векторов произвольных объемов и при различных задаваемых параметрах: векторе математических ожиданий и ковариационной матрице.

Однако моделирование случайных векторов с произвольным распределением до сих пор остается нерешенной проблемой, так как реализация известных общих подходов для решения этой задачи обычно приводит либо к непреодолимым практическим трудностям [51], либо огромным вычислительным затратам для получения больших объемов выборок, например, при использовании метода исключений.

Поэтому возникает потребность в разработке процедуры моделирования многомерных величин, распределенных по законам, отличным от нормального, с заданными математическим ожиданием и ковариационной матрицей, а для задач исследования критериев корреляционного анализа еще и с некоторой заданной мерой близости к многомерному нормальному закону.

В работе [60] Кирьяновым Б. Ф. предложен метод моделирования случайных векторов с произвольным, но одинаковым для всех координат одномерным законом распределения и с заданной ковариационной матрицей. Такой подход базируется на реализации системы линейных разностных уравнений со случайными коэффициентами. Однако, как отмечает сам автор, реализация указанных разностных уравнений приводит к корреляции между последовательно генерируемыми векторами, что во многих случаях недопустимо.

В данной работе предлагается процедура моделирования многомерных величин, распределенных по законам, отличным от нормального, с заданными математическим ожиданием и ковариационной матрицей [72]. Она базируется на подходе, используемом для нормальных случайных векторов [49,51], и выборе <<удобного>> одномерного закона распределения для всех координат моделируемого вектора. В качестве одномерного закона используется семейство симметричных распределений (6.4).

К сожалению, реализованная процедура не позволяет моделировать многомерный закон с некоторой произвольной функцией распределения, на <<заданном>> расстоянии (определяемом в смысле некоторой меры) от многомерного нормального закона. Однако мы можем построить датчик, генерирующий псевдослучайные векторы по закону, отличающемуся от нормального (в соответствии с процессом моделирования), с известными математическим ожиданием и ковариационной матрицей. К тому же, на практике, при наблюдении выборок многомерных случайных векторов вставал бы вопрос об определении закона, которому они принадлежат. А покоординатный анализ сводится к одномерному случаю, который достаточно хорошо исследован и изучен.

Таким образом, на настоящем этапе исследований предложено направление решения задачи по моделированию закона с заданными математическим ожиданием и ковариационной матрицей с введением параметра в качестве меры различия между моделируемым и многомерным нормальным законами распределений.

1.5. Выводы

В данной главе диссертации рассмотрены некоторые критерии классического корреляционного анализа, связанные с проверкой гипотез о математическом ожидании, ковариационной матрице, парном, частном и множественном коэффициентах корреляции, из которых очевидна актуальность решения следующих задач:

·         исследование эмпирических распределений статистик корреляционного анализа в случае многомерного нормального закона для выявления скорости их сходимости к соответствующим предельным распределениям;

·         моделирование <<удобным>> способом многомерного закона, отличного от нормального;

·         исследование распределений различных статистик классического корреляционного анализа в случае законов распределений, отличных от многомерного нормального.


Глава 2. Исследование критериев проверки гипотез о математических ожиданиях и дисперсиях при вероятностных законах, отличающихся от нормального

 

При поверке измерительных приборов, в задачах контроля качества и в других приложениях часто возникает необходимость в проверке статистических гипотез о значении математического ожидания  или о значении дисперсии . В основе применяемого классического аппарата проверки гипотез такого вида лежит предположение о принадлежности наблюдаемых данных (ошибок измерений) нормальному закону распределения. В то же время, не секрет, что ошибки измерений приборов и систем во многих случаях не удается удовлетворительно описать моделью нормального закона [97]. Необходимость проверки гипотез о математических ожиданиях и дисперсиях при нарушении предположений о нормальности наблюдаемого закона встречается во многих приложениях. Насколько корректно в этом случае применение классического аппарата проверки данных гипотез? Когда можно без боязни использовать классические критерии, а когда их применение является некорректным, и как следует поступать в данном случае?

В работе [58] обобщены теоретические исследования Бартлетта, Гири и Гейена, в которых рассматривались вопросы об устойчивости критериев проверки гипотез о математических ожиданиях по отношению к виду наблюдаемого закона и содержатся указания на существенную зависимость от вида закона критериев проверки гипотез о дисперсиях. Сведения, которые практик может почерпнуть из этого, сводятся к тому, что при нарушении нормальности нельзя использовать классические результаты для проверки гипотез о дисперсиях, а для проверки гипотез о математических ожиданиях, по-видимому, можно, но с долей осторожности.

Целью данной главы явилось стремление установить при помощи численных исследований, что происходит с распределениями классических статистик, используемых в критериях проверки гипотез о математических ожиданиях и дисперсиях, если наблюдаемый закон в той или иной мере отличается от нормального; проверить, насколько будут корректны статистические выводы, базирующиеся на классических результатах, если нарушено предположение о нормальности; дать в руки исследователя необходимый математический аппарат, обеспечивающий корректность выводов при законах распределения, существенно отличающихся от нормального [76,80,107].

2.1. Классические критерии проверки гипотез о математических ожиданиях и дисперсиях

Пусть мы имеем выборку  случайных величин, распределенных по нормальному закону . В этом случае задачи проверки гипотез о математических ожиданиях и дисперсиях формулируются следующим образом.

В критерии проверки гипотез вида  при известной дисперсии  используется статистика

                                                                                                                                                                             (2.1)

которая при справедливости гипотезы  подчиняется нормальному распределению:  [123]. Проверяемая гипотеза  отклоняется при больших отклонениях  от .

Для проверки гипотезы  при неизвестной дисперсии  используется статистика

                                                                                                                                                                     (2.2)

где , . При справедливости  статистика  распределена как  — распределение Стьюдента [123].

Для проверки гипотезы вида  при известном математическом ожидании  вычисляется статистика

                                                                                                                                                        (2.3)

условным распределением которой является  — распределение [123].

В критерии проверки гипотезы вида  при неизвестном математическом ожидании  используется статистика

                                                                                                                                                           (2.4)

подчиняющаяся  — распределению [123].

Для иллюстрации работоспособности применяемой методики исследований приведем результаты моделирования эмпирических распределений данных статистик в случае нормального закона регистрируемых наблюдений. В дальнейшем  указывает на объемы смоделированных выборок статистик рассматриваемых критериев.

Рис. 2.1. Эмпирические и теоретические функции распределения статистик ,  при проверке гипотезы  при известной () и неизвестной дисперсии: ;

Рис. 2.2. Эмпирические и теоретические функции распределения статистик  и  при проверке гипотезы  при известном () и неизвестном математическом ожидании: ;

В качестве примера рассмотрены распределения статистик , , ,  при проверяемых гипотезах  и . На рис. 2.1 отражены полученные в результате моделирования эмпирические распределения статистик ,  и теоретические распределения данных статистик при нормальности наблюдаемого закона. Видно, что смоделированные распределения статистик, используемых при проверке гипотез о значении математического ожидания, визуально совпадают со своими предельными законами: нормальным и  — распределением Стьюдента. Количественной мерой близости полученных эмпирических распределений статистик и теоретических предельных служат достигнутые уровни значимости  по критериям согласия  Пирсона, Колмогорова,  Крамера– Мизеса"– Смирнова,  Андерсона"–  Дарлинга [111,112], где  — статистика соответствующего критерия согласия,  — ее значение, вычисленное по конкретной выборке исследуемых статистик. Чем больше достигнутый уровень значимости, чем ближе он к 1, тем лучше согласуется эмпирическое распределение статистики с теоретическим. Приведенные в таблице на рис. 2.1 значения достигнутых уровней значимости  для статистик  и  говорят об очень высокой близости полученных в результате моделирования эмпирических распределений статистик к предельным. Аналогичная картина наблюдается на рис. 2.2, где приведены результаты моделирования распределений статистик , , используемых в критериях проверки гипотез о значениях дисперсии.

2.2. Распределения статистик , , ,  при нарушении предположений о нормальности

В работе [68] распределения статистик ,  были исследованы в случае принадлежности наблюдаемых случайных величин распределениям экстремальных значений, логистическому и Лапласа. В данном случае рассмотрено распределение, более перспективное для описания ошибок измерений. Очень хорошей моделью для закона распределения ошибок конкретной измерительной системы иногда оказывается распределение из семейства с плотностью (6.4) и параметром формы , так как данное семейство охватывает широкий класс симметричных законов.

Далее будем рассматривать распределения статистик , , ,  в случае принадлежности наблюдаемых случайных величин указанному семейству распределений , . Предельные распределения статистик , , ,  известны только для частного случая этого семейства при  (нормального закона).

Для статистик, вычисляемых по выборкам случайных величин , , распределенных по семейству (6.4) с параметром формы , введем обозначения .

Результаты моделирования выборок статистик  и , где параметр  изменялся в диапазоне от 1 до 10, показали, что значимого изменения предельных распределений статистик  и , используемых в критериях проверки гипотез о значениях математического ожидания (при известной и неизвестной дисперсии), не происходит.

Рис. 2.3. Эмпирические и теоретические функции распределения статистик  и  при проверке гипотезы  при известной () и неизвестной дисперсии: ;

На рис. 2.3 в качестве примера представлены графики теоретических предельных, соответствующих классическому случаю, и полученных эмпирических функций распределения статистик  и  для объемов выборок , используемых при проверке гипотезы  при известной () и неизвестной дисперсиях. Визуальная близость распределений статистик, построенных в случае принадлежности выборок семейству (6.4), к предельным (классическим) распределениям, полученным для нормального закона, позволяет отметить, что значимого изменения распределений статистик не произошло. Это же подтверждает применение критериев согласия для проверки значимости отклонений смоделированных эмпирических распределений статистик  и  от классических предельных распределений (при нормальном законе наблюдаемых величин). Достигнутые уровни значимости  представлены в таблице 2.1.

Таблица 2.1. Значения достигнутых уровней значимости критериев согласия для примера на рис. 2.3

Результаты исследований распределений статистик  и  позволяют утверждать, что в случае отклонений наблюдаемого закона от нормального (при сохранении симметричности), использование классических предельных распределений для статистик  и  не нарушает корректности выводов статистического анализа при проверке гипотез вида .

Рис. 2.4. Эмпирическая и теоретическая функции распределения статистики , смоделированной по распределению минимального значения, при проверке гипотезы  для известной дисперсии (): ;

В случае несимметричных законов наблюдаемых величин, например, при распределениях экстремальных значений, распределения статистик  и  претерпевают значимые изменения, которые можно заметить как визуально, так и с использованием критериев согласия. Соответствующий пример демонстрирует картина, представленная на рис. 2.4. Пример свидетельствует все-таки об ограниченной области устойчивости критериев проверки гипотез о математическом ожидании. В таблице на рисунке приведены достигнутые значения уровня значимости, которые свидетельствуют, что, не смотря на визуальную близость эмпирического распределения статистики к теоретическому, в данном случае гипотеза о нормальности статистики  при уровне значимости  должна быть отклонена.

Рис. 2.5. Теоретическая и эмпирические функции распределения статистики  при проверке гипотезы  при известном () математическом ожидании: ;

Рис. 2.6. Теоретическая и эмпирические функции распределения статистики  при проверке гипотезы  при неизвестном математическом ожидании: ;

В отличие от  и  распределения статистик  и , используемых в критериях проверки гипотез о дисперсии, как в случае известного математического ожидания, так и в случае неизвестного очень чувствительны к виду наблюдаемого закона распределения. Иллюстрацией к сказанному являются рисунки 2.5 и 2.6, на которых изображены графики эмпирических функций распределений статистик  и , смоделированных при семействе распределений (6.4) с параметром формы  равным 1 и 10. На рисунках приведены также предельные распределения статистик  и  в случае нормального закона ( и  — распределения, соответственно).

Из представленной на рис. 2.5 картины очевидно, что распределения статистики , смоделированные при выборках случайных величин, принадлежащих семейству распределений (6.4) с параметром формы не равным 2, существенно отличаются от предельного распределения, полученного для нормального закона. Аналогичную зависимость от вида наблюдаемого закона демонстрирует статистика  при проверке гипотезы о значении дисперсии при неизвестном математическом ожидании (см. рис. 2.6).

Результаты проведенных исследований говорят о том, что распределения статистик, используемых при проверке гипотез о дисперсии (математическое ожидание известно или неизвестно), значимо отличаются от классических предельных при отклонениях наблюдаемого закона от нормального. Поэтому при использовании классических процедур для проверки гипотез о дисперсии целесообразно удостовериться в том, что наблюдаемый закон является нормальным, применяя соответствующие критерии проверки нормальности.

Таким образом, приводимые результаты показывают, с одной стороны, высокую устойчивость к отклонениям от нормальности наблюдаемых величин критериев проверки гипотез о математических ожиданиях. А, с другой стороны, — неустойчивость критериев, используемых при проверке гипотез о дисперсиях. В то же время результаты подтверждают возможность построения моделей предельных распределений для статистик  и  при произвольных наблюдаемых законах случайных величин, что актуально для различных приложений задач статистического анализа данных.

Для построения приближенных моделей, наилучшим образом описывающих распределения статистик  и  при конкретных значениях  и , принципиальных трудностей нет. К сожалению, не удается построить аналитические модели распределений данных статистик с параметрами, зависящими от  и . Поэтому на основании результатов статистического моделирования были вычислены таблицы верхних процентных точек (квантилей) для ряда значений  и . Процентные точки рассчитывались по выборкам значений статистик достаточно больших объемов (,  и ), а затем усреднялись по ряду экспериментов.

Полученные процентные точки для статистик  и  при параметре формы  семейства распределений (6.4), равном 1, 1.5, 3, 4, 5 и 10 приведены в таблицах 2.2 и 2.3 соответственно. Значения процентных точек при параметре формы , приведенные в таблицах, соответствуют предельным распределениям статистик при нормальном законе наблюдаемых величин.


Таблица 2.2. Верхние процентные точки для статистики  в случае принадлежности наблюдаемого закона семейству распределений (6.4) с параметром формы 

 

 

l = 1

l = 1,5

l = 2

l = 3

l = 4

l = 5

l = 10

n = 15

a 0,15

22,94

21,45

20,64

19,76

19,39

19,18

18,81

a 0,1

25,98

23,54

22,34

21,06

20,58

20,28

19,77

a 0,05

31,38

26,98

25,01

23,08

22,41

21,96

21,22

a 0,025

37,02

30,23

27,46

24,88

24,04

23,45

22,51

a 0,01

44,36

34,40

30,59

27,03

26,00

25,21

24,02

n = 30

a 0,15

41,85

39,31

38,01

36,79

36,21

35,89

35,37

a 0,1

45,97

42,09

40,26

38,60

37,84

37,41

36,71

a 0,05

52,92

46,49

43,80

41,37

40,28

39,70

38,70

a 0,025

59,56

50,59

46,97

43,80

42,47

41,72

40,46

a 0,01

68,51

55,65

50,88

46,78

45,08

44,15

42,52

n = 50

a 0,15

65,86

62,02

60,30

58,77

58,02

57,60

56,91

a 0,1

70,83

65,50

63,15

61,00

60,04

59,51

58,61

a 0,05

78,47

70,91

67,51

64,42

63,10

62,36

61,17

a 0,025

85,83

75,66

71,34

67,51

65,86

64,94

63,39

a 0,01

95,36

81,92

76,15

71,24

69,22

67,98

66,05

n = 100

a 0,15

122,67

116,99

114,57

112,34

111,27

110,69

109,77

a 0,1

129,31

121,54

118,47

115,47

114,13

113,38

112,15

a 0,05

139,98

128,64

124,29

120,07

118,37

117,38

115,67

a 0,025

149,80

135,17

129,33

124,27

122,14

120,90

118,78

a 0,01

162,04

143,38

135,95

129,27

126,64

125,05

122,42

 

Таблица 2.3. Верхние процентные точки для статистики  в случае принадлежности наблюдаемого закона семейству распределений (6.4) с параметром формы 

 

 

l = 1

l = 1,5

l = 2

l = 3

l = 4

l = 5

l = 10

n = 15

a 0,15

21,49

20,16

19,40

18,65

18,34

18,14

17,82

a 0,1

24,38

22,19

21,03

19,95

19,53

19,26

18,80

a 0,05

29,52

25,46

23,65

21,92

21,34

20,94

20,27

a 0,025

34,79

28,64

26,12

23,71

22,95

22,41

21,56

a 0,01

41,88

32,70

29,25

25,85

24,94

24,22

23,09

n = 30

a 0,15

40,54

38,09

36,88

35,71

35,17

34,89

34,39

a 0,1

44,53

40,83

39,11

37,49

36,79

36,42

35,73

a 0,05

51,36

45,20

42,60

40,25

39,25

38,71

37,73

a 0,025

57,85

49,20

45,74

42,70

41,41

40,77

39,51

a 0,01

66,49

54,21

49,59

45,61

44,01

43,13

41,60

n = 50

a 0,15

64,62

60,90

59,24

57,70

56,99

56,59

55,92

a 0,1

69,58

64,30

62,06

59,95

59,01

58,51

57,63

a 0,05

77,18

69,65

66,39

63,35

62,07

61,37

60,17

a 0,025

84,42

74,42

70,20

66,46

64,79

63,96

62,41

a 0,01

93,75

80,63

74,94

70,21

68,13

66,98

65,05

n = 100

a 0,15

121,51

115,87

113,54

111,29

110,26

109,71

108,77

a 0,1

128,08

120,45

117,35

114,43

113,11

112,39

111,15

a 0,05

138,70

127,50

123,22

119,07

117,36

116,38

114,67

a 0,025

148,27

134,04

128,29

123,18

121,07

119,87

117,79

a 0,01

160,22

142,27

134,71

128,13

125,55

124,04

121,34

 

2.3. Выводы

Таким образом, численные исследования подтвердили теоретические результаты, приведенные в [58], а именно: устойчивость распределений статистик  и , используемых в критериях проверки гипотез о математических ожиданиях, к отклонениям наблюдаемого закона от нормального и неустойчивость распределений статистик , . Эмпирические распределения статистик  и  хорошо согласуются с предельными, полученными в предположении о нормальности наблюдаемого закона. Это позволяет на практике корректно применять классические результаты при наблюдаемых законах, существенно отличающихся от нормального. В частности, в таких ситуациях можно уверенно руководствоваться стандартом [39].

Полученные в данном разделе результаты подчеркивают общую закономерность: критерии, связанные с проверкой гипотез о математических ожиданиях устойчивы к отклонениям наблюдаемых величин от нормального закона. Это было показано при исследовании распределений статистик, используемых при проверке гипотез о векторе математических ожиданий многомерного закона распределения [74].

В то же время, как предполагалось [58], распределения статистик  и  очень существенно зависят от вида наблюдаемого закона. Если наблюдаемый закон значимо отличается от нормального, использование классических результатов для данных критериев недопустимо, так как такая попытка неизбежно приведет к некорректным выводам. В тех ситуациях, когда хорошей моделью для наблюдаемых случайных величин оказывается семейство симметричных распределений (6.4) с параметром формы , можно воспользоваться таблицами процентных точек, полученными в данной главе.

 

 

 


Глава 3. Исследование критериев проверки гипотез о векторе математических ожиданий и ковариационной матрице

 

В данном разделе методами компьютерного моделирования исследуются распределения статистик критериев проверки гипотез о векторе математических ожиданий и ковариационной матрице при наблюдении случайных величин, подчиняющихся различным многомерным законам распределения [70, 71, 73–75, 78, 79, 83].

3.1. Классические критерии проверки гипотез о векторе математических ожиданий и ковариационной матрице

3.1.1. Проверка гипотез о векторе математических ожиданий

Одной из важных статистических проблем является проблема проверки гипотезы о том, что вектор среднего значения нормального распределения является данным вектором . Такая задача очень часто возникает на практике, когда, например, на основании наблюдений некоторого технологического процесса желают убедиться, что эти показатели равны номинальному значению , т.е. процесс протекает нормально, а отклонения наблюдаемых значений от номинальных объясняются лишь ошибками наблюдений (измерений). При решении этой задачи возможны две ситуации: ковариационная матрица  может быть известна из ранее проводимых экспериментов, или неизвестна, тогда в процессе вычислений для нее будет построена оценка.

Для проверки гипотезы  в зависимости от априорной информации могут использоваться различные критерии.

Ковариационная матрица  известна. В этом случае вычисляется статистика

                                                                                                                                 (3.1)

которая при справедливой гипотезе  в качестве предельного распределения  имеет –распределение, с числом степеней свободы  [33].

Ковариационная матрица  неизвестна. Тогда в критерии проверки гипотезы используется статистика

                                                                                                                   (3.2)

которая при справедливости гипотезы  в пределе подчиняется распределению Фишера с параметрами  и :  [33].

3.1.2. Проверка гипотез о ковариационной матрице

Не менее важной задачей классического корреляционного анализа (вектор  принадлежит нормальному закону) является проверка гипотезы о ковариационной матрице , где  "— номинальное значение ковариационной матрицы. В этом случае подразумевается, что вектор математических ожиданий будет оцениваться по данной выборке. Если одновременно проверяется гипотеза и о векторе математических ожиданий, тогда проверяемая гипотеза имеет вид .

В критериях проверки данных гипотез используются следующие статистики.

Если проверяется гипотеза  (математическое ожидание  неизвестно), тогда вычисляется статистика

                                                                                              (3.3)

где

                                                                         

При справедливости гипотезы  данная статистика имеет –распределение с числом степеней свободы :  [33].

Если проверяется гипотеза , то используется статистика,

                                                                                          (3.4)

которая при справедливой гипотезе  в качестве предельного распределения  имеет  – распределение, с числом степеней свободы  [33].

Подчеркнем, что рассмотренные выше статистики имеют в качестве предельных указанные распределения лишь при наблюдении многомерного нормального закона. Как изменятся предельные распределения статистик, если наблюдаемый многомерный закон отличается от нормального, заранее сказать нельзя.

3.2. Исследование распределений статистик критериев в случае принадлежности наблюдений нормальному закону

На первом этапе методами статистического моделирования исследовались распределения статистик корреляционного анализа при условии, что наблюдения принадлежат многомерному нормальному закону. Близость получаемых эмпирических распределений статистик, в данном случае, известным предельным законам, является основанием, подтверждающим корректность применения используемой методики при анализе достоверности результатов последующих исследований.

Моделирование и исследование эмпирических распределений статистик классического корреляционного анализа показало, что они хорошо согласуются с соответствующими теоретическими предельными распределениями.

Рис. 3.1. Эмпирическая и теоретическая функции распределения статистики  при проверке гипотезы  (ковариационная матрица известна): ,

Например, на рис. 3.1 представлены полученное в результате моделирования эмпирическое распределение статистики  (3.1) и соответствующее предельное  — распределение при проверке гипотезы  (ковариационная матрица  известна) для размерности  и объеме выборки , где использовались

                                                                

Рисунок дополнен таблицей, где отражены результаты проверки согласия эмпирического распределения с теоретическим предельным по критериям  Пирсона, Колмогорова,  и  Мизеса [43,85]: по каждому из критериев приведен достигнутый уровень значимости , где  — предельное распределение статистики  соответствующего критерия согласия при справедливости проверяемой гипотезы .

В ходе исследований объемы выборок значений статистик , формируемых в результате моделирования, если не оговариваются явно, в данном разделе и далее предполагаются равными 5000.

Рис. 3.2. Эмпирическая и теоретическая функции распределения статистики  при проверке гипотезы  (математическое ожидание неизвестно): ,

На рис. 3.2 приведен пример, где отображены полученная в результате моделирования эмпирическая и теоретическая функции распределения статистики , используемой для проверки гипотезы  (математическое ожидание неизвестно), где использовались следующие значения параметров  и ,

                                                                                 

Приведенные примеры подтверждают, что эмпирические распределения статистик, используемых в критериях проверки гипотез о векторе математических ожиданий и ковариационной матрице при наблюдении многомерного нормального закона распределения, действительно хорошо описываются соответствующими предельными законами, полученными в [33]. Аналогичная картина, подтверждающая очень хорошее согласие смоделированных эмпирических распределений статистик с классическими предельными, наблюдается и для распределений статистик  (3.2) и  (3.4).

Исследование сходимости распределений рассматриваемых статистик к предельным в зависимости от объема выборки  многомерного нормального закона показало, что для статистик [ (3.1),  (3.3) и  (3.4)], параметры предельных распределений которых не зависят от объема выборки, эмпирические распределения статистик оказываются близки к предельным уже при выборках сравнительно небольшого объема . Так, у статистики  высокий достигаемый уровень значимости по критериям согласия наблюдается, начиная с объемов выборки , а для статистик  и  — с .

Предельное распределение статистики  зависит от объема выборки случайной величины . Поэтому предельное распределение как бы <<подстраивается>> под объем выборки случайного вектора. Вследствие этого уже при малых объемах выборок  наблюдаются достаточно высокие достигаемые уровни значимости при проверке соответствия эмпирических распределений статистик предельным законам по критериям согласия.

Отметим, что при исследовании не было выявлено существенного влияния размерности случайного вектора  на сходимость распределений соответствующих статистик к предельным. Исследования проводились для размерности случайного вектора в диапазоне .

3.3. Исследование распределений статистик при законах, отличающихся от нормального

Далее проводились исследования распределений статистик для законов многомерных величин, моделируемых в соответствии с предложенной и описанной в главе 6 процедурой. Процедура моделирования опирается на семейство распределений (6.4) и позволяет генерировать псевдослучайные векторы, подчиняющиеся многомерным симметричным законам, более островершинным () или более плосковершинным () по сравнению с нормальным законом. Исследования были проведены при значениях параметра . Это ограничение обусловлено тем, что предельным случаем семейства распределений (6.4) при  является распределение Коши, которое представляет собой пример <<патологического>> распределения: не существует математического ожидания и дисперсия расходится. Поэтому в результате моделирования псевдослучайных векторов при параметре  мы получаем закон с ковариационной матрицей близкой к вырожденной.

Распределения статистик корреляционного анализа при многомерных законах, отличающихся от нормального и моделируемых в соответствии с предлагаемой процедурой, базирующейся на семействе распределений (6.4) с параметром формы , определяющим вид закона, исследовались при различных объемах выборок  и различной размерности  случайных величин. Ниже приведены примеры моделирования распределений исследуемых статистик с отражением соответствующих предельных распределений классических статистик. На рисунках представлены значения достигнутых уровней значимости по критериям  Пирсона, Колмогорова,  и  Мизеса при проверке согласия полученных в результате моделирования эмпирических распределений статистик с предельными распределениями классических статистик.

Для статистик, вычисляемых по выборкам псевдослучайных векторов, смоделированных с использованием параметра формы , введем новые обозначения, где в скобках отразим зависимость распределения статистики от параметра . Например, для статистики  будем использовать новое обозначение .

Рис. 3.3. Распределение статистики  и классическое предельное – распределение (, )

Рис. 3.4. Распределение статистики  и классическое предельное – распределение (, )

На рис. 3.3 показан вид распределения статистики  в случае закона, смоделированного при параметре . Высокие достигнутые уровни значимости по всем критериям согласия и визуальная близость полученного эмпирического распределения статистики  и предельного в случае многомерного нормального закона  — распределения, позволяют утверждать, что вид предельного распределения статистики значимо не изменился. Аналогичная картина видна на рис. 3.4, где показаны эмпирическое распределение статистики  и предельное в классическом случае распределение Фишера.

Отметим, что при моделировании (6.6)– (6.7) многомерных величин по несимметричным одномерным законам (в качестве примеров рассматривалась принадлежность , распределениям экстремальных значений) распределения статистик, используемых в критериях проверки гипотез о векторе математических ожиданий, по–прежнему хорошо описываются предельными распределениями, полученными в предположении о нормальности наблюдаемой выборки.

Проведенные исследования распределений статистик  и  показали, что в случае многомерных законов, достаточно существенно отличающихся от нормального (более островершинных или более плосковершинных, и даже в случае многомерного закона, построенного по несимметричному одномерному распределению), значимого изменения предельных распределений статистик не происходит. Это позволяет утверждать, что статистические выводы, опирающиеся на классический аппарат в исследованных задачах корреляционного анализа о векторе математических ожиданий, будут оставаться корректными и при нарушении предположений о нормальности наблюдаемого многомерного закона при условии существования вектора математических ожиданий и невырожденности ковариационной матрицы.

Рис. 3.5. Распределения статистик ,  и предельное распределение статистики : – распределение (, )

Рис. 3.6. Распределения статистик ,  и предельное распределение статистики : – распределение (, )

В отличие от  и  распределения статистик  и , используемых в критериях проверки гипотез о ковариационной матрице, как в случае известного вектора математических ожиданий, так и в случае неизвестного, очень чувствительны к виду наблюдаемого закона распределения. Это хорошо видно на приведенных в качестве примера рисунках 3.5 и 3.6, на которых отображены графики эмпирических распределений статистик ,  и предельные распределения статистик ,  в случае нормального закона ( и  — распределения, соответственно).

Так, из представленной на рис. 3.5 картины очевидно, что эмпирические распределения статистики , смоделированные при значении параметра формы 1 и 10 семейства распределений (6.4), существенно отличаются от предельного распределения статистики , полученного в случае принадлежности наблюдений многомерному нормальному закону. Аналогичную зависимость от вида наблюдаемого закона демонстрирует статистика  при проверке гипотезы о ковариационной матрице и математическом ожидании  (см. рис. 3.6).

Результаты проведенных исследований говорят о том, что распределения статистик, используемых при проверке гипотез о ковариационной матрице, значимо отличаются от классических предельных при отклонениях наблюдаемого закона от многомерного нормального. Поэтому при использовании классических процедур для проверки гипотез о ковариационной матрице, также как в одномерном случае при проверке гипотез о дисперсии, целесообразно удостовериться в том, что наблюдаемый закон является нормальным, применяя соответствующие критерии проверки нормальности.

Для проверки предположения об устойчивости статистик  и  к отклонению наблюдаемого закона от нормального, было проведено исследование распределений данных статистик в случае многомерного распределения Стьюдента (6.19). Напомним, что с ростом числа степеней свободы () распределение Стьюдента стремится к нормальному закону.

Рис. 3.7. Распределение статистики , построенной по многомерному закону Стьюдента с числом степеней свободы , и классическое предельное – распределение (, )

Рис. 3.8. Распределение статистики , построенной по многомерному закону Стьюдента с  степенями свободы, и классическое предельное – распределение (, )

На приведенном рис. 3.7 видно, что, действительно, эмпирическое распределение статистики  в случае принадлежности наблюдаемой многомерной случайной величины распределению Стьюдента хорошо описывается –  распределением. Здесь статистика  была построена по распределению Стьюдента с числом степеней свободы  и следующих параметрах моделирования: , .

Отметим, что в случае принадлежности случайного вектора многомерному распределению Стьюдента статистика  хорошо описывается классическим  распределением, что отображено на рисунке 3.8.

При малых значениях степеней свободы  распределения статистик  и  претерпевают незначительные изменения, что сказывается на достигаемых уровнях значимости по критериям согласия. Предположительно, такое изменение распределений статистик обусловлено <<утяжелением хвостов>> распределения Стьюдента. При  распределение Стьюдента представляет собой распределение Коши. А ранее уже отмечалось изменение предельных распределений статистик  и  при многомерных законах, построенных по семейству распределений (6.4) с параметром формы .

Рис. 3.9. Эмпирические распределения статистики , построенной по многомерному закону Стьюдента с числами степеней свободы ,  и , и классическое предельное "– распределение ()

Полученные результаты для многомерного распределения Стьюдента не опровергают ранее сделанных предположений об устойчивости критериев проверки гипотез о векторе математических ожиданий к отклонению наблюдаемого многомерного закона от нормального. Распределения статистик критериев проверки гипотез о ковариационной матрице, как и ожидалось, сильно зависят от вида многомерного закона. Поэтому распределения статистик  и  стремятся к классическим предельным только при очень больших значениях числа степеней свободы  (когда распределение Стьюдента по виду очень близко к нормальному закону). В качестве примера на рисунке 3.9 показано, что распределение статистики , моделируемой по двумерному закону Стьюдента при очень большом значении числа степеней свободы , уже достаточно хорошо описывается предельным классическим – распределением статистики (3.3).

3.4. Уточнение моделей распределений статистик рассматриваемых критериев

Как показано выше, распределения статистик, используемых в критериях проверки гипотез о векторе математических ожиданий, при существенном отличии наблюдаемого закона от нормального незначимо отличаются от предельных распределений, полученных в классическом случае. Результаты моделирования распределений статистик  и  в случае принадлежности многомерных величин законам, отличающимся от нормального, показали, что эмпирические распределения статистик очень хорошо согласуются с предельными законами, полученными в предположении о нормальности многомерного случайного вектора. Нет оснований для отказа от использования в качестве предельных в соответствующих случаях распределений  или Фишера.

Распределение  представляет собой частный случай гамма – распределения, F – распределение Фишера — частный случай бета – распределения 2-го рода. Если, например, действительно  – распределение является предельным распределением некоторой статистики и в том случае, когда нарушается предположение о нормальности наблюдаемой многомерной величины, а мы для выравнивания эмпирического распределения статистики каждый раз будем использовать гамма – распределение, оценивая его параметры по выборке статистики, то модель гамма – распределения с параметрами, полученными усреднением по множеству экспериментов, должна привести нас к соответствующему  – распределению.

Исходя из вышесказанного, мы попытались уточнить модели распределений статистик  и  следующим образом. Моделировалась выборка интересующей нас статистики, как правило, объемом в  наблюдений. Эмпирическое распределение статистики сглаживалось соответствующей моделью (гамма – распределением, бета – распределением) с оцениванием ее параметров. Такой эксперимент повторялся несколько десятков раз. Параметры моделей усреднялись по всей совокупности экспериментов. Если вид модели соответствует предельному распределению статистики, то среднее арифметическое вектора параметров модели должно сходиться к истинному значению вектора параметров. Например, от модели гамма"– распределения будем приходить в соответствующем случае к ее частному случаю "– распределению.

Предельным распределением классической статистики  является "– распределение (3.1), где  "— размерность многомерного вектора. Это соответствует гамма"– распределению с плотностью

                                                                                                                                                 (3.5)

с параметром формы  и параметром масштаба .

Таблица 3.1. Оценки параметров выравнивающего гамма"– распределения для статистики , построенной по многомерным законам с различными  ()

 

Параметры

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 3.2. Оценки параметров выравнивающего бета"– распределения для статистики , построенной по многомерным законам с различными  ( и )

 

Параметры

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

В таблице 3.1 представлены усредненные по 50 смоделированным выборкам статистики  значения параметров модели гамма"– распределения, аппроксимирующего распределение статистики в случае законов многомерных величин, моделируемых при различных значениях параметра датчика  ( соответствует нормальному закону). В данном примере размерность моделируемых многомерных величин . Напомним, что значимого влияния размерности  на сходимость распределения статистики  к предельному выявлено не было. Очевидно, что значения параметров в случае наблюдения нормального закона сходятся к значениям  и  соответственно, что соответствует "– распределению. По крайней мере, нет оснований для отклонения данного предположения.

При проверке аналогичной гипотезы при неизвестной ковариационной матрице предельным распределение статистики  является – распределение. Данному случаю соответствует бета– распределение 2-го рода, плотность которого имеет вид

                                                                                                          (3.6)

с масштабным параметром , параметрами формы  и .

Представленные в таблице 3.2 усредненные по 50 смоделированным выборкам статистики  значения параметров бета– распределения (при  и ) показывают аналогичную картину сходимости. Очевидно, что значения параметров бета– распределения в случае наблюдения нормального закона сходятся к значениям , , , что соответствует F"– распределению Фишера с числом степеней свободы 3 и 27.

Таким образом, уточнение моделей распределений статистик  и  еще раз подтверждает предположение об устойчивости соответствующих критериев к отклонению от нормальности.

Таблица 3.3. Оценки параметров гамма – распределений, используемых в качестве моделей распределений статистики , построенной по многомерным законам с различными

 

Параметры

 

 

 

 

 

 

 

 

 

 

 

4.21

1.46

2.00

1.50

1.68

1.49

1.45

1.50

1.48

1.43 

 

3.83

2.71

2.00

3.00

1.74

2.97

1.70

2.85

1.69

2.77 

 

3.58

4.43

2.00

5.00

1.80

4.99

1.78

4.84

1.75

4.80 

 

-

-

2.00

7.50

1.84

7.50

1.87

7.08

1.85

7.00 

 

Таблица  3.4. Оценки параметров гамма – распределений, используемых в качестве моделей распределений статистики , построенной по многомерным законам с различными

 

Параметры

 

 

 

 

 

 

 

 

 

 

 

3.53

2.25

2.00

2.50

1.80

2.46

1.73

2.42

1.72

2.40 

 

3.36

3.99

2.00

4.50

1.87

4.38

1.81

4.36

1.83

4.20 

 

3.31

6.05

2.00

7.00

1.86

7.02

1.89

6.66

1.84

6.72 

 

3.22

8.55

2.00

9.00

1.92

9.80

1.99

9.26

1.99

9.10 

 

В случае статистик  и , которые используются при проверке гипотез о ковариационной матрице, видна явная зависимость распределений данных статистик от вида наблюдаемого многомерного закона. Поэтому для распределений статистик  и  постарались найти подходящие аналитические модели законов. К сожалению, как и в одномерном случае [76,77], нам не удалось построить модели распределений данных статистик с параметрами, зависящими от . Поэтому на основании результатов статистического моделирования были найдены оценки параметров моделей законов, которые наилучшим образом (по критериям согласия) подходят для описания эмпирических распределений данных статистик. Оценки параметров распределений находились по выборкам значений статистик  и  достаточно больших объемов (), а затем усреднялись по ряду экспериментов.

Полученные оценки параметров гамма"– распределений, которые оказались наилучшими моделями для распределений статистик  и  при значениях параметра формы , равном 1, 3, 4 и 5, приведены в таблицах 3.3 и 3.4 соответственно. Значения параметров гамма"– распределения при , приведенные в таблицах, соответствуют предельным распределениям статистик при нормальном законе наблюдаемых величин.

Если наблюдается многомерный закон, отличный от нормального, а маргинальные функции плотности данного закона хорошо описываются семейством распределений (6.4), тогда при помощи таблиц 3.3 и 3.4 можно подобрать наилучшую модель для распределений статистик  и . Например, если в двумерном случае ковариационная матрица имеет диагональный вид, а маргинальные функции распределения описываются семейством распределений (6.4) при параметре формы равным 1, тогда в качестве предельного закона распределения статистики  можно использовать гамма – распределение с параметрами  и .

3.5. Выводы

Исследования эмпирических распределений статистик, используемых в критериях проверки гипотез о векторе математических ожиданий и ковариационной матрице, при псевдослучайных величинах, подчиняющихся многомерному нормальному закону, показали, что они хорошо согласуются с теоретическими предельными распределениями, полученными в классическом корреляционном анализе, и подтвердили эффективность методики исследований.

Исследования распределений статистик  и  в случае многомерных законов, отличающихся от нормального в достаточно широких пределах (более островершинных или более плосковершинных), показали, что значимого изменения предельных распределений статистик не происходит. Эмпирические распределения данных статистик по-прежнему хорошо описываются предельными законами, полученными в классическом корреляционном анализе в предположении о нормальности наблюдаемого вектора. Это существенно расширяет сферу корректного применения методов классического корреляционного анализа при проверке гипотез о векторе математических ожиданий в приложениях. Аналогичная ситуация наблюдается в одномерном случае: на распределениях статистик, вычисляемых при проверке гипотез вида  при известной и неизвестной дисперсии, отклонения от нормальности наблюдаемого одномерного закона сказываются незначительно.

Используемые в критериях проверки гипотез о ковариационной матрице многомерного закона статистики  и  существенно зависят от наблюдаемого многомерного закона, что и подтвердили проведенные исследования. Это согласуется с полученными результатами при моделировании распределений аналогичных статистик в одномерном случае (при проверке гипотез вида  при известном и неизвестном математическом ожидании). Для распределений статистик  и  были найдены аналитические модели законов, описывающие распределения этих статистик при определенных значениях размерности  и параметре формы . При необходимости аналогичные аналитические модели могут быть построены для любых интересующих нас значений параметров  и .

 

4. Исследование критериев проверки гипотез о коэффициентах корреляции

 

В классическом корреляционном анализе на основании исследований парных, частных и множественных корреляций можно делать выводы о характере статистической зависимости. Когда требуется определить взаимозависимость двух величин, исследуется парная корреляция. В случае, если интересует взаимозависимость двух величин, когда устранено воздействие остальных величин, то исследуется, так называемая, частная корреляция. А когда требуется рассмотреть зависимость единственной величины от группы других, исследуют множественную корреляцию. В этой главе исследуется устойчивость критериев, используемых в задачах о выявлении характера статистической зависимости между двумя или большим числом случайных величин при наблюдении различных многомерных законов распределения [70, 71, 73–75, 79].

4.1. Классические критерии проверки гипотез о коэффициентах корреляции

4.1.1. Проверка гипотез о коэффициентах парной корреляции

Взаимозависимость двух компонент случайного вектора характеризуется парным коэффициентом корреляции . Он представляет собой меру тесноты линейной связи. Известно, что независимость двух случайных величин влечет равенство , однако обратное утверждение в общем случае неверно. Что и представляет трудность интерпретации  как коэффициента взаимозависимости в общем случае. Однако, оно справедливо для совместно нормальных величин. Коэффициент корреляции можно использовать в качестве некоторой меры взаимозависимости для нормального закона. Если известна оценка ковариационной матрицы , то оценка парного коэффициента корреляции может быть найдена в соответствии с выражением

                                                                                                                                                                         (4.1)

 

В классическом корреляционном анализе относительно парного коэффициента корреляции могут проверяться два вида гипотез: о значимости коэффициента корреляции () и о равенстве его номинальному значению ().

В критерии проверки гипотезы  используется статистика

                                                                                                                                                                          (4.2)

которая при справедливости гипотезы  имеет в качестве предельного распределение Стьюдента с  степенями свободы:  [33].

В случае проверки гипотезы  вычисляется статистика

                                                                                     (4.3)

которая при справедливости гипотезы  в качестве предельного распределения  имеет стандартный нормальный закон  [33].

В [58] выдвинуто предположение о том, что критерий некоррелированности () можно строить без каких-либо предположений о нормальности исходного распределения.

Известно, что оценка для  является смещенной, когда , что видно из выражения [58]

                                                                     

Олкин и Прэтт [58] рекомендуют использовать несмещенную оценку в виде

                                                                                   .                                                                          (4.4)

4.1.2. Проверка гипотез о коэффициентах частной корреляции

Как ранее отмечалось, в случае двух нормальных или почти нормальных величин коэффициент корреляции между ними может быть использован в качестве меры взаимозависимости. Однако на практике при интерпретации <<взаимозависимости>> часто сталкиваются с трудностями, заключающимися в том, что, если одна величина коррелирована с другой, то это может быть всего лишь отражением того факта, что обе они коррелированы с некоторой третьей величиной или с совокупностью величин. Указанная возможность приводит к необходимости рассмотрения условных корреляций между двумя величинами при фиксированных значениях остальных величин. Это так называемые частные корреляции.

Если корреляция между двумя величинами уменьшается при фиксировании некоторой другой случайной величины, то это означает, что их взаимозависимость возникает частично через воздействие этой величины. Если же частная корреляция равна нулю или очень мала, то делается вывод, что их взаимозависимость целиком обусловлена этим воздействием. Наоборот, когда частная корреляция больше первоначальной корреляции между двумя величинами, то следует, что другие величины ослабляли связь, или, можно сказать, <<маскировали>> корреляцию. Но следует помнить, что даже в последнем случае нельзя предполагать наличие причинной связи, так как некоторая, совершенно отличная от рассматриваемых при анализе, величина может быть источником этой корреляции. Как при обычной корреляции, так и при частных корреляциях предположение о причинности должно всегда иметь внестатистические основания.

Представим случайный вектор  в следующем виде [33]:

                                                            

а вектор математических ожиданий и ковариационную матрицу соответственно в виде

                                                                          

Тогда если случайный вектор  подчиняется нормальному закону с вектором средних  и ковариационной матрицей , то условное распределение подвектора  при известном  является нормальным с математическим ожиданием  и ковариационной матрицей , где ,  [58].

ОМП для частного коэффициента корреляции определяется соотношением:

                                                                                                                                         (4.5)

где  — элемент -й строки и -го столбца матрицы , — число компонент в условном распределении, . В данном случае при оценке взаимозависимости между компонентами  и  случайной величины  исключается влияние компонент .

При проверке гипотез относительно частных коэффициентов корреляции вида  и  используются те же самые статистики, что и для парного коэффициента корреляции. Но в данном случае в соответствующих соотношениях  заменяется на .

В критерии проверки гипотезы  используется статистика

                                                                                                                                             (4.6)

которая при справедливой гипотезе  имеет в качестве предельного распределение Стьюдента с  степенями свободы:  [33,58].

В случае проверки гипотезы  вычисляемая статистика

                                                                                                                  (4.7)

при справедливой гипотезе  в качестве предельного распределения  имеет стандартное нормальное распределение  [33,58].

4.1.3. Проверка гипотезы о коэффициенте множественной корреляции

Множественный коэффициент корреляции является мерой зависимости компоненты многомерной случайной величины от некоторого множества компонент. Можно рассматривать корреляцию между одной компонентой случайного вектора и множеством всех остальных или каким-то подмножеством.

Следует отметить, что множественный коэффициент корреляции  случайной величины  относительно некоторого множества других случайных величин всегда не меньше, чем абсолютная величина любого парного коэффициента корреляции  с таким же первичным индексом. Более того, множественный коэффициент корреляции никогда нельзя уменьшить путем расширения множества величин, относительно которых измеряется зависимость .

Если коэффициент корреляции между  и множеством всех остальных компонент многомерной случайной величины равен нулю (), то все коэффициенты корреляции этой величины относительного любого подмножества также равны , т.е. величина  полностью некоррелирована со всеми остальными величинами.

С другой стороны, если  относительно множества всех остальных компонент равен единице , то, по крайней мере, один из коэффициентов корреляции относительно некоторого подмножества компонент должен быть равен 1.

Надо отметить, что коэффициент корреляции, например, между  и множеством всех остальных компонент является обычным коэффициентом корреляции между  и условным математическим ожиданием .

С учетом выше рассмотренного разбиения случайного вектора  ОМП множественного коэффициента корреляции между  и множеством компонент  определяется соотношением

                                                                                                                                                       (4.8)

где — i-ая строка матрицы , — элемент матрицы .

Для проверки гипотезы о значимости множественного коэффициента корреляции  вычисляется статистика

                                                                                                                                            (4.9)

предельным распределением  которой является — распределение Фишера с параметрами  и  [33,58].

4.2. Исследование распределений статистик критериев для различных многомерных законов

4.2.1. В случае принадлежности наблюдений многомерному нормальному закону

Как и ранее в первую очередь при помощи статистического моделирования нами исследовались распределения статистик, используемых при проверке гипотез о различных коэффициентах корреляции, на подчиненность соответствующим предельным распределениям в случае многомерного нормального закона. Проведенные экспериментальные исследования подтвердили хорошее согласие между получаемыми эмпирическими распределениями статистик критериев о коэффициентах корреляции и соответствующими предельными законами.

В процессе исследования сходимости распределений статистик к предельным в зависимости от объема выборки  нами были оценены объемы выборок нормальных псевдослучайных векторов, начиная с которых наблюдается близость эмпирической и теоретической функций распределений статистик. Так, у статистик  и  высокий достигаемый уровень значимости наблюдается, начиная с объемов выборки , а для статистик ,  и — с  (следствие зависимости предельных распределений данных статистик от ).

Рис. 4.1. Эмпирическая и теоретическая функции распределения статистики  (4.2) при проверке гипотезы , построенная с использованием параметров моделирования (4.10):

Рис. 4.2. Эмпирическая и теоретическая функции распределения статистики  (4.7) при проверке гипотезы , построенной с использованием параметров моделирования (4.10):

Продемонстрируем сказанное на двух примерах, со следующими наборами параметров моделирования

                                                                                                        (4.10)

 

                                                                                                    (4.11)

 

На рисунке 4.1 приведены в качестве примера полученная в результате моделирования эмпирическая и теоретическая функции распределения статистики  (4.2), используемой при проверке гипотезы о незначимости парного коэффициента корреляции (). В данном случае при моделировании использовались следующие значения параметров: , , а  и  из (1). На основании достигнутых уровней значимости критериев согласия, приведенных на рисунке, и визуальной близости эмпирической и теоретической функций распределения статистики  можно судить о достаточности объемов выборок  случайных векторов для приемлемого согласия. Аналогичная картина наблюдается и при моделировании распределений статистики  (4.6).

Рис. 4.3. Эмпирическая и теоретическая функции распределения статистики  (4.9) при проверке гипотезы , построенная с использованием параметров моделирования (4.10):

Пример на рис. 4.2 демонстрирует близость между распределениями статистики  (4.7), построенными для многомерного нормального закона при моделировании с параметрами , , ,  и  (4.11). Вновь наблюдается высокий достигаемый уровень значимости при проверке согласия между эмпирическим и теоретическим распределениями используемой статистики, начиная с объемов выборок . Полученные результаты моделирования статистики  подтверждают общую картину, полученную при исследовании статистики .

Рис. 4.4. Эмпирические и теоретическая функции распределения статистики  (4.2) при проверке гипотезы , построенных с использованием оценок парного коэффициента корреляции по формулам (4.1) и (4.12):

Рис. 4.5. Функции плотности оценок парного коэффициента корреляции, вычисляемого по формулам (4.1) и (4.12)

По результатам исследования распределений статистики  (4.9), используемой при проверке гипотезы о равенстве множественного коэффициента корреляции нулевому значению, моделируемых, например, с параметрами , , ,  и  (4.10), можно говорить о <<достаточности>> объемов выборок случайных векторов, начиная с . Результаты описанного эксперимента приведены на рис. 4.3.

Отметим, что при исследовании вновь не было выявлено существенного влияния размерности случайного вектора  и на сходимость распределений статистик данных критериев к соответствующим классическим предельным.

В работе [103] показано, что оценка парного коэффициента корреляции по формуле (4.1) не является устойчивой по отношению к нарушению предположения о нормальности распределения, из которого получена выборка для вычисления оценки. Различные робастные аналоги оценки коэффициента приведены во многих работах [1,7,20,21,42,102]. Например, одна из таких оценок имеет вид

                                                                                             (4.12)

где — медиана псевдослучайных величин .

Если использовать оценку (4.12) в статистике  (4.2), то наблюдается явное изменение предельного распределения статистики, что отражено на рисунке 4.4. Такое изменение объясняется тем, что функция плотности распределения оценки (4.12) становится более <<островершинной>> (следствие робастности оценки). На рисунке 4.5 приведены функции плотности распределения оценок  при , полученные в результате моделирования. Где для распределения оценки, вычисленной по формуле (4.1), лучше всего подходит нормальный закон с соответствующими параметрами сдвига и масштаба , а для оценки (4.12) — распределение Лапласа . Это различие в распределениях оценок коэффициента парной корреляции и приводит к существенному уменьшению размаха предельного распределения статистики  (см. рис. 4.4).

Отсюда следует, что применяя критерии проверки гипотез о парном коэффициенте корреляции, следует использовать оценки по методам, указанным при построении критериев: в данном случае — по методу максимального правдоподобия.

4.2.2. В случае принадлежности наблюдений многомерным законам, моделируемым на основе семейства симметричных распределений (6.4)

Распределения статистик, используемых в критериях проверки гипотез о коэффициентах корреляции, исследовались при различных объемах выборок  и различной размерности случайных величин  на многомерных законах, моделируемых с использованием предложенной в данной работе процедуры. Ранее отмечалось, что в [58] выдвигалось предположение об устойчивости распределения статистики  (4.2) (критерий некоррелированности) к отклонениям от нормальности наблюдаемого закона. Там же была показана явная зависимость распределения статистики  (4.3) от вида многомерного закона. Проверим эти предположения на моделируемых многомерных законах.

Рис. 4.6. Эмпирические распределения статистик , ,  и классическое предельное – распределение статистики (4.2) при проверке гипотезы , где  и (4.10)

Рис. 4.7. Эмпирические распределения статистик , ,  и классическое предельное – распределение статистики (4.6) при проверке гипотезы , где , ,  и (4.11)

Приведем полученные в результате исследований примеры смоделированных эмпирических распределений статистик с отражением близости их к соответствующим предельным распределениям, полученным в предположении о нормальности выборки. Количественной мерой близости служат достигаемые уровни значимости по критериям согласия  Пирсона, Колмогорова,  и  Мизеса. Чем ближе достигнутый уровень значимости к 1, тем лучше согласие эмпирического распределения с соответствующим теоретическим.

Из результатов приведенных на рисунках 4.6 и 4.7 следует, что нет оснований для отклонения предположений о том, что предельными распределениями статистик критериев проверки гипотез о равенстве парного и частного коэффициентов корреляции нулевому значению при наблюдении многомерных законов, построенных по одномерному закону из семейства распределений (6.4) при разных параметрах формы , являются соответствующие классические предельные распределения. Достигаемые уровни значимости по критериям согласия для результатов, отраженных на данных рисунках, сведены в таблицу 4.1. Результаты исследований показали, что распределения статистик (4.2) и (4.6) устойчивы к отклонениям многомерного закона от нормального.

Таблица 4.1. Значения достигнутых уровней значимости по критериям согласия для распределений статистик ,  и , смоделированных при различных параметрах формы , приведенных на рисунках 4.6, 4.7 и 4.8

 

Рис. 4.8. Эмпирические распределения статистик , ,  и классическое предельное – распределение статистики (4.9) при проверке гипотезы , где , ,  и (4.10)

Статистика (4.9), используемая при проверке гипотезы о равенстве нулю множественного коэффициента корреляции, также оказалась нечувствительна к отклонениям многомерного закона от нормального (рис. 4.8, таб. 4.1).

Таким образом, проведенные численные исследования не опровергают выдвигаемого в [58] предположения об устойчивости критериев проверки гипотез о равенстве нулю парного коэффициента корреляции по отношению к нарушению основного предположения корреляционного анализа о нормальности многомерного закона. Исследования проводились на различных размерностях псевдослучайных векторов и большом количестве повторных экспериментов с целью исключения ошибок возможных отдельных экспериментов. Поэтому можно выдвинуть более широкое предположение о том, что критерии проверки гипотез о нулевых значениях парного, частного и множественного коэффициентов корреляции являются устойчивыми к отклонениям от нормальности.

Рис. 4.9. Эмпирические распределения статистики , построенные для проверки гипотез на равенство коэффициента парной корреляции различным значениям, и классическое предельное – распределение статистики (4.10)

В критериях проверки гипотез о равенстве парного или частного коэффициента корреляции заданному значению распределения используемых статистик критериев очень чувствительны к виду наблюдаемого закона. Так, с ростом отклонения коэффициента корреляции от нулевого значения при прочих равных условиях происходит все более значимое отклонение распределения соответствующей статистики от классического предельного. Сказанное иллюстрирует рисунок 8, на котором показано, как с увеличением абсолютного значения коэффициента корреляции, изменяется распределение статистики данного критерия. В то время как в классическом случае распределение статистики в пределе стремится к стандартному нормальному распределению и не зависит от значения коэффициента корреляции.

На основании результатов исследований можно дать следующие рекомендации. При законах, отличных от нормального, и малых значениях парного (частного) коэффициента корреляции  еще можно пользоваться стандартным нормальным распределением как предельным для статистики  (). Но при значениях коэффициента корреляции  требуется определение распределения статистики используемого критерия.

Таблица 4.2. Значения достигнутых уровней значимости по критериям согласия между – распределением и распределением статистики , смоделированной по многомерному закону Стьюдента при различных степенях свободы , усредненных по 3 экспериментам (, )

4.2.3. Случай принадлежности наблюдений многомерному закону Стьюдента

Исследования распределений статистик критериев проверки гипотез о коэффициентах корреляции на многомерном распределении Стьюдента показало ограниченность применения классических результатов для выборок, не принадлежащих многомерному закону. Так, при наблюдении выборок, подчиняющихся закону Стьюдента с числом степеней свободы , распределения статистик  (42),  (4.6) и  (4.9) не сходятся к классическим предельным при объемах , являющихся достаточными для нормального закона. Это отражено на рисунках 4.10 и 4.11, где видно, что эмпирические распределения данных статистик, полученные в результате моделирования многомерных величин по закону Стьюдента с числом степеней свободы  и , не подчиняются соответствующим предельным распределениям для нормального случая. Значительное увеличение объемов многомерных выборок  не улучшает сходимость распределений статистик ,  и  к классическим предельным.

При дальнейшем увеличении параметра  согласие между распределениями данных статистик и соответствующими предельными законами в нормальном случае заметно улучшается (см. рисунки 4.10, 4.11 и таблицу 4.2).

Рис. 4.10. Эмпирические распределения статистики , построенные по многомерному распределению Стьюдента для ,  и  числа степеней свободы, и классическое предельное – распределение статистики (4.2) при проверке гипотезы

Рис. 4.11. Эмпирические распределения статистики , построенные по многомерному распределению Стьюдента для ,  и  числа степеней свободы, и классическое предельное – распределение статистики (4.9) при проверке гипотезы

Рис. 4.12. Эмпирические распределения статистики , , и классическое предельное – распределение статистики (4.2) при проверке гипотезы , где ,

Исследования распределений статистик критериев по выборкам многомерного распределения, построенного по семейству распределений (6.4) с параметром формы , демонстрируют аналогичные результаты, что и в случае многомерного распределения Стьюдента с числом степеней свободы : распределения статистик ,  и  претерпевают изменения и более не подчиняются соответствующим предельным распределениям, полученным в предположении о нормальности. Изменение предельного закона статистики , моделируемой по семейству распределений (6.4) с параметрами формы  и , отражено на рисунке 4.12.

Многомерные распределения Стьюдента при  и многомерные распределения, моделируемые на основе семейства распределений (6.4) с параметром формы , представляют собой законы с <<тяжелыми хвостами>>. При  и  в том и другом случае мы приходим к многомерному распределению Коши.

Оценки максимального правдоподобия вектора математических ожиданий и, особенно, ковариационных матриц (а, следовательно, и ОМП коэффициентов корреляции) не являются робастными. Их асимптотические свойства резко ухудшаются (увеличивается рассеяние) в случае многомерных законов при  и . Этим объясняется неустойчивость критериев проверки гипотез на нулевые значения коэффициентов корреляции для многомерных законов, построенных с помощью соответствующих процедур при  и , и устойчивость этих же критериев для многомерных законов при  и .

4.3. Выводы

Исследования эмпирических распределений статистик, используемых в критериях проверки гипотез о парных, частных и множественных коэффициентах корреляции, при псевдослучайных величинах, подчиняющихся многомерному нормальному закону, показали, что они хорошо согласуются с теоретическими предельными распределениями, полученными в классическом корреляционном анализе. Отмечено существенное влияние метода вычисления оценок коэффициентов корреляции на распределения статистик данных критериев.

Исследования распределений статистик ,  и  в случае многомерных законов, отличающихся от нормального в достаточно широких пределах, показали, что значимого изменения предельных распределений статистик не происходит. Эмпирические распределения данных статистик по-прежнему хорошо описываются предельными законами, полученными в классическом корреляционном анализе в предположении о нормальности наблюдаемого вектора. Это раздвигает границы корректного применения методов классического корреляционного анализа при проверке гипотез о нулевых значениях парного, частного и множественного коэффициентов корреляции.

В случае многомерных законов с <<тяжелыми хвостами>> наблюдается значимое отличие распределений статистик ,  и  от предельных классических.

Используемые в критериях проверки гипотез о равенстве заданному значению парного или частного коэффициента корреляции статистики  и  существенно зависят от наблюдаемого многомерного закона. Это подтверждает выдвинутое в [58] предположение о зависимости распределений данных статистик от вида многомерного закона. В то же время классическими результатами можно пользоваться при проверке гипотез вида , при .

 

5. Исследование критериев проверки гипотез о корреляционном отношении

 

В классическом корреляционном анализе на основании соотношений между парным коэффициентом корреляции и корреляционным отношением можно судить о характере зависимости между компонентами случайного вектора.

5.1. Классические критерии проверки гипотез о корреляционном отношении

Корреляционное отношение случайной величины  по  определяется отношением дисперсии условного математического ожидания  к дисперсии :

                                                                                                                                                         (5.1)

 

В отличие от коэффициента корреляции  корреляционное отношение  несимметрично относительно  и . Соотношение между коэффициентом корреляции  и корреляционным отношением  в случае многомерного нормального закона позволяет утверждать следующее[58]:

·         , если  и  независимы;

·         , тогда и только тогда, когда имеется строгая линейная функциональная зависимость  от ;

·         , тогда и только тогда, когда имеется строгая нелинейная функциональная зависимость  от ;

·         , тогда и только тогда, когда регрессия  по  строго линейная, но нет функциональной зависимости;

·         , указывает на то, что не существует функциональной зависимости, и некоторая нелинейная кривая регрессии <<подходит>> лучше, чем <<наилучшая>> прямая линия.

Таким образом, равенство квадрата коэффициента корреляции корреляционному отношению указывает на то, что для регрессии нельзя найти лучшей кривой, чем прямая линия.

Оценка корреляционного отношения определяется выражением

                                                                                                                                                    (5.2)

где  — количество интервалов сечений для компоненты ;  — среднее значение компоненты  в  – м сечении;  — число наблюдений компоненты  в  – м сечении;   — значение компоненты  с номером  в – м сечении.

Относительно корреляционного отношения могут проверяться два вида гипотез: о равенстве корреляционного отношения нулю  и о равенстве корреляционного отношения квадрату коэффициента корреляции  (критерий линейности регрессии  по ).

В критерии проверки гипотезы  используется статистика

                                                                                                                                                                  (5.3)

которая при справедливой гипотезе  имеет – распределение Фишера с числом степеней свободы  и : [58].

При проверке гипотезы  вычисляется статистика

                                                                                                                                                              (5.4)

которая при справедливой гипотезе  имеет – распределение Фишера с числом степеней свободы  и : [58].

5.2. Влияние различных способов группирования и количества интервалов на оценку корреляционного отношения

Как ранее отмечалось, в данной работе использовались три способа группирования: равноинтервальное (РИГ), равночастотное (РЧГ) и асимптотически оптимальное (АОГ). Отметим, что в случае равночастотного группирования, если количество случайных величин  не делится на число интервалов  нацело, то остаток распределяется равномерно от центральных до крайних интервалов группирования. Например, для  и  при РЧГ будем иметь следующие частоты попаданий в интервалы группирования , ,  и .

Рис. 5.1. Функции плотности распределения оценок корреляционного отношения, моделируемых при , в случае использования РЧГ для различного количества интервалов группирования ,

Рис. 5.2. Функции плотности распределения оценок корреляционного отношения, моделируемых при , в случае использования РЧГ для различного количества интервалов группирования ,

Из выражения для оценки корреляционного отношения (5.2) можно увидеть, что увеличение числа интервалов группирования  приводит к росту самой оценки. Это подтверждают рисунки 5.1 и  5.2, где изображены полученные в результате моделирования плотности оценок корреляционного отношения, промоделированные при  и  соответственно и вычисленные с использованием РЧГ при различном количестве интервалов группирования  и объеме случайных наблюдений . На данных рисунках видно, что в общем случае с увеличением числа интервалов  растет параметр сдвига у функции плотности оценки. Аналогичная зависимость функций плотности распределения оценок корреляционного отношения от количества интервалов группирования наблюдается и в случае равноинтервального и асимптотически оптимального способов группирования.

Рис. 5.3. Функции плотности распределения оценок корреляционного отношения, моделируемых при , где использовалось АОГ, РИГ, РЧГ для различного числа интервалов группирования ,

Влияние способа группирования на оценку корреляционного отношения отражено на рисунке 5.3, где моделирование проводилось при  и объеме псевдослучайных величин . Для числа интервалов  функции плотности оценок , вычисленных при различных способах группирования, совпадают. А с увеличением числа интервалов наблюдается расхождение функций плотности оценок для разных способов группирования. Например, при объеме , начиная с  плотность распределения оценки (5.2), вычисленная при асимптотически оптимальном группировании, смещается влево относительно функций плотности, вычисленных с использованием РИГ или РЧГ. Различие в распределениях оценок при РЧГ и РИГ наблюдается при , когда .

Так как моделирование оценок корреляционного отношения осуществлялось при , то казалось бы предпочтительней выбрать тот способ группирования, плотность оценок которого лежит левее. С другой стороны, рост числа интервалов группирования для АОГ и РИГ приводит к тому, что будут появляться интервалы, для которых число наблюдений  будет равно нулю. Для АОГ это крайние интервалы, а для РИГ — интервалы, находящиеся между <<удаленными>> наблюдениями и основной группой. Наличие интервалов с нулевыми частотами попадания приводит к искусственному занижению величины оценки корреляционного отношения . Использование равночастотного группирования позволяет избежать таких ошибок.

Рис. 5.4. Функции плотности распределения оценок корреляционного отношения, моделируемых при , где использовалось АОГ, РИГ, РЧГ для различного числа интервалов группирования ,

Несколько сложнее выглядит ситуация когда рассматриваются оценки , моделируемые для случая . На рисунке 5.4 изображены плотности оценок корреляционного отношения при различных способах группирования, моделируемых при  и объеме случайных величин . При малом числе интервалов группирования  относительно объема выборки  на данном рисунке РИГ выглядит предпочтительней, так как плотность оценок , построенная с использованием РИГ, при равном числе интервалов расположена правее, чем плотности оценок для АОГ и РЧГ. Но, во – первых, оценки корреляционного отношения , построенные с использованием РИГ, сильно зависят от крайних граничных точек интервалов группирования  и , так как эти точки определяют длину интервалов. А во – вторых, как и в случае , неоправданное завышение числа интервалов при равноинтервальном группировании приводит к ухудшению свойств оценок корреляционного отношения. Существенное изменение функций плотности оценок  показано на рисунке 5.5. Причина ухудшения свойств оценок  есть описанное ранее обнуление частот попаданий  для нескольких интервалов группирования, которое вновь приводит к искусственному занижению величины оценки корреляционного отношения. Асимптотически оптимальное группирование при неправильном выборе количества интервалов, что и в случае РИГ, также приводит к искаженным функциям распределения.

Рис. 5.5. Распределения оценок корреляционного отношения, моделируемых при , где использовалось РИГ, РЧГ для различного числа интервалов группирования ,

Поэтому для асимптотически оптимального и равноинтервального группирования можно определить <<критические>> значения числа интервалов, начиная с которых появляются нулевые частоты попадания , и, как следствие, происходит ухудшение свойств оценок корреляционного отношения.

Увеличение объемов выборок случайных величин не изменяет выявленной закономерности по влиянию способов и количества интервалов группирования на распределения оценок корреляционного отношения. С ростом объемов происходит естественное увеличение значений для <<критических>> чисел интервалов группирования, начиная с которых наблюдается оговоренное ухудшение свойств оценок корреляционного отношения при использовании АОГ или РИГ.

Для вычислений оценок корреляционного отношения можно рекомендовать использовать равночастотное группирование, так как в данном случае свойства вычисляемых оценок меньше зависят от числа интервалов группирования. Если по каким – либо причинам было принято решение о применении АОГ или РИГ, тогда прежде всего требуется убедиться, что при разбиении на интервалы отсутствуют нулевые частоты попаданий , в противном случае надо уменьшить число интервалов.

5.3. Исследование распределений статистики критерия проверки гипотезы о незначимости корреляционного отношения

В первую очередь с помощью методов статистического моделирования исследовались распределения статистик, используемых при проверке гипотез о корреляционном отношении, при условии, что наблюдения принадлежат многомерному нормальному закону.

Исследование распределения статистики критерия проверки гипотез о равенстве корреляционного отношения нулевому значению показало, что если осуществляется корректный выбор количества интервалов группирования , то соответствующее теоретическое предельное – распределение с  и  числом степеней свободы хорошо описывает эмпирическое распределение статистики .

Рис. 5.6. Теоретическая и эмпирические функции распределения статистики  (5.3) при проверке гипотезы , построенные с использованием различных способов группирования: ,

Рис. 5.7. Теоретическая и эмпирические функции распределения статистики  (5.3) при проверке гипотезы , построенные с использованием АОГ и РЧГ: ,

 

Например, на рисунке 5.6 представлены полученные в результате моделирования эмпирические распределения статистики  (5.3), построенные с использованием АОГ, РЧГ и РИГ, а также соответствующее предельное  — распределение при проверке гипотезы  для числа интервалов  и объема выборки . Рисунок дополнен таблицей, где отражены результаты проверки согласия эмпирического распределения с теоретическим предельным по критериям согласия. Приведенные уровни значимости по критериям согласия свидетельствуют о том, что статистика  действительно хорошо описывается соответствующим предельным распределением, и на данное согласие существенно не влияет выбор способа группирования при правильном выборе .

Пример некорректного выбора числа интервалов для асимптотически оптимального группирования приведен на рисунке 5.7. Где явно видно изменение предельного закона распределения статистики  при АОГ, в то время когда использование равночастотного группирования дает по – прежнему высокие значения для достигаемых уровней значимости. Превышение <<критических>> значений для числа интервалов  приводит к изменению предельного распределения статистики  и в случае применения равноинтервального группирования.

Рис. 5.8. Эмпирические функции распределения статистик ,  и классическое предельное – распределение при проверке гипотезы : РЧГ, ,

Исследование распределений статистики, используемой при проверке гипотезы вида , проводилось для законов многомерных величин, моделируемых на основе предложенной в данной работе процедуры при различных способах группирования.

Из результатов, приведенных на рисунке 5.8, следует, что нет оснований для отклонения предположения о том, что предельным распределением статистики критерия проверки гипотезы о равенстве корреляционного отношения нулевому значению в случае многомерных законов, построенных по семейству распределений (6.4) с разными параметрами формы , является классическое предельное – распределение Фишера с числом степеней свободы  и .

Таблица 5.1. Значения достигнутых уровней значимости по критериям согласия для распределений статистики , смоделированных при различных параметрах формы :  и

Исследование влияния способа группирования на распределение статистики  при многомерных законах, отличных от нормального, показало еще большую зависимость оценок корреляционного отношения от числа интервалов  при использовании асимптотически оптимального и равноинтервального группирования. В таблице 5.1 приведены значения достигаемых уровней значимости при проверке согласия между эмпирическим распределением статистики  и соответствующим классическим предельным – распределением. Эксперименты показали, что в случае более островершинных многомерных законах для методов АОГ и РИГ желательно еще большее уменьшение числа интервалов группирования по сравнению с нормальным законом, а для более плосковершинных законов — наоборот, допустимо увеличение количества интервалов.

Для многомерных законов, моделируемых по семейству распределений (6.4), использование равночастотного группирования не ухудшает согласия между эмпирическим распределением статистики  и соответствующим классическим предельным при любом выборе числа интервалов как при , так и . По–прежнему, разбиение допустимой области на интервалы с равными частотами попадания  видится более предпочтительным.

Таким образом, результаты исследования распределений статистики  показали, что в случае многомерных законов, достаточно существенно отличающихся от нормального (более островершинных или более плосковершинных, и даже в случае многомерного закона, построенного по несимметричному одномерному распределению), значимого изменения предельного распределения статистики  не происходит.

Это позволяет утверждать, что статистические выводы, опирающиеся на классический аппарат, в задачах с применением критерия проверки гипотезы вида  будут оставаться корректными и при нарушении предположений о нормальности наблюдаемого многомерного закона.

5.4. Исследование распределений статистики критерия линейности регрессии  по

Указанные в начале данной главы соотношения  между теоретическими корреляционным отношением  и парным коэффициентом корреляции  не всегда выполняются для их оценок, особенно, если связь (регрессионная или функциональная) линейная. Такое возможно, если  и  близки[103]. Нарушение условия происходит из–за вычислительных погрешностей, связанных с ограниченностью представления чисел в ЭВМ, случайностью оценок  и  и сильным влиянием на  числа интервалов и способов группирования. Известно, что величина  является индикатором нелинейности [58]. Однако, как уже говорилось, величина  вследствие случайности оценок может оказаться отрицательной, хотя абсолютная величина разности, как правило, мала.

Рис. 5.9. Функции плотности распределения оценок корреляционного отношения  и квадрата парного коэффициента корреляции , моделируемых при линейной зависимости  от : РЧГ,

Возможность нарушения неравенства  для соответствующих оценок наглядно иллюстрирует рисунок 5.9, где представлены функции плотности квадрата оценки парного коэффициента корреляции  и плотности оценок корреляционного отношения , построенные для случая линейной зависимости  от  (). При вычислении оценок корреляционного отношения использовались интервалы равной частоты при объемах выборок случайных величин . На приведенном рисунке видно, что для объема  с ростом числа интервалов группирования вероятность появления значений  падает (плотности оценок <<расходятся>> дальше друг от друга), но остается положительной.

При увеличении объемов выборок  уменьшается дисперсия распределения оценки парного коэффициента корреляции. Поэтому для больших значений  и  вероятность появления значений  оказывается практически близкой к нулю. На рисунке 5.10 отображены плотности оценок  и , вид которых позволяет утверждать, что при объеме выборки  и числе интервалов группирования  при использовании РЧГ неравенство  с вероятностью 1 выполняется и для их оценок.

 

Рис. 5.10. Функции плотности распределения оценок корреляционного отношения  и квадрата парного коэффициента корреляции , моделируемых при линейной зависимости  от : РЧГ,

 

Однако и при значениях  и  распределение статистики  даже в случае многомерного нормального закона не подчиняется – распределению Фишера с числом степеней свободы  и  (см. рис. 5.11). Дальнейшее увеличение объемов выборок и числа интервалов группирования существенно не улучшает согласия между распределением данной статистики и соответствующим предельным распределением.

Рис. 5.11. Теоретическая и эмпирическая функции распределения статистики  (5.4) при проверке гипотезы : РЧГ, ,

Рис. 5.12. Эмпирические функции распределения статистик ,  и  при проверке гипотезы : РЧГ, ,

С другой стороны, проведенные исследования не опровергают, что распределение статистики  подчиняется – распределению в пределе . При обработке реальных данных, когда вычисленное значение статистики оказывается , можно рекомендовать рассмотреть значения оценок  и . И если они близки к единице можно выдвинуть предположение о линейной зависимости.

В случае многомерного закона, отличного от нормального, есть основания утверждать, что ни для конечных объемов выборок, ни при  распределение статистики  не будет описываться – распределением. Это следует, во–первых, из различия эмпирических распределений статистики  для многомерного нормального закона и законов, моделируемых на основе семейства распределений (6.4) с параметрами формы  и  (см. рис. 5.12). Во-вторых, из показанной ранее неустойчивости критерия проверки гипотез о парном коэффициенте корреляции вида , при  к отклонению от нормальности.

5.5. Выводы

Исследование влияния способов группирования и количества интервалов на оценку корреляционного отношения показало, что оценка корреляционного отношения, прежде всего, сильно зависит от количества интервалов группирования. Как правило, уменьшение количества интервалов группирования приводит к уменьшению значений оценок корреляционного отношения, в то время как увеличение сопровождается ростом величины . При использовании асимптотически оптимального и равноинтервального группирования необходимо корректно выбирать число интервалов, избегая нулевых частот попадания  в интервалы, приводящих к ухудшению свойств оценок корреляционного отношения. Разбиение области определения на интервалы равной частоты показало себя как наиболее предпочтительное для вычисления оценок .

Исследования распределения статистики, используемой в критерии проверки гипотезы вида , при псевдослучайных величинах, подчиняющихся многомерному нормальному закону, показали, что оно хорошо согласуется с теоретическим предельным распределением, полученными в классическом корреляционном анализе. В случае многомерных законов, отличающихся от нормального в достаточно широких пределах (более островершинных или более плосковершинных), изменения предельного распределения статистики  не происходит. Эмпирическое распределение данной статистики по–прежнему хорошо описывается предельными законами, полученными в предположении о нормальности наблюдаемого вектора.

Полное исследование распределения статистики критерия, используемого при проверке гипотезы вида , на данный момент затруднено вследствие указанных вычислительных проблем, суть которых заключается в том, что при линейной связи соотношение для теоретических величин  может не выполняться для их оценок.


Глава 6. Описание программной системы

6.1. Общая характеристика программной системы

Методика компьютерного моделирования и анализа статистических закономерностей предполагает разработку соответствующего программного обеспечения для проведения исследований. Программная система предназначена для осуществления проверки рассматриваемых гипотез многомерного анализа, исследования распределений статистик критериев, вычисления оценок параметров многомерных законов, моделирования выборок различных одномерных и многомерных законов распределения. Разработанное программное обеспечение является продолжением и расширением основной идеи, заложенной еще в программной системе <<Корреляционный анализ многомерных случайных величин>> [65].

Изначально программная система разрабатывалась как функциональное расширение исследовательского программного пакета <<Интервальная статистика (ISW)>>, разработанного Лемешко Б. Ю. и Постоваловым С. Н. Но в процессе реализации была оформлена как самостоятельная система. При этом использование совместимого формата данных позволило провести исследование распределений статистик, вычисляемых в критериях многомерного анализа, при помощи системы <<Интервальной статистики (ISW)>>, хорошо зарекомендовавшей себя в задачах такого рода[111,112].

Программная система позволяет решать следующие задачи:

·         моделирование выборок псевдослучайных величин, подчиненных заданному закону распределения;

·         моделирование выборок псевдослучайных векторов по методу, предложенному в диссертационной работе;

·         моделирование распределений статистик, используемых при проверке гипотез о математическом ожидании и дисперсии;

·         моделирование распределений статистик рассматриваемых критериев многомерного анализа;

·         осуществлять проверку различных гипотез при помощи критериев многомерного анализа;

·         строить оценки вектора математических ожиданий, ковариационной матрицы, парных, частных и множественных коэффициентов корреляции, корреляционного отношения.

Независимость ряда решаемых задач позволила спроектировать программную систему в виде совокупности самостоятельных блоков, что существенно упростило процесс разработки. Выбранный подход к реализации данных блоков позволяет легко использовать их функциональность в других программных системах. Например, блок моделирования псевдослучайных величин был реализован в виде подключаемой библиотеки.

При реализации были выделены следующие основные блоки.

·         Блок моделирования одномерных и многомерных случайных величин, подчиняющихся различным законам распределения.

·         Блок проверки гипотез.

·         Процедуры вычисления оценок.

·         Блок моделирования распределений статистик, используемых при проверке гипотез рассматриваемых критериев.

Код программный системы написан на языке C++ [105] в среде быстрой разработки приложений Borland C++ Builder 6.0 [34] с поддержкой объектно–ориентированного подхода и откомпилирован под 32–разрядные операционные системы семейства Microsoft Windows. Чтобы избежать возможных ошибок реализации математических соотношений, для нескольких алгоритмов были написаны дублирующие программы в среде математического программирования Maple [46,96].

6.2. Краткое описание интерфейса программной системы

 

Рис. 6.1. Диалоговое окно «Проверка гипотез о коэффициентах корреляции»

Рис. 6.2. Диалоговое окно «Проверка гипотез о корреляционном отношении»

Программная система состоит из двух программ. Основная программа, которая носит название «Корреляционный анализ», позволяет решать и исследовать задачи многомерного анализа. Вспомогательная программа позволяет моделировать распределения статистик, используемых при проверке гипотез о математическом ожидании и дисперсии в одномерном случае.

6.2.1. Основная программа

Первая закладка «Проверка гипотез» на главном диалоговом окне позволяет выбирать вид проверяемой гипотезы: гипотезу о равенстве вектора математических ожиданий заданному вектору ; гипотезу о равенстве ковариационной матрицы заданной матрице ; гипотезу о значении парного, частного и множественного коэффициентов корреляции ; гипотезу о корреляционном отношении . Общими параметрами при проверке гипотез являются размерность, имя файла с выборкой случайных векторов и распределение статистики критерия проверяемой гипотезы. В зависимости от выбранного типа гипотезы может потребоваться задание дополнительных параметров. Например, для корреляционного отношения это способ группирования, количество интервалов группирования и сам вид проверяемой гипотезы (см. рисунки 6.1 и 6.2).

Выбор и вычисление оценок рассматриваемых параметров по выборке случайных векторов можно осуществить через закладку «Оценивание параметров». Полученные результаты оформляются в виде HTML отчета средствами специально разработанной библиотеки. Изменение или доработка программного кода данной библиотеки позволяет легко добиться улучшения вида получаемого отчета без вмешательства в код основной программы.

Доступ к процедурам моделирования, описанным в разделе 6.3, осуществляется через одноименную закладку основного диалогового окна (рис. 6.3).

Рис. 6.3. Диалоговое окно  «Моделирование»

Рис. 6.4. Программа для исследования распределений статистик в одномерном случае

Закладка «Исследование распределений статистик» не содержит множества задаваемых параметров, кроме имени файла для выгрузки выборки значений статистики. При моделировании выборки используются установленные параметры на предыдущих закладках. В этом случае закладка «Моделирование» определяет закон распределения генерируемого псевдослучайного вектора, а «Проверка гипотез» — статистику критерия, используемую при проверке выбранной гипотезы.

6.2.2. Вспомогательная программа

Для исследования одномерного случая, когда проверяются гипотезы о математическом ожидании и дисперсии, написана вспомогательная программа. Она позволяется моделировать распределения статистик, используемых при проверке данных гипотез (см. рисунок 6.4).

6.3. Моделирование псевдослучайных величин

Для проведения исследований по теме диссертационной работы ключевым блоком программной системы является блок моделирования. Средствами программной системы можно производить моделирование одномерных и многомерных псевдослучайных величин.

При построении любой системы статистического моделирования центральным элементом является датчик, генерирующий псевдослучайные числа по равномерному закону. Проверка качества такого датчика является непременным условием его использования. Важно, не только то, чтобы получаемые последовательности при любых объемах выборок хорошо соответствовали равномерному закону, но и то, чтобы они удовлетворяли целям исследований[50,92]. Всегда хорошей дополнительной проверкой качества датчиков может являться построение в результате моделирования той статистической закономерности, которая является известным достоянием теории. Хорошее совпадение результатов моделирования с теоретическими является косвенным подтверждением качества используемого датчика.

В программную систему включены следующие алгоритмы имитации псевдослучайной величины, равномерно распределенной на отрезке (0, 1): встроенный датчик систем программирования C++ и мультипликативный датчик [6, 15, 51, 52, 110]. Оба датчика удовлетворяют требованиям, позволяющим использовать их в целях исследования статистических закономерностей.

Исследование датчиков проведено в работе [92], где было отмечено, что выбранные подходы к имитации псевдослучайной величины позволяют получать последовательности, достаточно хорошо подчиняющиеся равномерному закону при различных объемах выборок. Они удовлетворяют требованиям, позволяющим использовать их в целях исследования статистических закономерностей. Датчик в системах программирования С++ обладает приемлемыми свойствами равномерности, но имеет один недостаток, который следует иметь в виду: в генерируемых выборках, начиная с объемов, примерно, в 1700–1800 наблюдений, начинают появляться повторные значения (этот недостаток исчезает при использовании вычислений с двойной точностью). Реализация мультипликативного датчика такого недостатка не имеет[52]. Поэтому в диссертационной работе при проведении исследований использовался мультипликативный алгоритм, так как для моделирования выборок значений статистик критериев требовались достаточно большие объемы выборок псевдослучайных величин, равномерно распределенных на отрезке (0, 1) .

В программной системе для реализации алгоритмов моделирования использовался объектно–ориентированный подход. Преимуществом такого построения программного кода является то, что при необходимости программная система может быть легко расширена любыми законами распределения. И тогда можно исследовать распределения статистик соответствующих критериев для добавленных одномерных и многомерных законов.

6.3.1. Моделирование одномерных распределений

Основные алгоритмы для имитации одномерных выборочных значений были взяты из [40,51,52,66], где наиболее часто используемым и общим методом формирования псевдослучайных величин является метод обратных функций. В этом методе случайная величина , подчиняющаяся закону с функцией распределения , получается в соответствии с соотношением , где  – функция, обратная к , а  – случайная величина, равномерно распределенная на интервале (0, 1).

Введем обозначения аналогично [66]:

 – случайные величины, равномерно распределенные на интервале (0, 1);

 – случайные величины, распределенные по стандартному нормальному закону с параметрами (0, 1);

  — параметр сдвига;

  — параметр масштаба;

 — математическое ожидание случайной величины ;

  — дисперсия случайной величины .

Тогда согласно [40,41,52]:

Пара псевдослучайных чисел, распределенных по стандартному нормальному закону с параметрами (0, 1), генерируется по формулам

                                                                                                                                                 (6.1)

а нормальное распределение с математическим ожиданием  и дисперсией  

                                                                                                                     (6.2)

получается преобразованием стандартной величины

                                                                                                                                                                          (6.3)

 

Псевдослучайная величина, принадлежащая семейству распределений с функцией плотности

                                                                                                 (6.4)

                                                                     

 

где  — параметр формы, находится из численного решения уравнения , так как в этом случае обратная функция  не выражается явно.

Дополнительно в программной системе реализовано моделирование псевдослучайных величин, подчиняющихся законам распределения, приведенным в таблице 6.1.

 

6.3.2. Моделирование псевдослучайных нормальных векторов

Многомерное нормальное распределение случайного вектора  размерности  полностью определяется вектором математических ожиданий  и ковариационной матрицей .

Функция плотности многомерного нормального закона имеет вид

                                                                                     (6.5)

 

Хорошо зарекомендовавший себя алгоритм генерирования псевдослучайных нормальных векторов был подробно изложен в [52]. Пусть мы имеем совокупность случайных величин , где  подчиняется стандартному нормальному закону с параметрами (0, 1). Тогда вектор , распределенный по многомерному нормальному закону с параметрами  и , получается через линейное преобразование вида

                                                                                                                                                                         (6.6)

В (6.6) обычно полагают, что  является нижней треугольной матрицей

                                                                      

тогда коэффициенты  легко определяются рекуррентной процедурой:

                                                                                                                             (6.7)

через соотношение (6.6) и элементы ковариационной матрицы

                                                                      


Рис. 6.5. Выборка двумерных случайных величин, смоделированная с использованием формул (6.1)

Рис. 6.6. Выборка двумерных случайных величин, смоделированная с использованием метода обратных функций

 

Исследование процедуры моделирования показало, что при моделировании больших объемов многомерных случайных векторов с использованием формул (6.1)

{

Пара псевдослучайных чисел, распределенных по стандартному нормальному закону с параметрами (0, 1), генерируется по формулам

                                                                                                                                                 (6.1)

}

для формирования совокупности  уже в двумерном случае результаты оказываются неудовлетворительными. На рис. 6.5 явно видно появление регулярных структур, что может приводить к искажению результатов дальнейших исследований, опирающихся на процедуру моделирования. Если для моделирования одномерных стандартных нормальных величин использовать метод обратных функций, как и в случае семейства распределений (6.4), то появление регулярных структур не наблюдается (рис. 6.6). Поэтому целесообразней моделировать одномерные выборки нормальных случайных величин методом обратных функций.

6.3.3. Моделирование многомерных величин по законам, отличным от нормального

Процедуру моделирования многомерных величин, распределенных по законам, отличным от нормального, с некоторыми математическим ожиданием и ковариационной матрицей предложено [72] реализовать аналогично описанному выше алгоритму (6.6)– (6.7). Для этого определим в качестве параметров моделирования вектор  и матрицу , а совокупность величин , будем формировать уже не по стандартному нормальному закону, а на основе некоторого одномерного распределения с нулевым математическим ожиданием () и единичной дисперсией (). Элементы матрицы  вычисляются по формуле (6.8), которая идентична соотношению (6.7). При этом вместо элементов ковариационной матрицы  используются элементы матрицы  

                                                                                                                          (6.8)

Псевдослучайный вектор  получается преобразованием вида

                                                                                                                                                                        (6.9)

 

В результате на выходе процедуры мы имеем некоторый многомерный закон, отличный от нормального, но, вообще говоря, с неопределенными математическим ожиданием и ковариационной матрицей.

Определим математическое ожидание моделируемого случайного вектора . С использованием (6.9) вектор математического ожидания имеет вид

                                                                                                                                             (6.10)

Элементы вектора , если , представимы в виде

                                                                                                         (6.11)

А если учесть, что , то получаем

                                                                                                                                                                                   (6.12)

 

Найдем ковариационную матрицу моделируемого многомерного закона. По определению ковариационная матрица находится как

                                                                                                                                        (6.13)

Если подставить в (6.13) представление (6.9) вектора  и учесть равенство (6.12), то получим

                                                                                                                                                    (6.14)

или для элементов матрицы

                                                                                                                                         (6.15)

Так как , представляет собой совокупность моделируемых одинаково распределенных независимых случайных величин, то . И так как , то (6.15) принимает вид

                                                                                                                             (6.16)

А если учесть свойство  разложения (6.8), получим окончательный результат

                                                                                                                                                                                     (6.17)

 

Таким образом соотношения (6.12) и (6.17) показывают, что у моделируемого случайного вектора математическое ожидание равно вектору параметров , а ковариационная матрица — матрице параметров .

Для моделирования различных совокупностей , удобно использовать семейство распределений с плотностью (6.4) и параметром формы , так как оно охватывает целый класс симметричных распределений.

{

Псевдослучайная величина, принадлежащая семейству распределений с функцией плотности

                                                                                                 (6.4)

                                                                     

 

где  — параметр формы, находится из численного решения уравнения , так как в этом случае обратная функция  не выражается явно.

}

Частными случаями данного закона являются распределение Лапласа (при ), нормальное (), а предельными — распределение Коши () и равномерное (). Рис. 6.7 иллюстрирует изменение функции плотности данного семейства при изменении параметра формы от  до 10, где параметры сдвига и масштаба  и  выбраны из условия выполнения равенств , . С помощью параметра формы  мы можем задавать непрерывное «удаление» моделируемого (наблюдаемого) многомерного закона от нормального, делая его более плосковершинным по сравнению с нормальным при  или более островершинным при . При  будут формироваться псевдослучайные векторы  в соответствии с нормальным законом.

Рис. 6.7. Функции плотности семейства распределений (6.4)  при различных параметрах формы (, )

Недостатком предложенной процедуры является то, что она не позволяет нам моделировать многомерный закон с некоторой произвольной функцией распределения, который находится на «заданном» расстоянии (определяемом в смысле некоторой меры) от многомерного нормального закона. Однако, при помощи этой процедуры мы можем построить датчик, генерирующий псевдослучайные векторы по закону, отличающемуся от нормального, с заданными математическим ожиданием и ковариационной матрицей.

Если для моделирования , использовать семейство распределений (6.4), то с учетом выражения для дисперсии можно получить выражение для параметра масштаба

                                                                                                                                                                 (6.18)

при котором .

В качестве примера проверим полученные результаты и возможность моделирования многомерных величин с заданными вектором математических ожиданий  и ковариационной матрицей , сравнивая оценки максимального правдоподобия  и  по моделируемым выборкам многомерных величин достаточно большого объема  для различных значений параметра формы . Выберем начальные параметры равными

                                                                    

Представленные ниже результаты приведены с округлением до 3-х десятичных знаков после запятой.

При  величины  моделировались с параметрами  и . Полученные оценки вектора математических ожиданий и ковариационной матрицы "—

                                                       

При  величины  моделировались с параметрами  и . Соответствующие оценки оказались равными

                                                       

При  значения  моделировались с  и , соответствующие оценки —

                                                       

 

Рис. 6.8. Смоделированные плотности двумерных законов, построенных при различных значениях параметра формы: а) , б)  и в) 

Во всех случаях оценки вектора математических ожиданий и ковариационных матриц дают основание говорить о выполнении равенств:  и . Таким образом, действительно каждый раз решалась задача по моделированию закона с заданными математическим ожиданием и ковариационной матрицей. Вообще говоря, реализации именно такой процедуры моделирования псевдослучайных векторов достаточно для целей настоящего исследования. На рис. 6.8 приведены полученные в результате моделирования функции плотностей двумерных законов с нулевым вектором математических ожиданий и единичной ковариационной матрицей: при  (плотность нормального закона, в центре), при  (слева) и  (справа). Как видим, в первом случае наблюдается островершинное распределение, а во втором случае — плосковершинное. Полученное нормальное распределение существенно отличается от распределений, моделируемых с .

В процессе исследования реализованной процедуры моделирования многомерных псевдослучайных величин исследовались и маргинальные распределения моделируемых многомерных векторов. Исследования показали, что маргинальные распределения многомерного закона, моделируемого с использованием выбранного семейства распределений (6.4) с параметром формы 2 (многомерный нормальный закон), хорошо согласуются с одномерным нормальным законом распределения. А маргинальные функции законов, получаемых при моделировании с параметром  отличным от 2, существенно отличаются от нормального закона, но при этом хорошо согласуются с одномерным законом из семейства распределений (6.4).

6.3.4. Моделирование псевдослучайных векторов, подчиняющихся многомерному распределению Стьюдента

Случайный вектор  имеет – мерное распределение Стьюдента с  степенями свободы, вектором сдвига  и матрицей точности , если функция плотности имеет вид

                                                                     (6.19)

где  — симметричная положительно определенная матрица.

Рис. 6.9. Плотности двумерного закона Стьюдента, построенные при степенях свободы а) , б) , и в) нормальный закон

Согласно [26] вектор математических ожиданий и ковариационная матрица многомерного распределения Стьюдента равны:

                                                          

 

На рис. 6.9 приведены функции плотности двумерного распределения Стьюдента для степеней свободы ,  и плотность двумерного нормального закона при равных значениях вектора математического ожидания и ковариационной матрицы. С ростом числа степеней свободы  распределение Стьюдента стремится к нормальному распределению. Например, для значений  нормированная разность между двумерными функциями распределения Стьюдента и нормального не превышает по модулю 0.01.

В работе [26] приведен алгоритм моделирования псевдослучайных векторов, подчиняющихся многомерному распределению Стьюдента. Пусть вектор  имеет многомерное нормальное распределение с нулевым вектором математических ожиданий и невырожденной ковариационной матрицей , а  имеет – распределение с  степенями свободы, тогда вектор  определенный как

                                                                                                                                                                   (6.20)

имеет – мерное распределение Стьюдента с  степенями свободы, вектором сдвига  и матрицей точности .

Используя формулу (6.20), мы можем генерировать псевдослучайные вектора, подчиняющиеся многомерному распределению Стьюдента с заданными параметрами: числом степеней свободы , вектором математических ожиданий и ковариационной матрицей.

Описанные процедуры моделирования псевдослучайных векторов позволяют быстро получать выборки большого объема с любыми математическим ожиданием и ковариационной матрицей.

6.3.5. Моделирование функциональной линейной зависимости между  и

Для исследования возможности выявления характера зависимости между компонентами случайного вектора необходимо моделировать псевдослучайные векторы с заданным видом зависимости, например, линейной. Рассмотрим двумерный случай, тогда вектор математических ожиданий  и ковариационная матрица  имеют вид

                                                                         

Вектор , распределенный по многомерному нормальному закону с параметрами  и , получается через линейное преобразование вида (6.6).

Коэффициенты матрицы  вычисляются по формуле (6.7). В двумерном случае матрица  имеет вид

                                                                                                                               (6.21)

 

Подставляя матрицу  в выражение (6.6) получим два равенства:

                                                               (6.22)

где  распределены по стандартному нормальному закону.

Если приравнять в (6.22) ,  и , то получим линейную зависимость  от  вида

                                                                                                                                                     (6.23)

где случайная величина  имеет нормальное распределение ,  распределена как , а  и  некоторые константы. Данная линейная зависимость полностью определяется своими параметрами , , ,  и .

Таким образом, если требуется смоделировать двумерную выборку с линейной зависимостью  от  вида (6.23), то потребуется задать следующие вектор математических ожиданий и ковариационную матрицу

                                                                                                           (6.24)

 

6.4. Пример использования программной системы при обработке данных в медицине

Приведем пример использования программной системы для обработки данных лабораторных обследований при рассмотрении показателей липидного обмена у пациентов пожилого возраста с изолированной систолической артериальной гипертензией. Данные были получены после обследования 80 человек.

Из множества наблюдаемых показателей выберем два: общий холестерин (ОХС) и триглицериды (ТГ). Выборки значений по обоим показателям хорошо описываются семейством распределений (6.4): для ОХС при параметрах ,  и , а для ТГ при ,  и . Оценка коэффициента парной корреляции между ОХС и ТГ равна .

Пусть требуется проверить гипотезу вида  для коэффициента парной корреляции. Из приведенных в главе 4 исследований следует, что распределение статистики  (4.3) критерия проверки данной гипотезы существенно зависит от вида наблюдаемого закона. Поэтому из найденных моделей распределения показателей ОХС и ТГ вытекает, что использовать при проверке гипотезы  классическое предельное распределение статистики  (стандартный нормальный закон) некорректно.

Для определения распределения статистики  воспользуемся разработанной программной системой. Смоделируем выборку значений статистики  достаточно большого объема, например , в случае наблюдения многомерного закона с параметром формы . И идентифицируем закон распределения данной статистики по смоделированной выборке.

В программной системе для воспроизведения исходной модели обрабатываемых данных потребуется задать параметры моделирования многомерного закона. Здесь достаточно оценки коэффициента корреляции и найденных параметров законов распределения для показателей ОХС и ТГ. Так, с учетом нулевого математического ожидания и единичной дисперсии одномерное распределение компонент случайного вектора  (6.9) есть распределение из семейства (6.4) с параметрами сдвига , масштаба  и формы . А вектор  и матрица  из (6.8)–(6.9) имеют вид

                                                                  

 

В результате моделирования при заданных параметрах будем наблюдать выборку псевдослучайного вектора , подчиняющегося, вообще говоря, неизвестному многомерному закону. Однако, маргинальные функции плотности моделируемого закона будут иметь вид для , а для , где  — функция плотности (6.4). А коэффициент корреляции между  и  будет равен . Таким образом, воссоздан многомерный закон распределения для описания исследуемых показателей.

Смоделированные данным способом выборки значений статистики  (4.3) хорошо описываются распределением семейства (6.4) при параметрах ,  и  (усредненный достигаемый уровень значимости по ряду критериев согласия ). Тогда как достигаемые уровени значимости при проверке согласия между смоделированными распределениями статистики  и стандартным нормальным законом (классическое предельное распределение) меньше .

Теперь, задавая в программной системе в качестве предельного закона статистики  (4.3) найденное распределение, можно будет корректно проверить гипотезу вида  для исходной выборки. При этом стоит отметить, что при близких к нулю значениях статистики критерия  различие между классическим предельным распределением и найденным несущественно. Но, например, если значение статистики , то достигаемый уровень значимости при проверке гипотезы  с учетом найденного распределения статистики будет равен , тогда как использование стандартного нормального закона даст .

6.5. Выводы

1.      В соответствии с целями диссертационной работы разработана программная система, которая реализует рассмотренные критерии классического корреляционного анализа, позволяет идентифицировать распределения статистик критериев через моделирование, осуществлять проверку гипотез для многомерных законов отличающихся от нормального по найденным распределениям статистик критериев.

2.      В результате предложенного изменения метода моделирования псевдослучайных нормальных векторов реализована универсальная процедура, позволяющая на базе одномерного распределения моделировать многомерные псевдослучайные величины с заданными вектором математических ожиданий и ковариационной матрицей.

Для исследований выбрано семейство распределений (6.4), позволяющее моделировать псевдослучайные величины, подчиненные как многомерному нормальному закону (параметр формы = 2), так и по закону отличному от нормального. Это было подтверждено численными исследованиями, в том числе маргинальных функций распределения моделируемых многомерных законов.

3.      Реализована процедура моделирования псевдослучайных векторов, подчиняющихся – мерному распределению Стьюдента с  степенями свободы, с заданными вектором математических ожиданий и ковариационной матрицей.

Разработанная программная система была использована Илюшенко А. Е.[55] для расчета коэффициентов межвидовой сопряженности –польной матрицы для массива данных в диссертационной работе на соискание ученой степени кандидата биологических наук «Группировки почвенных водорослей сосновых фитоценозов в режиме рекреационной нагрузки».

В диссертационной работе на соискание ученой степени кандидата медицинских наук Вихман Е. А. «Некоторые особенности изолированной систолической артериальной гипертензии у мужчин пожилого возраста» программная система применялась для уточнения наличия связей и их характера при рассмотрении показателей периферической, центральной гемодинамики, данных метаболизма у пациентов с изолированной систолической артериальной гипертензией пожилого возраста.

Программное обеспечение используется на факультете прикладной математики и информатики НГТУ при проведении лабораторных работ по курсу «Компьютерные технологии анализа данных и исследования статистических закономерностей» по специальности 010200 — прикладная математика и информатика, результаты исследований закономерностей многомерного анализа при нарушении предположений включены в курс «Методы статистического анализа», читаемых по направлению магистерской подготовки 510200 — прикладная математика и информатика.


 

Заключение

В соответствии с целями исследований на базе разработанного программного обеспечения получены следующие основные результаты:

1.      Показано, что получаемые методами компьютерного моделирования эмпирические распределения статистик корреляционного анализа в случае многомерного нормального закона хорошо согласуются с классическими предельными распределениями этих статистик. Для статистик различных критериев получены оценки объемов выборок , начиная с которых распределения соответствующих статистик хорошо согласуются с предельными.

2.      Реализована универсальная процедура, позволяющая на базе семейства распределений (6.4) моделировать псевдослучайные величины с заданными математическим ожиданием и ковариационной матрицей, распределенные как по многомерному нормальному закону, так и по законам отличным от нормального.

3.      Показано, что распределения статистик, используемых при проверке гипотез о векторе математических ожиданий, устойчивы к отклонениям многомерного закона от нормального в достаточно широких пределах: значимого изменения распределений статистик не происходит. Как в случае более островершинных по сравнению с нормальным, так и в случае более плосковершинных многомерных законах распределения данных статистик по"– прежнему хорошо описываются классическими результатами, полученными в предположении о нормальности наблюдаемого вектора. Аналогичная ситуация наблюдается и в одномерном случае при проверке гипотез вида .

4.      Показано, что распределения статистик критериев, используемых при проверке гипотез о ковариационной матрице, существенно зависят от вида наблюдаемого многомерного закона. В случае принадлежности наблюдений "– мерным законам, хорошо описываемым моделями, получаемыми в соответствии с разработанной процедурой моделирования, для распределений статистик  и  найдены аналитические модели законов, описывающие распределения этих статистик при определенных значениях размерности  и параметре формы .

Аналогичные результаты получены в одномерном случае для критериев проверки гипотез вида  при известном и неизвестном математическом ожидании: построены модели распределений и таблицы процентных точек для соответствующих статистик в случае принадлежности наблюдений семейству распределений (6.4).

5.      Показано, что распределения статистик критериев, используемых при проверке гипотез вида  для парных, частных и множественных коэффициентов корреляции, устойчивы к отклонениям наблюдаемого многомерного закона от нормального. Эмпирические распределения данных статистик по"– прежнему хорошо описываются предельными законами, полученными в предположении о нормальности наблюдаемых величин.

В то же время, в случае многомерных законов с «тяжелыми хвостами» наблюдается значимое отличие распределений статистик ,  и  соответствующих критериев от предельных классических.

6.      Используемые в критериях проверки гипотез о равенстве заданному значению парного или частного коэффициента корреляции статистики  и  существенно зависят от наблюдаемого многомерного закона. В то же время показано, что при  для проверки гипотез вида  можно пользоваться классическими результатами.

7.      Показано, что оценка корреляционного отношения сильно зависит от количества интервалов группирования. Показано, что разбиение области определения на интервалы равной частоты является наиболее предпочтительным для вычисления оценок .

8.      Показано, что распределение статистики критерия проверки гипотезы вида  в случае многомерного нормального закона хорошо согласуется с теоретическим предельным распределением, полученным в классическом корреляционном анализе. В случае многомерных законов, отличающихся от нормального в достаточно широких пределах (более островершинных или более плосковершинных), изменения предельного распределения статистики  не происходит.

Показаны вычислительные проблемы, возникающие при проверке гипотез вида , и плохая сходимость распределения статистики  к предельному.

Полученные результаты расширяют сферу корректного применения методов классического многомерного анализа в приложениях. Разработанное программное обеспечение используется при проведении научных исследований и в учебном процессе.

 


Список использованных источников

1. Alqallaf  F. A., Konis K. P., Martin R. D. Scalable robust covariance and corrlation estimates for data mining // Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining. — 2002. — Pp. 14–23.

2. Anderson T. W. An Introduction to Multivariate Statistical Analysis. — Third edition. — Wiley-Interscience, 2003. — 752 pp.

3. Bose R. C., Roy S. N. The exact distribution of the studentized D2 –statistic //  Sankhya. — 1938. — Vol. 4. — Pp. 19–38.

4. Bose R. C., Roy S. N. The use and distribution of the studentized D2 –statistic, when the variances and covariances are based on K samples // Sankhya. — 1938. — Vol. 4. — Pp. 535–542.

5. Chandra M., Singpurwalla N. D., Stephens M. A. Statistics for test of fit for  the Extrem-Value and Weibull distribution // J. Am. Statist. Assoc. — 1981. — Vol. 76. — P. 375.

6. Chen E. H. A random normal number generator for 32-bit-word computers // J. Am. Statist. Assoc. — 1971. — Vol. 66. — Pp. 400–403.

7. Devlin S. J., Gnanadesikan R., Kettenring J. R. Robust estimation and outlier detection with correlation coefficient // Biometrika. — 1975. — Vol. 62. — Pp. 531–545.

8. Fisher R. A. The distribution of the partial correlation coefficient // Metron. — 1924. — Vol. 3. — Pp. 329–332.

9. Fisher R. A. The general sampling distribution of the multiple correlation coefficient // Proc. Roy. Soc. — 1928. — Vol. A121. — Pp. 654–673.

10. Gayen A. K. The frequency distribution of the Radial standard deviation // Ann. Math. Soc. — 1951. — Vol. 2. — Pp. 188–202.

11. Hotelling H. A generalized T–test and measure of multivariate dispersion // Proceedings of the Second Berkeley Symposium on Mathematical Statistics and Probability. — University of California Press, 1951. — Pp. 23–42.

12. Hotelling H. New light on the correlation coefficient and its transforms // J. Roy. Stat. Soc. — 1953. — Vol. B 15. — Pp. 193–225.

13. Huseby J. R., Schwertman N. C., Allen D. M. Computation of the mean vector and dispersion matrix for incomplete multivariate data // Communs Statist. — 1980. — Vol. 9. — Pp. 301–309.

14. Johnson M. E. Multivariate Statistical Simulation: A Guide to Selecting and Generating Continuous Multivariate. — John Wiley & Sons, 1987. — 240 pp.

15. L’Ecuyer P., Touzin R. On the Deng-Lin random number generators and related methods // Statistics and Computing. — 2004. — Vol. 14. — Pp. 5–9.

16. Lumley T., Diehr P., Emerson S. The importance of the normality assumption in large public health data sets // Annual Review of Public Health. — 2002. — Vol. 23. — Pp. 151–169.

17. Pearson E. S., Hartley H. O. Biometrica tables for Statistics. — Cambridge: University Press, 1972. — Vol. 2. — 634 pp.

18. Pearson K. On the coefficients of Racial likeness // Biometrika. — 1926. — Vol. 18. — Pp. 105–117.

19. Pearson K. Note on standardization of method using the coefficients of Racial likeness // Biometrika. — 1928. — Vol. 20B. — Pp. 376–378.

20. Shevlyakov G. L. On robust estimation of a correlation coefficient // Journal of Mathematical Sciences. — 1997. — Vol. 83, no. 3. — Pp. 90–94.

21. Shevlyakov G. L., Lee J. W. Robust estimators of a correlation coefficient: Monte Carlo and asymptotics // Korean Journal of Mathematical Sciences. — 1997. — Vol. 4. — Pp. 205–212.

22. Stein P. G., Matey J. R., Pitts K. A review of statistical software for the Apple Macintosh // The American Statistician. — 1997. — Vol. 32, no. 1. — Pp. 67–82.

23. Stephens M. A. Use of Kolmogorov–Smirnov, Cramer–von Mises and related statistics – without extensive table // J. R. Stat. Soc. — 1970. — Vol. 32. — Pp. 115–122.

24. Stephens M. A. EDF statistics for goodness of fit and some comparisons // J. Am. Statist. Assoc. — 1974. — Vol. 69. — Pp. 730–737.

25. Wilks S. S. Moments and distribution of estimates of population parameters from fragmentary samples // Ann. Math. Stat. — 1932. — Vol. 3. — Pp. 163– 195.

26. Абусев Р. А., Колегова Н. В. Байесовские оценки для некоторых характеристик многомерного t-распределения стьюдента // Мат. межд. научн.-практ. конференции «САКС-2001». — Т. 2. — Красноярск: САА, 2001. — С. 291–292.

27. Айвазян С. А. Программное обеспечение персональных ЭВМ по статистическому анализу данных // Компьютер и экономика: экономические проблемы компьютеризации общества. — М.: Наука, 1991. — С. 91–107.

28. Айвазян С. А. Программное обеспечение персональных ЭВМ по статистическому анализу данных (проблемы, тенденции, перспективы отечественных разработок) // Заводская лаборатория. Диагностика материалов. — 1991. — Т. 57, No 1. — С. 54–58.

29. Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: Основы моделирования и первичная обработка данных. — М.: Финансы и статистика, 1983. — 471 с.

30. Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: Исследование зависимостей. — М.: Финансы и статистика, 1985. — 487 с.

31. Айвазян С. А., Мхитарян В. Прикладная статистика и основы эконометрики. Учебник для вузов. — М.: ЮНИТИ, 1998. — 1022 с.

32. Александров А. Д., Алексеев А. И., Горский Н. Д. Анализ данных на ЭВМ (на примере системы СИТО). — М.: Финансы и статистика, 1990. — 192 с.

33. Андерсон Т. Введение в многомерный статистический анализ. — М.: Физ. матгиз, 1963. — 500 с.

34. Архангельский А. Программирование в C++ Builder 6. — М.: Бином, 2002. — 1152 с.

35. Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ. — М.: Мир, 1982. — 488 с.

36. Болч Б., Хуань К. Д. Многомерные статистические методы для экономики. — М.: Статистика, 1979. — 317 с.

37. Бусленко Н. П., Шрейдер Ю. А. Метод статистических испытаний Монте-Карло и его реализация в цифровых машинах. — М.: Физматгиз, 1961. — 266 с.

38. Векслер Л. С. Статистический анализ на персональном компьютере // Мир ПК. — 1992. — No 2. — С. 89–97.

39. ГОСТ Р 50779.53-98. Приемочный контроль качества по количественному признаку для нормального распределения. Часть 1. Стандартное отклонение известно. — М.: Изд-во стандартов, 1998. — 23 с.

40. Губарев В. В. Вероятностные модели: Справочник. В 2-х ч. — Новосибирск: Изд-во НЭТИ, 1992. — Т. 2. — 188 с.

41. Губарев В. В. Вероятностные модели: Справочник. В 2-х ч. — Новосибирск: Изд-во НЭТИ, 1992. — Т. 1. — 198 с.

42. Давидович М. И., Петрович М. Л. Программное обеспечение ЭВМ: Библиотека прикладных программ БИМ. Вып. 20. (Прикладная статистика. Корреляционный анализ.). — Минск: Институт математики, АН БССР, 1989. — 187 с.

43. Денисов В. И., Лемешко Б. Ю., Постовалов С. Н. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Методические рекомендации. Часть I. Критерии типа χ2 . — Новосибирск: Изд-во НГТУ, 1998. — 126 с.

44. Джонстон Д. Эконометрические методы. — М.: Статистика, 1980. — 446 с.

45. Дубровский С. А. Прикладной многомерный статистический анализ. — М.: Финансы и статистика, 1982. — 216 с.

46. Дьяконов В. Maple 6: учебный курс. — СПб.: Питер, 2001. — 608 с.

47. Елисеева И. И., Семенова Е. В. Основные процедуры многомерного статистического анализа. — Л.: УЭФ, 1993. — 78 с.

48. Енюков И. С. Методы, алгоритмы, программы многомерного статистического анализа: Пакет ППСА. — М.: Финансы и статистика, 1986. — 232 с.

49. Ермаков С. М. Метод Монте-Карло и смежные вопросы. — М.: Наука, 1975. — 471 с.

50. Ермаков С. М. О датчиках случайных чисел // Заводская лаборатория. Диагностика материалов. — 1993. — Т. 59, No 7. — С. 48–50.

51. Ермаков С. М., Михайлов Г. А. Курс статистического моделирования. — М.: Наука, 1976. — 320 с.

52. Ермаков С. М., Михайлов Г. А. Статистическое моделирование. — М.: Наука, 1982. — 296 с.

53. Загоруйко Н. Г. Анализ данных и анализ знаний // Анализ последовательностей и таблиц данных. Вып. 150: Вычислительные системы. — Новосибирск: 1994. — С. 3–17.

54. Загоруйко Н. Г. Прикладные методы анализа данных и знаний. — Новосибирск: Изд-во Ин-та математики, 1999. — 270 с.

55. Илюшенко А. Е. Группировки почвенных водорослей сосновых фитоценозов в режиме рекреационной нагрузки: Автореф. дисс. . . к–та биолог. наук. / ГУ. — Н., 2003. — 21 с.

56. Кемени Д., Снелл Д. Кибернетическое моделирование. — М.: Сов. радио, 1972. — 192 с.

57. Кендалл М., Стьюарт А. Теория распределений. — М.: Наука, 1966. — 588 с.

58. Кендалл М., Стьюарт А. Статистические выводы и связи. — М.: Наука, 1973. — 900 с.

59. Кендалл М., Стьюарт А. Многомерный статистический анализ и временные ряды. — М.: Наука, 1976. — 736 с.

60. Кирьянов Б. Ф. К проблеме моделирования случайных векторов // Вестник НовГУ. — No 3. — Новгород: 1996. — С. 87–89.

61. Компьютерные методы исследований статистических закономерностей / Б. Ю. Лемешко, С. Н. Постовалов, С. С. Помадин и др. // Тезисы докладов всероссийской НТК «Информационные системы и технологии ИСТ-2001». — Нижний Новгород: 2001. — С. 87–89.

62. Куллдорф Г. Введение в теорию оценивания по группированным и частично группированным выборкам. — М.: Наука, 1966. — 176 с.

63. Лбов Г. С. Методы обработки разнотипных экспериментальных данных. — Новосибирск: Наука, 1981. — 157 с.

64. Лбов Г. С., Старцева Н. Г. Логические решающие функции и вопросы статистической устойчивости решений. — Новосибирск: Изд-во Ин-та математики, 1999. — 212 с.

65. Лемешко Б. Ю. Корреляционный анализ многомерных наблюдений случайных величин: Программная система. — Новосибирск: Изд-во НГТУ, 1995. — 39 с.

66. Лемешко Б. Ю. Статистический анализ одномерных наблюдений случайных величин: Программная система. — Новосибирск: Изд-во НГТУ, 1995. — 125 с.

67. Лемешко Б. Ю. Компьютерные методы исследований статистических закономерностей // Сб. «Моделирование, автоматизация и оптимизация наукоемких технологий». — Новосибирск: Изд-во НГТУ, 2000. — С. 18– 19.

68. Лемешко Б. Ю., Ванюкевич О. Н. Проверка гипотез о дисперсии при нарушении предположений о нормальности // Сб. научных трудов НГТУ. — Новосибирск: Изд-во НГТУ, 2002. — No 3(29). — С. 27–32.

69. Лемешко Б. Ю., Гильдебрант С. Я., Постовалов С. Н. К оцениванию параметров надежности по цензурированным выборкам // Заводская лаборатория. Диагностика материалов. — 2001. — Т. 67, No 1. — С. 52–64.

70. Лемешко Б. Ю., Помадин С. С. Исследование распределений статистик в корреляционном анализе при отклонении многомерного закона от много мерного нормального // Сборник тезисов докладов Новосибирской меж вузовской научной студенческой конференции «Интеллектуальный потенциал Сибири» (Часть 1). — Новосибирск: 2000. — С. 15–16.

71. Лемешко Б. Ю., Помадин С. С. Исследование распределений статистик корреляционного анализа при отклонении многомерного закона от нормального // Материалы V международной конференции «Актуальные проблемы электронного приборостроения» АПЭП-2000. — Т. 7. — Ново сибирск: 2000. — С. 184–187.

72. Лемешко Б. Ю., Помадин С. С. Один подход к моделированию псевдослучайных векторов с «заданными» числовыми характеристиками по законам, отличным от нормального // Российская научно-техническая конференция «Информатика и проблемы телекоммуникаций». Материалы конференции. — Новосибирск: 2001. — С. 121–122.

73. Лемешко Б. Ю., Помадин С. С. Статистическое моделирование распределений статистик корреляционного анализа при отклонении многомерного закона от нормального // Тезисы докладов региональной научной конференции студентов, аспирантов, молодых ученых «Наука. Техника Инновации» (Часть 1). — Новосибирск: 2001. — С. 31–32.

74. Лемешко Б. Ю., Помадин С. С. Корреляционный анализ наблюдений многомерных случайных величин при нарушении предположений о нор мальности // Сибирский журнал индустриальной математики. — 2002. — Т. 5, No 3(11). — С. 115–130.

75. Лемешко Б. Ю., Помадин С. С. Распределения статистик корреляционного анализа при отклонении многомерного закона от нормального // Материалы VI международной конференции «Актуальные проблемы электронного приборостроения» АПЭП-2002. — Т. 6. — Новосибирск: 2002. — С. 32–35.

76. Лемешко Б. Ю., Помадин С. С. Исследование распределений статистик, используемых при проверке гипотез о значениях математического ожидания и дисперсии, при наблюдаемых законах, отличных от нормального // Тезисы докладов МНТК «Информатика и проблемы телекоммуни каций». — Т. 2. — Новосибирск: 2003. — С. 142–143.

77. Лемешко Б. Ю., Помадин С. С. Исследование распределений статистик, используемых при проверке гипотез о математическом ожидании и дисперсии, в случае принадлежности наблюдаемых величин экспоненциальному семейству распределений // Материалы региональной конференции «Вероятностные идеи в науке и философии». — Новосибирск: 2003. — С. 102–105.

78. Лемешко Б. Ю., Помадин С. С. Исследование распределений статистик, используемых при проверке гипотез о ковариационных матрицах, при наблюдаемых законах, отличных от нормального // Тезисы докладов МНТК «Информатика и проблемы телекоммуникаций». — Т. 1. — Новосибирск: 2004. — С. 130–132.

79. Лемешко Б. Ю., Помадин С. С. Корреляционный анализ многомерных случайных величин при нарушении предположений о нормальности // Труды 10-го юбилейного симпозиума по непараметрическим и робастным статистическим методам в кибернетике. — Томск: 2004. — С. 114–128.

80. Лемешко Б. Ю., Помадин С. С. Проверка гипотез о математических ожиданиях и дисперсиях в задачах метрологии и контроля качества при вероятностных законах, отличающихся от нормального // Метрология. — 2004. — No 4. — С. 3–15.

81. Лемешко Б. Ю., Помадин С. С., Кузьменко С. В. Программное обеспечение компьютерного исследования статистических закономерностей в задачах корреляционного анализа // Российская научно-техническая конференция «Информатика и проблемы телекоммуникаций». Материалы конференции. — Новосибирск: 2001. — С. 79.

82. Лемешко Б. Ю., Помадин С. С., Лемешко С. Б. Численные исследования свойств критериев проверки статистических гипотез, используемых в задачах управления качеством // Тезисы докладов всероссийской НТК «Информационные системы и технологии ИСТ-2004». — Нижний Нов- город: 2004. — С. 60–61.

83. Лемешко Б. Ю., Помадин С. С., Французов А. В. Статистическое моделирование распределений статистик, используемых в корреляционном анализе // Российская научно-техническая конференция «Информатика и проблемы телекоммуникаций». Материалы конференции. — Новосибирск: 2000. — С. 101–102.

84. Лемешко Б. Ю., Постовалов С. Н. О распределениях статистик непараметрических критериев согласия при оценивании по выборкам параметров наблюдаемых законов // Заводская лаборатория. — 1998. — Т. 64, No 3. — С. 61–72.

85. Лемешко Б. Ю., Постовалов С. Н. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Методические рекомендации. Часть II. Непараметрические критерии. — Новосибирск: Изд-во НГТУ, 1999. — 85 с.

86. Лемешко Б. Ю., Постовалов С. Н. О зависимости распределений статистик непараметрических критериев и их мощности от метода оценивания параметров // Заводская лаборатория. Диагностика материалов. — 2001. — Т. 67, No 7. — С. 62–71.

87. Лемешко Б. Ю., Постовалов С. Н. Применение непараметрических критериев согласия при проверке сложных гипотез // Автометрия. — 2001. — No 2. — С. 88–102.

88. Лемешко Б. Ю., Постовалов С. Н. Непараметрические критерии при проверке сложных гипотез о согласии с распределениями Джонсона // Доклады СО АН ВШ. — 2002. — No 1(5). — С. 65–74.

89. Лемешко Б. Ю., Постовалов С. Н. Компьютерные технологии анализа данных и исследование статистических закономерностей: учеб. пособие. — Новосибирск: Изд-во НГТУ, 2004. — 120 с.

90. Лемешко Б. Ю., Чимитова Е. В. Методика компьютерного моделирования в исследовании статистических закономерностей // Тезисы докладов региональной НТК «Наука. Техника. Инновации». — Т. 2. — НТИ-2001, 2001. — С. 46–48.

91. Лемешко Б. Ю., Чимитова Е. В. Построение оптимальных L-оценок параметров сдвига и масштаба распределений по выборочным квантилям //  Сибирский журнал индустриальной математики. — 2001. — Т. 4, No 2. —  С. 166–183.

92. Лемешко Б. Ю., Чимитова Е. В. Оптимальные L–оценки параметров  сдвига и масштаба распределений по выборочным квантилям // Заводская лаборатория. Диагностика материалов. — 2004. — Т. 70, No 1. — С. 54–66.

93. Леонов В. П., Ижевский П. В. Об использовании прикладной статистики  при подготовке диссертационных работ по медицинским и биологическим специальностям // Бюллетень ВАК РФ. — 1997. — No 5. — С. 56–61.

94. Леонов В. П., Ижевский П. В. Применение статистики в медицине и  биологии: анализ публикаций 1990-1997 гг. // Сибирский медицинский журнал. — 1997. — No 3-4. — С. 64–74.

95. Маленво Э. Статистические методы в эконометрии. — М.: Статистика, 1976. — 325 с.

96. Манзон Б. М. Maple V Power Edition. — М.: Информационно–издательский дом «Филинъ», 1998. — 240 с.

97. Новицкий П. В., Зограф И. А. Оценка погрешностей результатов измерений. — Л.: Энергоатомиздат, 1991. — 303 с.

98. Орлов А. И. Распространенная ошибка при использовании критериев  Колмогорова и омега-квадрат // Заводская лаборатория. Диагностика  материалов. — 1985. — Т. 51, No 1. — С. 60–62.

 9. Орлов А. И. Часто ли распределение результатов наблюдений является нормальным? // Заводская лаборатория. Диагностика материалов. —  1991. — Т. 57, No 7. — С. 64–66.

100. Орлов А. И. О современных проблемах внедрения прикладной статистики и других статистичесих методов // Заводская лаборатория. Диагностика материалов. — 1992. — Т. 58, No 1. — С. 67–74.

101. Орлов А. И. Некоторые нерешенные вопросы в области математических  методов исследования // Заводская лаборатория. Диагностика матери-  алов. — 2002. — Т. 68, No 3. — С. 52–56.

102. Пасман В. Р., Шевляков Г. Л. Робастные методы оценивания коэффициента корреляции // Автоматика и Телемеханика. — 1987. — Т. 27, No 3. —  С. 70–80.

103. Петрович М. Л. Численное исследование на ЭВМ некоторых алгоритмов прикладной статистики // Заводская лаборатория. Диагностика мате риалов. — 1991. — Т. 57, No 7. — С. 56–64.

104. Петрович М. П., Давидович М. И. Статистическое оценивание и проверка  гипотез на ЭВМ. — М.: Финансы и статистика, 1989. — 192 с.

105. Подбельский В. В. Язык Си++: Учеб. пособие. — М.: Финансы и статистика, 1995. — 560 с.

106. Полляк Ю. Г. Вероятностное моделирование на электронных вычислительных машинах. — М.: Сов. радио, 1971. — 400 с.

107. Помадин С. С. К проверке гипотез о математических ожиданиях и дисперсиях при законах, отличающихся от нормального // Сборник научных

 трудов НГТУ. — 2003. — No 4(34). — С. 41–46.

108. Райков Д. А. Многомерный математический анализ. — М.: Высшая школа, 1989. — 271 с.

109. Рао С. Р. Линейные статистические методы и их применения. — М.:

  Наука, 1968. — 548 с.

110. Рыданова Г. В. Методика изучения временных зависимостей в последовательностях случайных чисел // Заводская лаборатория. Диагностика материалов. — 1986. — Т. 52, No 1. — С. 56–58.

111. Р 50.1.033-2001. Рекомендации по стандартизации. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть I. Критерии типа хи-квадрат. — М.: Изд-во стандартов,  2002. — 87 с.

112. Р 50.1.037-2002. Рекомендации по стандартизации. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть II. Непараметрические критерии. — М.: Изд-во стандартов, 2002. — 64 с.

113. Соболь И. М. Численные методы. — М.: Наука, 1973. — 312 с.

114. Сошникова Л. А., Тамашевич В. Н., Уебе Г. Многомерный статистический анализ в экономике: Учеб. пособие для вузов / Под ред. В. Н. Тамашевича. — М.: ЮНИТИ-ДАНА, 1999. — 598 с.

115. Статистические и математические системы // Каталог «Тысячи программных продуктов». — 1995. — No 2. — С. 88–92.

116. Тьюки Д. У. Анализ результатов наблюдений / Под ред. В. Э. Фигурнова. — М.: Мир, 1981. — 693 с.

117. Тюрин Ю. Н. О предельном распределении статистик Колмогорова–Смирнова для сложной гипотезы // Изв. АН СССР. Сер. Матем. — 1984. — Т. 48, No 6. — С. 1314–1343.

118. Тюрин Ю. Н. Исследования по непараметрической статистике (непараметрические методы и линейная модель): Автореф. дисс. . . д–ра физ.–мат. наук. / МГУ. — М., 1985. — 33 с.

119. Тюрин Ю. Н., Макаров А. А. Анализ данных на компьютере. — М.: Финансы и статистика, 1995. — 384 с.

120. Тюрин Ю. Н., Макаров А. А. Статистический анализ данных на компьютере / Под ред. В. Э. Фигурнова. — М.: ИНФРА, 1997. — 528 с.

121. Тюрин Ю. Н., Саввушкина Н. Е. Критерии согласия для распределения Вейбулла–Гнеденко // Изв. АН СССР. Сер. Техн. Кибернетика. — 1984. — No 3. — С. 109–112.

122. Ферестер Э., Ренц Б. Методы корреляционного и регрессионного анализа. — М.: Финансы и статистика, 1988. — 302 с.

123. Шметтерер Л. Введение в математическую статистику. — М.: Наука, 1976. — 520 с.

124. Эфрон Б. Нетрадиционные методы многомерного статистического анализа. — М.: Финансы и статистика, 1988. — 263 с.