Сибирский журнал индустриальной математики. 2002. - Т.5. - № 3. - С.115-130.

УДК 519.24

Лемешко Б.Ю., Помадин С.С.

(Новосибирск)

Корреляционный анализ наблюдений многомерных случайных величин при нарушении предположений о нормальности [1]

Для ряда статистик, используемых при проверке гипотез относительно наблюдаемых многомерных величин, показано, что в случае законов, отличающихся от многомерного нормального в достаточно широких пределах (более островершинных или более плосковершинных), значимого изменения предельных распределений статистик не происходит. Эмпирические распределения данных статистик по-прежнему хорошо описываются предельными законами, полученными в классическом корреляционном анализе в предположении о нормальности наблюдаемого вектора. Результаты расширяют сферу корректного применения методов классического корреляционного анализа в приложениях.

1. Введение

В различных приложениях статистического анализа многомерных величин одну из ключевых позиций занимают задачи корреляционного анализа. В процессе решения этих задач выявляется наличие и характер взаимосвязи величин, взаимозависимости величин при устранении влияния совокупности других или зависимости одной случайной величины от группы величин, вычисляются оценки коэффициентов и матриц парной, частной и множественной корреляции, проверяются различные статистические гипотезы относительно параметров многомерного распределения и коэффициентов корреляции. На основании результатов корреляционного анализа может делаться вывод о наличии и характере функциональной зависимости или о предпочтительности для описания исследуемого объекта регрессионной модели того или иного вида.

В основе классического аппарата корреляционного анализа лежит предположение о принадлежности наблюдаемого случайного вектора многомерному нормальному закону. Базируясь на этом, получены предельные распределения статистик, используемых в корреляционном анализе. На практике предпосылки классического корреляционного анализа выполняются далеко не всегда. Поэтому возникает вопрос о справедливости выводов, получаемых на основании классического аппарата, при нарушении основного предположения.

Целью данных исследований явилось стремление разобраться, что происходит с распределениями различных статистик корреляционного анализа в ситуациях, если наблюдаемый многомерный закон отличается от нормального. Ответить на поставленный вопрос, используя чисто аналитические методы, чрезвычайно затруднительно из-за нетривиальности возникающих задач. Поэтому в основу проводимых исследований положена развиваемая нами методика компьютерного анализа статистических закономерностей. Методика хорошо зарекомендовала себя при исследовании распределений статистик критериев согласия в случае проверки простых и сложных гипотез [1-6], при исследовании статистических свойств различных оценок [7-8].

Для подтверждения работоспособности методики в случае многомерных величин было предусмотрено исследование эмпирических распределений статистик классического корреляционного анализа при наблюдении нормального закона. Соответствие в такой ситуации эмпирических распределений, получаемых в процессе моделирования, предельным классическим распределениям статистик должно было послужить доводом, подчеркивающим достоверность результатов в общем случае.

Очевидно, что многомерный нормальный закон далеко не всегда является наилучшей моделью для описания реально наблюдаемых многомерных случайных величин. Однако в литературных источниках очень трудно найти примеры использования в этих целях других математических моделей. Нас интересует вопрос, насколько корректны выводы, формируемые на основании конкретных процедур классического корреляционного анализа, если истинная модель многомерного закона в той или иной мере отличается от нормального, и как такое отличие влияет на распределения исследуемых статистик. Ключевым моментом для исследования распределений статистик корреляционного анализа при некоторых произвольных многомерных законах (отличающихся от нормального) является необходимость моделирования псевдослучайных векторов в соответствии с такими законами. Причем желательно иметь возможность моделирования псевдослучайных векторов по законам с «регулируемым удалением» от многомерного нормального, чтобы проследить соответствующие изменения распределений исследуемых статистик корреляционного анализа.

2. Моделирование многомерных случайных величин

Моделирование псевдослучайных нормальных векторов. Многомерное нормальное распределение случайного вектора размерности m полностью определяется вектором математических ожиданий и ковариационной матрицей

Функция плотности многомерного нормального закона имеет вид

Хорошо зарекомендовавший себя алгоритм генерирования псевдослучайных нормальных векторов подробно изложен в [9]. Пусть мы имеем совокупность случайных величин , где Z_i – подчиняется стандартному нормальному закону с параметрами (0, 1). Тогда вектор , распределенный по многомерному нормальному закону с параметрами и , получается через линейное преобразование вида

. (1)

Обычно полагают, что А является нижней треугольной матрицей

коэффициенты a_ij которой определяются рекуррентной процедурой:

, (2)

Моделирование многомерных законов, отличных от нормального. Процедуру моделирования многомерных величин, распределенных по законам, отличных от нормального, с заданными математическим ожиданием и ковариационной матрицей предложено [10] реализовать в соответствии с описанным выше алгоритмом. При этом совокупность , формируется уже не по стандартному нормальному закону, а в соответствии с некоторым одномерным законом распределения с нулевым математическим ожиданием и единичной дисперсией. Затем заданная матрица раскладывается по формуле (2) и осуществляется преобразование (1). На выходе мы имеем некоторый многомерный закон, отличный от нормального закона, с известным математическим ожиданием, но, вообще говоря, с неизвестной ковариационной матрицей, так как ковариационная матрица смоделированного закона не совпадает с используемой при моделировании матрицей .

Для моделирования различных совокупностей , удобно использовать экспоненциальное семейство распределений с плотностью

где l – параметр формы, так как оно охватывает целый класс симметричных распределений. Частными случаями данного закона являются распределение Лапласа (при l = 1), нормальное (l = 2), предельными – распределение Коши (l ® 0) и равномерное (l ® ). Рис. 1 иллюстрирует изменение функции плотности семейства экспоненциальных распределений при изменении параметра формы от 0,5 до 10. С помощью параметра формы l мы можем задавать непрерывное «удаление» моделируемого (наблюдаемого) многомерного закона от нормального, делая его более плосковершинным по сравнению с нормальным при l > 2 или более островершинным при 0 < l < 2. При l = 2 будут формироваться псевдослучайные векторы в соответствии с нормальным законом.

Рис 1. Функции плотности экспоненциального семейства
распределений при различных параметрах формы

К сожалению, такая процедура не позволяет нам моделировать многомерный закон с некоторой произвольной функцией распределения, с заданными математическим ожиданием и ковариационной матрицей и который находится на «заданном» расстоянии (определяемом в смысле некоторой меры) от многомерного нормального закона. Однако мы можем построить датчик, генерирующий псевдослучайные векторы по закону, отличающемуся от нормального (в соответствии с процессом моделирования), с известными математическим ожиданием и ковариационной матрицей. При этом вектор математического ожидания и ковариационная матрица определяются на основании исследования свойств полученного датчика (при заданных , и l). Для определения «истинной» ковариационной матрицы моделируемого многомерного закона нами использовались оценки максимального правдоподобия (ОМП), усредняемые по множеству проведенных экспериментов.

Таким образом, нами решалась задача не по моделированию закона с заданными математическим ожиданием и ковариационной матрицей, а задача по моделированию закона с математическим ожиданием и ковариационной матрицей, истинные значения которых уточнялись в процессе исследования многомерного датчика. Этого, вообще говоря, достаточно для целей настоящего исследования. На рис. 2 приведен вид функций плотности, получаемых в случае моделирования двумерных векторов при l=2 (плотность нормального закона, слева) и при l=10 (справа). Как видим, во втором случае полученное плосковершинное распределение существенно отличается от нормального.

Рис 2. Смоделированные плотности двумерного закона, построенного
при значениях параметра формы l= 2 (слева) и l= 10 (справа)

3. Исследуемые задачи проверки статистических гипотез классического
корреляционного анализа

Пусть – выборка из n наблюдений m-мерного случайного вектора; – математическое ожидание случайного вектора ; – ковариационная матрица случайного вектора ; и – ОМП математического ожидания и ковариационной матрицы:

, .

Основное множество задач проверки статистических гипотез в классическом корреляционном анализе ( принадлежит нормальному закону) касается проверки гипотез о векторе математического ожидания, о ковариационной матрице, о парных, частных и множественных коэффициентах корреляции [11]. Все эти задачи реализованы в системе [12].

Проверка гипотез о равенстве математического ожидания некоторому известному вектору. Проверяемая гипотеза имеет вид , где – номинальное значение вектора математических ожиданий. Ковариационная матрица может быть известной или неизвестной.

а) Ковариационная матрица S известна. В этом случае статистика

(3)

при справедливой гипотезе H₀ в качестве предельного распределения имеет ‑ распределение с числом степеней свободы m [11].

б) Ковариационная матрица S неизвестна. В этом случае используется статистика

, (4)

которая при справедливости гипотезы H₀ в пределе подчиняется распределению Фишера с параметрами m и n-m: [11].

Проверка гипотез о коэффициентах парной корреляции. Взаимозависимость двух компонент случайного вектора характеризуется парным коэффициентом корреляции . Относительно парного коэффициента корреляции могут проверяться два вида гипотез: о значимости корреляции () и о равенстве коэффициента корреляции номинальному значению ().

В случае проверки гипотезы статистика

, (5)

где – оценка парного коэффициента корреляции ( – элементы ОМП ковариационной матрицы ), имеет в качестве предельного распределения ‑ распределение Стьюдента с числом степеней свободы n-2 [11].

При проверке гипотезы статистика

(6)

имеет в качестве предельного закона стандартное нормальное распределение [11].

Проверка гипотез о коэффициентах частной корреляции. В случае частных корреляций рассматриваются условные корреляции между двумя компонентами случайного вектора при фиксированных значениях некоторых других.

Представим случайный вектор в следующем виде [11]:

где , , соответственно вектор математических ожиданий и ковариационную матрицу

, .

Если случайный вектор подчиняется нормальному закону с вектором средних и ковариационной матрицей , то условное распределение подвектора при известном является нормальным с математическим ожиданием и ковариационной матрицей , где , .

ОМП для частного коэффициента корреляции определяется следующим соотношением:

где - элемент i-й строки и j-го столбца матрицы , l – число компонент в условном распределении, 2 £ l £ m. В данном случае при оценке взаимозависимости между компонентами и случайной величины исключается влияние компонент .

При проверке гипотез вида и используются те же самые статистики, что и для парного коэффициента корреляции. Но в данном случае в соответствующих соотношениях n заменяется на n – m + l.

Для проверки гипотезы вычисляется статистика

. (7)

При этом предельным распределением статистики является ‑ распределение Стьюдента с числом степеней свободы n – m + l – 2 [11].

При проверке гипотезы используется статистика

, (8)

предельным распределением которой является стандартное нормальное распределение [11].

Проверка гипотезы о коэффициенте множественной корреляции. Множественный коэффициент корреляции является мерой зависимости компоненты многомерной случайной величины от некоторого множества компонент. Можно рассматривать корреляцию между одной компонентой случайного вектора и множеством всех остальных или каким-то подмножеством.

Если представить случайный вектор в том виде, как это было показано выше, то ОМП множественного коэффициента корреляции между X_i, i £ l и множеством компонент определяется соотношением

где – i^ая строка матрицы S₁₂, – элемент матрицы S₁₁.

Для проверки гипотезы вычисляется статистика

, (9)

предельным распределением которой является -распределение Фишера с числами степеней свободы m – l и n – m + l – 1 [11].

Еще раз подчеркнем, что все рассмотренные выше статистики имеют в качестве предельных указанные распределения лишь при наблюдении многомерного нормального закона. Как изменятся предельные распределения статистик, насколько будут справедливы выводы, формулируемые на основании решения классических задач корреляционного анализа, если наблюдаемый многомерный закон отличается от нормального, заранее сказать нельзя.

В настоящей работе продолжены исследования распределений статистик корреляционного анализа, начатые в [12-14].

4. Исследование распределений статистик критериев, используемых в корреляционном анализе

Исследование распределений статистик в случае принадлежности наблюдений нормальному закону. На первом этапе методами статистического моделирования исследовались распределения статистик корреляционного анализа при условии, что наблюдения принадлежат многомерному нормальному закону. Близость получаемых эмпирических распределений статистик, в данном случае, известным предельным законам, является доводом в пользу надежности методики при анализе достоверности результатов последующих исследований.

Моделирование и исследование эмпирических распределений статистик классического корреляционного анализа показало, что они очень хорошо согласуются с соответствующими теоретическими предельными распределениями.

Например, на рис. 3 представлены эмпирическое распределение статистики (3) и соответствующее предельное -распределение при m=2 и объеме выборки n = 45. В ходе исследований объемы выборок значений статистик, формируемых в результате моделирования, всегда задавались равными 1000. На рисунке отражены результаты проверки согласия эмпирического распределения с теоретическим предельным по критериям Колмогорова, Смирнова, и Мизеса, Пирсона и отношения правдоподобия [3–4]: по каждому из критериев приведен достигнутый уровень значимости , где – предельное распределение статистики соответствующего критерия согласия при справедливости проверяемой гипотезы , – значение статистики критерия, вычисленное по анализируемой выборке.

Исследование сходимости распределений статистик корреляционного анализа к предельным в зависимости от объема выборки n многомерного закона показало, что для тех статистик, параметры предельных распределений которых не зависят от объема выборки [статистики (3), (6) и (8)], эмпирические распределения статистик оказываются близки к предельным уже при выборках сравнительно небольшого объема. Так, у статистики высокий достигаемый уровень значимости по критериям согласия наблюдается с объемов выборки n = 30¸45, а для статистики (как для парного коэффициента корреляции, так и для частного) – с n = 100¸150. Распределения статистик T², t (для парного и частного коэффициента) и F, параметры предельных распределений которых зависят от объема выборки n, хорошо согласуются с предельными, начиная с объемов выборок n = 15‑30.

Существенного влияния размерности случайного вектора m на сходимость распределений соответствующих статистик к предельным при исследовании отмечено не было.

Рис 3. Распределение статистики при нормальном законе (m = 2),
при объеме выборок n = 45

Исследование распределений статистик при отличающихся от нормального законах. Отметим еще раз особенность, связанную с моделированием псевдослучайных векторов с использованием экспоненциального семейства распределений с параметром формы l, которую приходится учитывать при моделировании и исследовании рассматриваемых в данной работе статистик. Матрица , задаваемая на этапе моделирования, отличается от ковариационной матрицы получаемого псевдослучайного вектора. Это является следствием того, что преобразуется случайный вектор, сформированный из компонент, распределенных по «ненормальному» закону (в нашем случае – по экспоненциальному семейству). Для исследования же распределений статистик корреляционного анализа нам необходимы выборки псевдослучайных векторов с известными (истинными) параметрами (математическим ожиданием и ковариационной матрицей), соответствующими проверяемой гипотезе. В качестве «истинной» ковариационной матрицы нами используется арифметическое среднее ее оценок максимального правдоподобия, получаемое по множеству выборок большого размера при неизменном векторе математических ожиданий. Мы не можем моделировать псевдослучайные векторы по «ненормальному» закону с заданной ковариационной матрицей, но можем моделировать с известной ковариационной матрицей. А этого достаточно для целей нашего исследования. Эту особенность приходится учитывать только при исследовании статистики (3), при вычислении которой используется известная ковариационная матрица. В выражения остальных статистик, исследуемых в данной работе, входит оценка ковариационной матрицы.

Исследования распределений статистик проводилось для многомерных законов, моделируемых с использованием рассмотренной процедуры при значениях параметра экспоненциального семейства l >1. Это ограничение обусловлено тем, что предельным случаем экспоненциального семейства при l ® 0 является распределение Коши, которое представляет собой пример «патологического» распределения: не существует математического ожидания и дисперсия расходится. Поэтому в результате моделирования при параметре l < 1 мы получаем закон с вырожденной ковариационной матрицей.

Распределения статистик корреляционного анализа при многомерных законах, отличающихся от нормального и моделируемых в соответствии с описанной процедурой, базирующейся на экспоненциальном семействе с параметром формы , определяющим вид закона, исследовались при различных объемах выборок n и различной размерности случайных величин m. На рис. 4–8 приведены примеры моделирования распределений исследуемых статистик с отражением соответствующих предельных распределений классических статистик. На рисунках представлены также значения достигнутых уровней значимости по критериям Колмогорова, Смирнова, и Мизеса, Пирсона и отношения правдоподобия при проверке согласия полученных в результате моделирования эмпирических распределений статистик с предельными распределениями классических статистик.

На рис. 4 показан вид распределения статистики при законе, смоделированном по параметру . Высокие достигнутые уровни значимости по всем критериям согласия и визуальная близость распределения статистики и предельного в случае многомерного нормального закона F–распределения Фишера, позволяют утверждать, что вид предельного распределения статистики значимо не изменился.

Рис 4. Распределение статистики при многомерном законе (m = 2),
построенном при параметре = 5, и объеме выборок n = 15

На рис. 5-6 приведены результаты моделирования распределения статистики , вычисляемой по формуле (6), при проверке гипотез о номинальном значении коэффициента парной корреляции в случае многомерных законов, моделируемых при параметрах нашей процедуры и , соответственно. И здесь высокие достигнутые уровни значимости по всем критериям согласия свидетельствуют в пользу того, что вид предельного распределения статистики тот же, что и в классическом случае.

Результаты моделирования распределения статистики , вычисляемой при проверке гипотез о частном коэффициенте корреляции, при законе, построенном по параметру = 5, отражены на рис. 7. На рис. 8 представлены результаты исследования распределения статистики при многомерном законе, смоделированном с параметром = 10. В этих случаях также можно констатировать близость эмпирических распределений статистик к предельным, полученным в классическом корреляционном анализе.

Рис 5. Распределение статистики (для парного коэффициента корреляции)

при многомерном законе (m = 3), построенном при параметре = 5,

и объеме выборок n = 100

Рис 6. Распределение статистики (для парного коэффициента корреляции)
при многомерном законе (m = 3), построенном при параметре = 10,

и объеме выборок n = 100

Проведенные исследования распределений рассмотренных статистик корреляционного анализа показали, что в случае многомерных законов, достаточно существенно отличающихся от нормального (более островершинных или более плосковершинных, но симметричных), значимого изменения предельных распределений статистик не происходит. Это позволяет утверждать, что статистические выводы в исследованных задачах корреляционного анализа будут оставаться корректными и при нарушении предположений о нормальности наблюдаемого многомерного закона при условиях сохранения симметрии, существовании вектора математических ожиданий и невырожденности ковариационной матрицы.

Рис 7. Распределение статистики (для частного коэффициента корреляции)
при многомерном законе (m = 3), построенном при параметре = 5,

и объеме выборок n = 100

Рис 8. Распределение статистики при многомерном законе (m = 3),
построенном при параметре = 10, и объеме выборок n = 15

5. Уточнение моделей распределений статистик корреляционного анализа при «ненормальных» законах

Как показано выше, распределения ряда статистик, вычисляемых в корреляционном анализе, при существенном отличии наблюдаемого закона от нормального незначимо отличаются от предельных распределений, полученных в классическом случае. Результаты моделирования распределений рассматриваемых статистик в случае принадлежности многомерных величин законам, отличающимся от нормального, показали, что эмпирические распределения статистик очень хорошо согласуются с предельными законами, полученными в предположении о нормальности многомерного случайного вектора. Например, нет оснований для отказа от использования в качестве предельных в соответствующих случаях распределений –, F – или нормального.

– распределение представляет собой частный случай гамма–распределения, F – распределение Фишера – частный случай бета–распределения 2-го рода. Гамма–распределения, бета–распределения 2-го рода и нормальные распределения всегда оказываются хорошими моделями, описывающими эмпирические распределения соответствующих статистик корреляционного анализа, получаемые в результате моделирования. Если, например, действительно – распределение является предельным распределением некоторой статистики и в том случае, когда нарушается предположение о нормальности наблюдаемой многомерной величины, и мы для выравнивания эмпирического распределения статистики каждый раз будем использовать гамма–распределение, оценивая его параметры по выборке статистики, то модель гамма–распределения с параметрами, полученными усреднением по множеству экспериментов, должна привести нас к соответствующему – распределению.

В данном случае мы попытались уточнить модели распределений некоторых статистик корреляционного анализа следующим образом. Моделировалась выборка интересующей нас статистики, как правило, объемом в 1000 наблюдений. Эмпирическое распределение статистики сглаживалось соответствующей моделью (гамма-распределением, бета-распределением или нормальным) с оцениванием ее параметров. Такой эксперимент повторялся несколько десятков раз. Параметры моделей усреднялись по всей совокупности экспериментов. Если вид модели соответствует предельному распределению статистики, то среднее арифметическое вектора параметров модели должно сходиться к истинному значению вектора параметров. Например, от модели гамма-распределения будем приходить в соответствующем случае к ее частному случаю – распределению, от бета-распределения – к соответствующему F – распределению и т.п.

Предельным распределением классической статистики, используемой при проверке гипотезы о равенстве вектора математического ожидания некоторому номинальному, является –распределение, где – размерность многомерного вектора. Это соответствует гамма–распределению с плотностью с параметром формы и параметром масштаба . В табл. 1 представлены усредненные по 50 смоделированным выборкам статистики значения параметров модели гамма–распределения, аппроксимирующие распределение статистики в случае многомерных законов величин, моделируемых при различных значениях параметра датчика l (l=2 соответствует нормальному закону). Размерность моделируемых многомерных величин m = 3. Очевидно, что значения параметров в случае наблюдения нормального закона сходятся к значениям 2 и 1,5 соответственно. Это соответствует –распределению. На рис. 9 отражены соответствующие функции распределения статистики. Видно, что функции распределения статистики при законах, моделируемых с параметрами l=1,2,5,10, практически совпадают.

Таблица 1

Параметры гамма–распределения	l = 1	l = 2	l = 5	l = 10
	2,0157	2,0094	1,9892	1,9644
	1,4737	1,4938	1,5137	1,5302

Параметры

гамма–распределения

l = 1

l = 2

l = 5

l = 10

2,0157

2,0094

1,9892

1,9644

1,4737

1,4938

1,5137

1,5302

При проверке аналогичной гипотезы при неизвестной ковариационной матрице предельным распределение статистики является F_m,n-m – распределение. Данному случаю при размерности вектора m = 3 и объеме выборки n = 30 соответствует бета–распределение 2-го рода, плотность которого имеет вид , с масштабным параметром , параметрами формы и . Представленные в табл. 2 усредненные по 50 смоделированным выборкам значения параметров бета–распределения (при m = 3 и n = 30) показывают аналогичную картину сходимости. Очевидно, что значения параметров бета-распределения в случае наблюдения нормального закона сходятся к значениям = 1.5, =13.5, =9, что соответствует F– распределению Фишера с числом степеней свободы 3 и 27. Различие (или совпадение) четырех бета-распределений, соответствующих табл. 2, такого же порядка, как у распределений на рис. 9.

Рис. 9. Функции гамма–распределения с параметрами из табл. 1

Таблица 2

Параметры бета–распределения	l = 1	l = 2	l = 5	l = 10
	8,8628	8,9765	9,0619	9,1576
	1,5636	1,5062	1,4861	1,4627
	13,7685	13,5002	13,4401	13,3474

Предельным распределением статистик, используемых при проверке гипотез о парном и частном коэффициентах корреляции на равенство их определенному значению, в классическом случае является стандартное нормальное распределение. Табл. 3 и 4 иллюстрируют сходимость к стандартному нормальному закону распределений исследуемых статистик при многомерных законах, существенно отличающихся от нормального: табл. 3 – в случае проверки гипотез о парном коэффициенте корреляции, а табл. 4 – в случае проверки гипотез о частном коэффициенте корреляции. Как и в предыдущих случаях, усреднение осуществлялось по 50 выборкам статистик. Очевидно, что и в данном случае существенного различия между моделями распределений статистики нет

Предельным распределением статистики, вычисляемой при проверке гипотезы о равенстве нулевому значению множественного коэффициента корреляции, в классическом случае является F_m-l,n-m+l-1 – распределение. Это соответствует при m = 3, n = 30, l=2 бета-распределению с параметрами = 0.5, =14, =28. Как сходятся к данной ситуации распределения этой же статистики в случае наблюдаемых законов, отличающихся от многомерного нормального, иллюстрирует табл. 5. Во всех случаях полученные модели распределений статистик очень близки.

Таблица 3

Параметры нормального закона	l = 1	l = 2	l = 5	l = 10
	0,0296	0,0885	0,0183	0,0150
	1,0183	1,0016	0,9851	0,9927

Таблица 4

Параметры нормального закона	l = 1	l = 2	l = 5	l = 10
	0,0070	0,0445	0,0154	0,0051
	1,0263	1,0021	0,9923	0,9821

Таблица 5.

Параметры бета–распределения	l = 1	l = 2	l = 5	l = 10
	27,9500	28,0000	28,0089	27,9893
	0,4910	0,5000	0,4969	0,5044
	13,6056	14,0000	13,8450	14,0621

5. Заключение

Исследования эмпирических распределений статистик корреляционного анализа при наблюдении многомерного нормального закона показали, что они хорошо согласуются с теоретическими предельными распределениями, полученными в классическом корреляционном анализе, и подтвердили эффективность методики исследований.

Исследования распределений рассмотренных статистик корреляционного анализа в случае многомерных законов, отличающихся от нормального в достаточно широких пределах (более островершинных или более плосковершинных, но симметричных), показали, что значимого изменения предельных распределений статистик не происходит. Эмпирические распределения данных статистик по-прежнему хорошо описываются предельными законами, полученными в классическом корреляционном анализе в предположении о нормальности наблюдаемого вектора. Это существенно расширяет сферу корректного применения методов классического корреляционного анализа в приложениях.

Выводы не касаются задач проверки гипотез о ковариационных матрицах многомерного закона (гипотез вида при известном и неизвестном векторе математических ожиданий). Есть основания полагать, что предельные распределения статистик, используемых при проверке таких гипотез, существенно зависят от наблюдаемого многомерного закона. По крайней мере, моделирование распределений аналогичных статистик в одномерном случае (при проверке гипотез вида при известном и неизвестном математическом ожидании) показало, что предельные распределения этих статистик очень сильно зависят от наблюдаемого закона. В то время как на распределениях статистик, вычисляемых при проверке гипотез вида при известной и неизвестной дисперсии, отклонения от нормальности наблюдаемого одномерного закона сказываются, по сравнению с предыдущим случаем, незначительно.

Список литературы

1. Лемешко Б.Ю., Постовалов С.Н. О распределениях статистик непараметрических критериев согласия при оценивании по выборкам параметров наблюдаемых законов // Заводская лаборатория. 1998. Т. 64. - № 3. - С. 61-72.

2. Денисов В.И., Лемешко Б.Ю., Постовалов С.Н. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Методические рекомендации. Часть I. Критерии типа c². – Новосибирск: Изд-во НГТУ, 1998. – 126 с.

3. Лемешко Б.Ю., Постовалов С.Н. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Методические рекомендации. Часть II. Непараметрические критерии. – Новосибирск: Изд-во НГТУ, 1999. – 85 с.

4. Лемешко Б.Ю., Постовалов С.Н. О зависимости распределений статистик непараметрических критериев и их мощности от метода оценивания параметров // Заводская лаборатория. Диагностика материалов. 2001. Т. 67. - № 7. - С. 62-71.

5. Лемешко Б.Ю., Постовалов С.Н. Применение непараметрических критериев согласия при проверке сложных гипотез // Автометрия. 2001. - № 2. - С. 88-102.

6. Лемешко Б.Ю., Постовалов С.Н. Непараметрические критерии при проверке сложных гипотез о согласии с распределениями Джонсона // Доклады СО АН ВШ. 2002. - № 1(5). - С.65-74.

7. Лемешко Б.Ю., Гильдебрант С.Я., Постовалов С.Н. К оцениванию параметров надежности по цензурированным выборкам // Заводская лаборатория. Диагностика материалов. 2001. Т. 67. - № 1. - С. 52-64.

8. Лемешко Б.Ю., Чимитова Е.В. Построение оптимальных L-оценок параметров сдвига и масштаба распределений по выборочным квантилям // Сибирский журнал индустриальной математики. 2001. - Т.4. - № 2. - С. 166-183.

9. Ермаков С.М., Михайлов Г.А. Статистическое моделирование. – Москва: Наука, 1982. – 296 с.

10. Лемешко Б.Ю., Помадин С.С. Один подход к моделированию псевдослучайных векторов с "заданными" числовыми характеристиками по законам, отличным от нормального // Мат. межд. НТК "Информатика и проблемы телекоммуникаций". – Новосибирск, 2002. – С. 121-122.

11. Андерсон Т. Введение в многомерный статистический анализ. – Москва: Физматгиз, 1963. – 500 с.

12. Лемешко Б.Ю., Помадин С.С., Французов А.В. Статистическое моделирование распределений статистик, используемых в корреляционном анализе // Мат. Российской НТК "Информатика и проблемы телекоммуникаций". - Новосибирск, 2000. - С. 101-102.

13. Лемешко Б.Ю., Помадин С.С. Исследование распределений статистик корреляционного анализа при отклонении многомерного закона от нормального // Тр. V межд. конф. "Актуальные проблемы электронного приборостроения" АПЭП-2000. Новосибирск, 2000. - Т. 7. - С. 184-187.

14. Лемешко Б.Ю., Помадин С.С., Кузьменко С.В. Программное обеспечение компьютерного исследования статистических закономерностей в задачах корреляционного анализа // Мат. межд. НТК "Информатика и проблемы телекоммуникаций". - Новосибирск, 2001. - С. 79.

Новосибирский государственный

технический университет,

E-mail: headrd@fpm.ami.nstu.ru,

ser@fpm.ami.nstu.ru

[1] Работа выполнена при поддержке Российского фонда фундаментальных исследований (проект № 00-01-00913)

[Содержание]

Кор­реляционный анализ наблюдений многомерных случайных величин при нарушении предположений о нормальности[1]

1. Введение

2. Моделирование многомерных случайных величин

3. Исследуемые задачи проверки статистических гипотез классического корреляционного анализа

4. Исследование распределений стати­стик критериев, используемых в корреляцион­ном анализе

5. Уточнение моделей распределений статистик корреляционного анализа при «ненормальных» законах

5. Заключение

Список литературы

Корреляционный анализ наблюдений многомерных случайных величин при нарушении предположений о нормальности [1]

3. Исследуемые задачи проверки статистических гипотез классического
корреляционного анализа

4. Исследование распределений статистик критериев, используемых в корреляционном анализе