См. также: Прикладная математическая
статистика (материалы
к семинарам)
ИССЛЕДОВАНИЕ РАСПРЕДЕЛЕНИЙ СТАТИСТИКИ КРИТЕРИЯ ШЕФФЕ ПРИ ЗАКОНАХ ОШИБОК НАБЛЮДЕНИЙ, ОТЛИЧАЮЩИХСЯ ОТ НОРМАЛЬНОГО
Б.Ю. Лемешко, В.М. Пономаренко
Новосибирский государственный технический университет
Тел.
сл. (383) 346-06-00. E-mail:
vikpon@ngs.ru
Аннотация. Методами статистического моделирования исследуются распределения статистики критерия, предложенного Шеффе, при нарушении предположений о нормальном законе распределения ошибок наблюдений. Приводятся сведения об объемах выборок, при которых в качестве приближения предельного распределения статистики можно использовать –распределение. Исследуется влияние вида закона ошибок наблюдений на требуемый объем выборок.
Постановка задачи
В данной работе рассматривается приближенный критерий проверки однородности дисперсий, предложенный Шеффе (далее критерий Шеффе), который по предположению автора [1] должен быть очень устойчив к нарушению предположений о нормальности.
Критерии однородности дисперсий в дисперсионном анализе принято рассматривать относительно однофакторной модели вида:
, , . (1)
В этом случае совокупности наблюдений при различных значениях могут рассматриваться как элементы выборок из генеральных совокупностей с математическим ожиданием равным , дисперсией для -той генеральной совокупности. В классической постановке предполагается, что все наблюдения распределены по нормальному закону.
Проверяемая гипотеза имеет вид
, (2)
а конкурирующая с ней –
, (3)
где неравенство выполняется, по крайней мере, для одной пары индексов и .
В критерии Шеффе статистика опирается не на собственно оценки дисперсий, как это обстоит в случае большинства критериев однородности дисперсий, а на средние значения логарифмов оценок дисперсий. При таком подходе задача сводится к сравнению средних, а критерии проверки гипотез “о средних” устойчивы к отклонениям ошибок наблюдений от нормального закона. Применяемое логарифмирование позволяет приблизить распределение статистики критерия к нормальному закону.
Чтобы перейти к сравнению средних, каждая -я выборка наблюдений , , разбивается на групп объемом , так что .
Для удобства обозначим совокупность значений, полученную путем разбиения совокупности всех наблюдений на подвыборки, через
, , , . (4)
Тогда статистика критерия Шеффе [1] может быть записана в следующем виде:
, (5)
где
, , , (6)
а значения , выступающие в роли исходных наблюдаемых значений для критерия сравнения средних со статистикой (18), вычисляются как
, (7)
где – выборочная дисперсия подгруппы
, . (8)
По предположению Шеффе статистика приближенно подчиняется -распределению Фишера со степенями свободы и . Причем распределение статистики не должно зависеть [1] от распределения ошибок наблюдений , поскольку критерий разрабатывался как устойчивый к нарушению предположений о нормальности.
Выбранный метод решения
Исследование распределения статистики (5) проводилось методами статистического моделирования. При справедливой проверяемой гипотезе дисперсия ошибок наблюдения , (без потери общности) задавалась равной единице, значения средних отклика на уровнях (также без потери общности) задавались равными нулю. Выборочные значения наблюдений формировались в соответствии с видом модели (1). Исследования распределений статистик проводились при различных законах ошибок наблюдений и случайного фактора модели (1): нормальном, распределении максимальных значений (Max), семействе распределений
при значениях параметра формы =0.5, 1, 5, 10. Объем моделируемых выборок статистик составлял .
Проверка согласия полученных в результате моделирования эмпирических распределений статистик соответствующим теоретическим функциям распределения осуществлялась по критериям Пирсона, Колмогорова, Крамера-Мизеса-Смирнова, Андерсона-Дарлинга [2, 3]. При проверке согласия использовалась программная система ISW, в рамках которой реализованы результаты, полученные с помощью методики компьютерного моделирования, развиваемой на кафедре Прикладной математики НГТУ [4].
Полученные результаты
В таблице 1 приведены достигнутые уровни значимости, полученные при проверке согласия эмпирического распределения статистики (5) и соответствующего теоретического распределения Фишера в случае принадлежности ошибок измерений нормальному закону. В таблице для ряда заданных значений и указаны достигнутые уровни значимости для тех минимальных значений , при которых уже наблюдается некоторое согласие сравниваемых распределений. Это согласие трудно назвать хорошим, но, как показывают исследования, при таких значениях использование соответствующего -распределения в качестве предельного распределения статистики (5) уже не приведет к большим ошибкам при вычислении соответствующих вероятностей. Графики эмпирических распределений, полученные в случае размерностей, представленных в таблице 1, и соответствующих теоретические распределения практически сливаются.
Как показывают исследования, согласие эмпирических и соответствующих теоретических распределений статистики (5) растет с ростом . Это дает основания считать уровень согласия, отражаемый в таблице 1 (минимально) допустимым для того, чтобы при таких объемах выборок рекомендовать к использованию в качестве предельного распределения статистики (5) соответствующее -распределение.
Таблица 1
Достигнутые уровни значимости, полученные при проверке согласия эмпирических распределений статистики (5) с соответствующими -распределениями при справедливости гипотезы вида (2) и нормальном законе ошибок наблюдений
Критерий согласия |
Размерность задачи; -распределение, с которым проверяется согласие |
|||
=2,=2, =5; |
=2,=5 =4; |
=5,=2, =6; |
=5, =5, =4; |
|
Отношения правдоподобия Пирсона Колмогорова Мизеса Андерсона-Дарлинга |
0.22 0.22 0.22 0.24 0.24 |
0.21 0.21 0.11 0.09 0.09 |
0.14 0.14 0.18 0.16 0.12 |
0.12 0.12 0.16 0.16 0.14 |
Было исследовано, при каких значениях ( и ) при заданном значении и нормальном законе ошибок наблюдений достаточно высока близость эмпирического распределения статистики (5) и соответствующего теоретического распределения Фишера. Рассматривались значения в диапазоне от 2 до 5, в диапазоне от 2 до 6.
По результатам исследований сделаны следующие выводы. Минимальное значение , при котором допустимо использовать -распределение в качестве предельного распределения статистики (5), составляет 10-12 наблюдений в группе.
Необходимый для приемлемого согласия объем в существенной степени определяется выбором числа . Например, при =2 минимально допустимый объем составляет 10-12, при =4 – 16-20, а при =6 – 20-25.
В целом следует отметить, что при нормальном законе ошибок и числе в группах около 30 наблюдений, можно без риска совершения больших ошибок использовать -распределение в качестве предельного распределения статистики (5) при условии, что будет выбрано разбиение, в котором .
Но, если объем выборок меньше этого числа, что довольно часто встречается в дисперсионном анализе, то для того, чтобы распределение статистики (5) хорошо согласовалось с соответствующим -распределением, следует выбирать такое разбиение на подгруппы, чтобы было наибольшим, а - наименьшим из возможных.
В таблице 2 для случая =5, =5, =4 представлены достигнутые уровни значимости при проверке согласия получаемых в результате моделирования эмпирических распределений статистики (5) и предполагаемого -распределения Фишера при отличных от нормального законах наблюдений .
Из таблицы следует, что на самом деле распределение оказывает влияние на степень близости эмпирических распределений статистики (5) с распределениями Фишера. В случае распределения с "тяжелыми" хвостами (например, ) наблюдается очень высокая степень соответствия распределения статистики (5) тому -распределению Фишера, которое должно быть в “нормальном” случае. Из таблицы 2 видно, что в случае принадлежности наблюдений закону распределения степень близости распределения статистики (5) к -распределению существенно выше, чем в нормальном случае. В случае принадлежности наблюдений асимметричному распределению максимальных значений – степень близости несколько выше, чем в нормальном случае. А вот при ошибках наблюдений по законам с "легкими" хвостами, например, и согласия распределения статистики (5) с -распределением при =5, =4 уже практически не наблюдается. В то же время в случае =2, =10 при законах распределений ошибок наблюдений и согласие достигает приемлемого уровня.
В целом результаты исследований позволяют рекомендовать при разбиении наблюдений на подгруппы делать это так, чтобы объем подгруппы был максимален.
Таблица 2
Значения достигнутых уровней значимости, полученных в результате проверки согласия эмпирического распределения статистики (5) с теоретическим -распределением при справедливости гипотезы вида (2) при =5, =20 (=5, =4) при различных законах распределения ошибок
Критерий Согласия |
Распределение ошибок наблюдений |
|||
|
|
|
|
|
Отношения правдоподобия Пирсона Колмогорова Мизеса Андерсона-Дарлинга |
0.2162 0.2176 0.1526 0.1896 0.1751 |
0.5199 0.5195 0.5431 0.5291 0.5158 |
0.0034 0.0037 0.0395 0.0323 0.0112 |
0.0014 0.0014 0.0399 0.0225 0.0078 |
Исследования показали, что наблюдаемые различия в степени близости распределения статистики (5) и соответствующего распределения Фишера при различных законах распределения наблюдений объясняется тем, как распределены , непосредственно входящие в статистику (5). Распределение становится тем симметричнее, чем "тяжелее" хвосты распределения наблюдений . Так, в случае принадлежности закону распределение наиболее симметрично, в случае принадлежности закону распределение наименее симметрично.
Работа выполнена при поддержке Министерства образования и науки РФ (проект № 2006-РИ-19.0/001/119) и РФФИ (проект № 06-01-00059-а).
Литература
1. Шеффе Г. Дисперсионный анализ. – М.: Физматгиз. – 1963. – 628 с.
2. Р 50.1.033-2001. Рекомендации по стандартизации. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть I. Критерии типа хи-квадрат. – М.: Изд-во стандартов, 2002. – 87 с.
3. Р 50.1.037-2002. Рекомендации по стандартизации. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть II. Непараметрические критерии. – М.: Изд-во стандартов, 2002. – 64 с.
4. Лемешко Б.Ю. Статистический анализ одномерных наблюдений случайных величин: Программная система. – Новосибирск: Издательство НГТУ, 1995. – 125 с.