См. также: Прикладная математическая
статистика (материалы
к семинарам)
ИССЛЕДОВАНИЕ РАСПРЕДЕЛЕНИЙ СТАТИСТИКИ КРИТЕРИЯ ШЕФФЕ ПРИ ЗАКОНАХ ОШИБОК НАБЛЮДЕНИЙ, ОТЛИЧАЮЩИХСЯ ОТ НОРМАЛЬНОГО
Б.Ю. Лемешко, В.М. Пономаренко
Новосибирский государственный технический университет
Тел.
сл. (383) 346-06-00. E-mail:
vikpon@ngs.ru
Аннотация. Методами статистического моделирования исследуются
распределения статистики критерия, предложенного Шеффе,
при нарушении предположений о нормальном законе распределения ошибок
наблюдений. Приводятся сведения об объемах выборок, при которых в качестве
приближения предельного распределения статистики можно использовать –распределение. Исследуется влияние вида закона ошибок
наблюдений на требуемый объем выборок.
Постановка задачи
В данной работе рассматривается приближенный критерий проверки однородности дисперсий, предложенный Шеффе (далее критерий Шеффе), который по предположению автора [1] должен быть очень устойчив к нарушению предположений о нормальности.
Критерии однородности дисперсий в дисперсионном анализе принято рассматривать относительно однофакторной модели вида:
,
,
.
(1)
В этом случае совокупности
наблюдений при
различных значениях
могут
рассматриваться как элементы выборок из
генеральных
совокупностей с математическим ожиданием равным
, дисперсией
для
-той
генеральной совокупности. В классической постановке предполагается, что все
наблюдения распределены по нормальному закону.
Проверяемая гипотеза имеет вид
,
(2)
а конкурирующая с ней –
,
(3)
где неравенство выполняется, по
крайней мере, для одной пары индексов и
.
В критерии Шеффе статистика опирается не на собственно оценки дисперсий, как это обстоит в случае большинства критериев однородности дисперсий, а на средние значения логарифмов оценок дисперсий. При таком подходе задача сводится к сравнению средних, а критерии проверки гипотез “о средних” устойчивы к отклонениям ошибок наблюдений от нормального закона. Применяемое логарифмирование позволяет приблизить распределение статистики критерия к нормальному закону.
Чтобы перейти
к сравнению средних, каждая -я выборка наблюдений
,
, разбивается на
групп объемом
, так что
.
Для удобства
обозначим совокупность значений, полученную путем разбиения совокупности всех
наблюдений на
подвыборки, через
,
,
,
.
(4)
Тогда статистика критерия Шеффе [1] может быть записана в следующем виде:
,
(5)
где
,
,
,
(6)
а значения , выступающие в роли исходных
наблюдаемых значений для критерия сравнения средних со статистикой (18),
вычисляются как
,
(7)
где – выборочная дисперсия
подгруппы
,
.
(8)
По
предположению Шеффе статистика приближенно подчиняется
-распределению
Фишера со степенями свободы
и
. Причем распределение
статистики не должно зависеть [1] от распределения ошибок наблюдений
, поскольку критерий
разрабатывался как устойчивый к нарушению предположений о нормальности.
Выбранный метод решения
Исследование
распределения статистики (5) проводилось методами статистического
моделирования. При справедливой проверяемой гипотезе дисперсия ошибок
наблюдения
,
(без потери общности)
задавалась равной единице, значения средних отклика на уровнях
(также без потери
общности) задавались равными нулю. Выборочные значения
наблюдений
формировались
в соответствии с видом модели (1). Исследования распределений статистик
проводились при различных законах ошибок наблюдений и случайного фактора модели
(1): нормальном, распределении максимальных значений (Max), семействе распределений
при значениях параметра формы =0.5, 1, 5, 10. Объем
моделируемых выборок статистик составлял
.
Проверка
согласия полученных в результате моделирования эмпирических распределений
статистик соответствующим теоретическим функциям распределения осуществлялась
по критериям Пирсона,
Колмогорова,
Крамера-Мизеса-Смирнова,
Андерсона-Дарлинга
[2, 3]. При проверке согласия использовалась программная система ISW, в рамках
которой реализованы результаты, полученные с помощью методики компьютерного
моделирования, развиваемой на кафедре Прикладной математики НГТУ [4].
Полученные результаты
В
таблице 1 приведены достигнутые уровни значимости, полученные при проверке
согласия эмпирического распределения статистики (5) и соответствующего
теоретического распределения Фишера в случае принадлежности ошибок измерений
нормальному закону. В таблице для ряда заданных значений и
указаны
достигнутые уровни значимости для тех минимальных значений
, при которых уже наблюдается некоторое согласие
сравниваемых распределений. Это согласие трудно назвать хорошим, но, как
показывают исследования, при таких значениях
использование соответствующего
-распределения в качестве предельного распределения
статистики (5) уже не приведет к большим ошибкам при вычислении соответствующих
вероятностей. Графики эмпирических распределений, полученные в случае
размерностей, представленных в таблице 1, и соответствующих теоретические
распределения практически сливаются.
Как
показывают исследования, согласие эмпирических и соответствующих
теоретических распределений статистики (5) растет с ростом . Это дает основания считать уровень согласия,
отражаемый в таблице 1 (минимально) допустимым для того, чтобы при таких
объемах выборок рекомендовать к использованию в качестве предельного
распределения статистики (5) соответствующее
-распределение.
Таблица 1
Достигнутые уровни
значимости, полученные при проверке согласия эмпирических распределений
статистики (5) с соответствующими -распределениями
при справедливости гипотезы
вида
(2) и нормальном законе ошибок наблюдений
Критерий согласия |
Размерность задачи;
|
|||
|
|
|
|
|
Отношения правдоподобия
Колмогорова
|
0.22 0.22 0.22 0.24 0.24 |
0.21 0.21 0.11 0.09 0.09 |
0.14 0.14 0.18 0.16 0.12 |
0.12 0.12 0.16 0.16 0.14 |
Было
исследовано, при каких значениях (
и
)
при заданном значении
и
нормальном законе ошибок наблюдений достаточно высока близость эмпирического
распределения статистики (5) и соответствующего теоретического распределения
Фишера. Рассматривались значения
в
диапазоне от 2 до 5,
в
диапазоне от 2 до 6.
По
результатам исследований сделаны следующие выводы. Минимальное значение , при котором допустимо использовать
-распределение в качестве предельного распределения
статистики (5), составляет 10-12 наблюдений в группе.
Необходимый
для приемлемого согласия объем в
существенной степени определяется выбором числа
. Например, при
=2
минимально допустимый объем
составляет
10-12, при
=4
– 16-20, а при
=6
– 20-25.
В
целом следует отметить, что при нормальном законе ошибок и числе в группах около 30 наблюдений, можно без риска
совершения больших ошибок использовать
-распределение
в качестве предельного распределения статистики (5) при условии, что будет
выбрано разбиение, в котором
.
Но,
если объем выборок меньше
этого числа, что довольно часто встречается в дисперсионном анализе, то для
того, чтобы распределение статистики (5) хорошо согласовалось с соответствующим
-распределением, следует выбирать такое разбиение на
подгруппы, чтобы
было
наибольшим, а
-
наименьшим из возможных.
В
таблице 2 для случая =5,
=5,
=4
представлены достигнутые уровни значимости при проверке согласия получаемых в
результате моделирования эмпирических распределений статистики (5) и
предполагаемого
-распределения
Фишера при отличных от нормального законах наблюдений
.
Из
таблицы следует, что на самом деле распределение оказывает влияние на степень близости
эмпирических распределений статистики (5) с распределениями Фишера. В случае
распределения с "тяжелыми" хвостами (например,
) наблюдается очень высокая степень соответствия
распределения статистики (5) тому
-распределению
Фишера, которое должно быть в “нормальном” случае. Из таблицы 2 видно, что в
случае принадлежности наблюдений закону распределения
степень близости распределения статистики (5) к
-распределению существенно выше, чем в нормальном
случае. В случае принадлежности наблюдений асимметричному распределению
максимальных значений – степень близости несколько выше, чем в нормальном
случае. А вот при ошибках наблюдений по законам с "легкими" хвостами,
например,
и
согласия распределения статистики (5) с
-распределением при
=5,
=4 уже практически не наблюдается. В то же время в
случае
=2,
=10 при законах распределений ошибок наблюдений
и
согласие
достигает приемлемого уровня.
В
целом результаты исследований позволяют рекомендовать при разбиении наблюдений
на подгруппы делать это так, чтобы объем подгруппы был максимален.
Таблица 2
Значения достигнутых
уровней значимости, полученных в результате проверки согласия эмпирического
распределения статистики (5) с теоретическим -распределением при справедливости гипотезы
вида (2) при
=5,
=20 (
=5,
=4) при различных законах распределения ошибок
Критерий Согласия |
Распределение ошибок наблюдений |
|||
|
|
|
|
|
Отношения правдоподобия
Колмогорова
|
0.2162 0.2176 0.1526 0.1896 0.1751 |
0.5199 0.5195 0.5431 0.5291 0.5158 |
0.0034 0.0037 0.0395 0.0323 0.0112 |
0.0014 0.0014 0.0399 0.0225 0.0078 |
Исследования
показали, что наблюдаемые различия в степени близости распределения статистики
(5) и соответствующего распределения Фишера при различных законах распределения
наблюдений объясняется
тем, как распределены
,
непосредственно входящие в статистику
(5).
Распределение
становится
тем симметричнее, чем "тяжелее" хвосты распределения наблюдений
. Так, в случае принадлежности
закону
распределение
наиболее симметрично, в случае принадлежности
закону
распределение
наименее симметрично.
Работа выполнена при поддержке Министерства образования и науки РФ (проект № 2006-РИ-19.0/001/119) и РФФИ (проект № 06-01-00059-а).
Литература
1. Шеффе Г. Дисперсионный анализ. – М.: Физматгиз. – 1963. – 628 с.
2. Р 50.1.033-2001. Рекомендации по стандартизации. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть I. Критерии типа хи-квадрат. – М.: Изд-во стандартов, 2002. – 87 с.
3. Р 50.1.037-2002. Рекомендации по стандартизации. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть II. Непараметрические критерии. – М.: Изд-во стандартов, 2002. – 64 с.
4. Лемешко Б.Ю. Статистический анализ одномерных наблюдений случайных величин: Программная система. – Новосибирск: Издательство НГТУ, 1995. – 125 с.