См. также: Прикладная математическая
статистика (материалы
к семинарам)
Метрология. 2004. №4.– С.3-15
519.233.3: 006.91.001
Б.Ю. Лемешко, С.С. Помадин
Методами статистического моделирования исследованы распределения классических статистик, используемых при проверке гипотез о математических ожиданиях и дисперсиях. Показано, что при проверке гипотез о математических ожиданиях применение классических результатов оказывается корректным при существенных отклонениях наблюдаемого закона от нормального. Для статистик, используемых в критериях проверки гипотез о дисперсиях, получены таблицы процентных точек, применение которых правомерно при наблюдаемых законах, описываемых экспоненциальным семейством распределений.
The classical
statistic distributions used in testing hypotheses on mathematical
expectations and variances have been investigated by
means of statistical modeling methods. It has been shown that in testing
hypothesis about mathematical expectations the usage of classical results turns
out to be correct even when an observed law essentially differs from the normal
distribution. The tables of percentage points, which can be used for correct testing
hypotheses about variances when observed laws are described with the
exponential distribution family, have been obtained.
При поверке измерительных приборов, в задачах контроля качества и в других приложениях возникает необходимость в проверке статистических гипотез о значении математического ожидания или о значении дисперсии . В основе применяемого классического аппарата проверки гипотез такого вида лежит предположение о принадлежности наблюдаемых данных (ошибок измерений) нормальному закону распределения. В то же время, не секрет, что ошибки измерительных приборов и систем во многих случаях не удается удовлетворительно описать моделью нормального закона [1]. Однако и в этом случае сохраняется актуальность решения задач проверки гипотез о математических ожиданиях и дисперсиях наблюдаемого закона. Насколько корректно в этом случае применение классического аппарата проверки данных гипотез? Когда можно без боязни использовать классические критерии, а когда их применение является некорректным? И как следует поступать в последнем случае?
В литературных источниках можно найти аналитические оценки, характеризующие устойчивость критериев проверки гипотез о математических ожиданиях по отношению к виду наблюдаемого закона, и указания на существенную зависимость от вида закона критериев проверки гипотез о дисперсиях. Сведения, которые практик может почерпнуть из этого, сводятся к тому, что при нарушении нормальности нельзя использовать классические результаты для проверки гипотез о дисперсиях, а для проверки гипотез о математических ожиданиях, по-видимому, можно, но с долей осторожности.
Целью данной работы явилось желание исследовать, что происходит с распределениями классических статистик, используемых в критериях проверки гипотез о математических ожиданиях и дисперсиях, если наблюдаемый закон в той или иной мере отличается от нормального; проверить, насколько будут корректны статистические выводы, базирующиеся на классических результатах, если нарушено предположение о нормальности; дать в руки исследователя необходимый математический аппарат, обеспечивающий корректность выводов при законах распределения, существенно отличающихся от нормального. Результаты, представленные в данной работе, получены с использованием развиваемой и хорошо зарекомендовавшей себя методики статистического моделирования и компьютерного анализа [2], позволяющей с меньшими трудностями получать фундаментальные знания о статистических закономерностях.
Классические критерии проверки гипотез о математических ожиданиях и дисперсиях. Пусть мы имеем выборку случайных величин, распределенных по нормальному закону . В этом случае задачи проверки гипотез о математических ожиданиях и дисперсиях формулируются следующим образом.
1. В критерии проверки гипотез вида при известной дисперсии используется статистика , которая при справедливости гипотезы подчиняется нормальному распределению: . Проверяемая гипотеза отклоняется при больших отклонениях от .
2. Для проверки гипотезы при неизвестной дисперсии используется статистика , где , . При справедливости статистика распределена как – распределение Стьюдента.
3. Для проверки гипотезы вида при известном математическом ожидании вычисляется статистика , условным распределением которой является – распределение.
4. В критерии проверки гипотезы вида при неизвестном математическом ожидании используется статистика , подчиняющаяся – распределению.
Для иллюстрации работоспособности применяемой методики исследований приведем результаты моделирования эмпирических распределений данных статистик в случае нормального закона регистрируемых наблюдений. В дальнейшем N указывает на объемы смоделированных выборок статистик рассматриваемых критериев.
В качестве примера рассмотрены распределения статистик , , , при проверяемых гипотезах и . На рис. 1 отражены полученные в результате моделирования эмпирические распределения статистик , и теоретические распределения данных статистик при нормальности наблюдаемого закона. Видно, что смоделированные распределения статистик, используемых при проверке гипотез о значении математического ожидания, визуально совпадают со своими предельными законами: нормальным и – распределением Стьюдента. Количественной мерой близости полученных эмпирических распределений статистик и теоретических предельных служат достигнутые уровни значимости по критериям согласия Пирсона, Колмогорова, Крамера-Мизеса-Смирнова, Андерсона-Дарлинга [3,4], где S – статистика соответствующего критерия согласия, – ее значение, вычисленное по конкретной выборке исследуемых статистик , , , . Чем больше достигнутый уровень значимости, чем ближе он к 1, тем лучше согласуется эмпирическое распределение статистики с теоретическим. Приведенные в таблице 1 значения достигнутых уровней значимости для статистик и говорят об очень высокой близости полученных в результате моделирования эмпирических распределений статистик к предельным. Аналогичная картина наблюдается на рис. 2 и табл. 2, где приведены результаты моделирования распределений статистик , , используемых в критериях проверки гипотез о значениях дисперсии.
Таблица 1. Значения достигнутых уровней значимости критериев согласия для примера на рис. 1
|
|
|
|
Рис. 1. Эмпирические и теоретические функции распределения статистик , при проверке гипотезы при известной () и неизвестной дисперсии: n = 30; N = 10000
Рис. 2. Эмпирические и теоретические функции распределения статистик и при проверке гипотезы при известном () и неизвестном математическом ожидании (n = 50 и N = 10000)
Таблица 2. Значения достигнутых уровней значимости критериев согласия для примера на рис. 2
|
|
|
|
Распределения статистик , , , при нарушении предположений о нормальности. В работе [5] мы исследовали распределения статистик , в случае принадлежности наблюдаемых случайных величин распределениям экстремальных значений, логистическому и Лапласа. В данном случае рассмотрено распределение, более перспективное для описания ошибок измерений. Очень хорошей моделью для закона распределения ошибок конкретной измерительной системы иногда оказывается одно из распределений экспоненциального семейства с плотностью
,
где – параметр сдвига, – параметр масштаба, l – параметр формы. Частными случаями данного семейства распределений являются нормальный закон при l = 2 и распределение Лапласа при l = 1. Предельными случаями – распределение Коши () и равномерное распределение ().
Далее будем рассматривать распределения статистик , , , в случае принадлежности наблюдаемых случайных величин экспоненциальному семейству распределений , . Предельные распределения статистик , , , известны только для частного случая при l = 2 (для нормального закона).
Для статистик, вычисляемых по выборкам случайных величин , , распределенных по экспоненциальному семейству с параметром формы l, введем обозначения .
Результаты моделирования выборок статистик и в случае принадлежности наблюдаемых величин экспоненциальному семейству распределений (параметр l изменялся в диапазоне от 1 до 10) показали, что значимого изменения предельных распределений статистик и , используемых в критериях проверки гипотез о значениях математического ожидания (при известной и неизвестной дисперсии), не происходит.
Рис. 3. Эмпирические и теоретические функции распределения статистик и при проверке гипотезы при известной () и неизвестной дисперсии: n = 15; N = 5000
На рис. 3 в качестве примера представлены графики теоретических предельных, соответствующих классическому случаю, и полученных эмпирических функций распределения статистик и , используемых при проверке гипотезы при известной () и неизвестной дисперсиях. Визуальная близость распределений статистик, построенных в случае принадлежности выборок экспоненциальному семейству, к предельным (классическим) распределениям, полученным для нормального закона, позволяет отметить, что значимого изменения распределений статистик не произошло. Это же подтверждает применение критериев согласия для проверки значимости отклонений смоделированных эмпирических распределений статистик и от классических предельных распределений (при нормальном законе наблюдаемых величин). Достигнутые уровни значимости представлены в таблице 3.
Таблица 3. Значения достигнутых уровней значимости критериев согласия для примера на рис. 3
|
|
|
|
|
|
|
|
|
|
|
|
Результаты исследований распределений статистик и позволяют утверждать, что в случае отклонений наблюдаемого закона от нормального (при сохранении симметричности), использование классических предельных распределений для статистик и не нарушает корректности выводов статистического анализа при проверке гипотез вида .
В случае несимметричных законов наблюдаемых величин, например, при распределениях экстремальных значений, распределения статистик и претерпевают значимые изменения, которые можно заметить как визуально, так и с использованием критериев согласия. Соответствующий пример демонстрирует картина, представленная на рис. 4. Пример свидетельствует все-таки об ограниченной области устойчивости критериев проверки гипотез о математическом ожидании. В таблице 4 приведены достигнутые значения уровня значимости, которые свидетельствуют, что, не смотря на визуальную близость эмпирического распределения статистики к теоретическому, в данном случае гипотеза о нормальности статистики при уровне значимости должна быть отклонена
Рис. 4. Эмпирическая и теоретическая функции распределения статистики , смоделированной по распределению минимального значения, при проверке гипотезы для известной дисперсии (): n = 50; N = 5000
Таблица 4. Значения достигнутых уровней значимости критериев согласия для примера на рис. 4
|
|
В отличие от и распределения статистик и , используемых в критериях проверки гипотез о дисперсии, как в случае известного математического ожидания, так и в случае неизвестного очень чувствительны к виду наблюдаемого закона распределения. Иллюстрацией к сказанному являются рисунки 5 и 6, на которых изображены графики эмпирических функций распределений статистик и , смоделированных при экспоненциальном семействе с параметром формы l равным 1 и 10. На рисунках приведены также предельные распределения статистик и в случае нормального закона (и –распределения, соответственно).
Рис. 5. Теоретическая и эмпирические функции распределения статистики при проверке гипотезы при известном () математическом ожидании: n = 30; N = 5000
Из представленной на рис. 5 картины очевидно, что распределения статистики , смоделированные при выборках случайных величин, принадлежащих экспоненциальному семейству с параметром формы не равным 2, существенно отличаются от предельного распределения, полученного для нормального закона. Аналогичную зависимость от вида наблюдаемого закона демонстрирует статистика при проверке гипотезы о значении дисперсии при неизвестном математическом ожидании (см. рис. 6).
Рис. 6. Теоретическая и эмпирические функции распределения статистики при проверке гипотезы при неизвестном математическом ожидании: n = 30; N = 5000
Результаты проведенных исследований говорят о том, что распределения статистик, используемых при проверке гипотез о дисперсии (математическое ожидание известно или неизвестно), значимо отличаются от классических предельных при отклонениях наблюдаемого закона от нормального. Поэтому при использовании классических процедур для проверки гипотез о дисперсии целесообразно удостовериться в том, что наблюдаемый закон является нормальным, применяя соответствующие критерии проверки нормальности.
Таким образом, приводимые результаты показывают, с одной стороны, высокую устойчивость к отклонениям от нормальности наблюдаемых величин критериев проверки гипотез о математических ожиданиях. А, с другой стороны, – неустойчивость критериев, используемых при проверке гипотез о дисперсиях. В то же время результаты подтверждают надежность развиваемой методики исследований и возможность построения моделей предельных распределений для статистик и при произвольных наблюдаемых законах случайных величин, что актуально для различных приложений задач статистического анализа данных.
Для построения приближенных моделей, наилучшим образом описывающих распределения статистик и при конкретных значениях l и n, принципиальных трудностей нет. К сожалению, не удается построить аналитические модели распределений данных статистик с параметрами, зависящими от l и n. Поэтому на основании результатов статистического моделирования были вычислены таблицы верхних процентных точек (квантилей) для ряда значений l и n. Процентные точки рассчитывались по выборкам значений статистик достаточно больших объемов (N = 100000, N = 150000 и N = 200000), а затем усреднялись по ряду экспериментов.
Полученные процентные точки для статистик и при параметре формы экспоненциального семейства, равном 1; 1,5; 3; 4; 5 и 10, представлены в таблицах 5 и 6 соответственно. Значения процентных точек при параметре формы l = 2, приведенные в таблицах, соответствуют предельным распределениям статистик при нормальном законе наблюдаемых величин.
Таблица 5. Верхние процентные точки для статистики в случае принадлежности наблюдаемого закона экспоненциальному семейству с параметром формы l
|
|
l = 1 |
l = 1,5 |
l = 2 |
l = 3 |
l = 4 |
l = 5 |
l = 10 |
n = 15 |
a = 0,15 |
22,94 |
21,45 |
20,64 |
19,76 |
19,39 |
19,18 |
18,81 |
a = 0,1 |
25,98 |
23,54 |
22,34 |
21,06 |
20,58 |
20,28 |
19,77 |
|
a = 0,05 |
31,38 |
26,98 |
25,01 |
23,08 |
22,41 |
21,96 |
21,22 |
|
a = 0,025 |
37,02 |
30,23 |
27,46 |
24,88 |
24,04 |
23,45 |
22,51 |
|
a = 0,01 |
44,36 |
34,40 |
30,59 |
27,03 |
26,00 |
25,21 |
24,02 |
|
n = 30 |
a = 0,15 |
41,85 |
39,31 |
38,01 |
36,79 |
36,21 |
35,89 |
35,37 |
a = 0,1 |
45,97 |
42,09 |
40,26 |
38,60 |
37,84 |
37,41 |
36,71 |
|
a = 0,05 |
52,92 |
46,49 |
43,80 |
41,37 |
40,28 |
39,70 |
38,70 |
|
a = 0,025 |
59,56 |
50,59 |
46,97 |
43,80 |
42,47 |
41,72 |
40,46 |
|
a = 0,01 |
68,51 |
55,65 |
50,88 |
46,78 |
45,08 |
44,15 |
42,52 |
|
n = 50 |
a = 0,15 |
65,86 |
62,02 |
60,30 |
58,77 |
58,02 |
57,60 |
56,91 |
a = 0,1 |
70,83 |
65,50 |
63,15 |
61,00 |
60,04 |
59,51 |
58,61 |
|
a = 0,05 |
78,47 |
70,91 |
67,51 |
64,42 |
63,10 |
62,36 |
61,17 |
|
a = 0,025 |
85,83 |
75,66 |
71,34 |
67,51 |
65,86 |
64,94 |
63,39 |
|
a = 0,01 |
95,36 |
81,92 |
76,15 |
71,24 |
69,22 |
67,98 |
66,05 |
|
n = 100 |
a = 0,15 |
122,67 |
116,99 |
114,57 |
112,34 |
111,27 |
110,69 |
109,77 |
a = 0,1 |
129,31 |
121,54 |
118,47 |
115,47 |
114,13 |
113,38 |
112,15 |
|
a = 0,05 |
139,98 |
128,64 |
124,29 |
120,07 |
118,37 |
117,38 |
115,67 |
|
a = 0,025 |
149,80 |
135,17 |
129,33 |
124,27 |
122,14 |
120,90 |
118,78 |
|
a = 0,01 |
162,04 |
143,38 |
135,95 |
129,27 |
126,64 |
125,05 |
122,42 |
Таблица 6. Верхние процентные точки для статистики в случае принадлежности наблюдаемого закона экспоненциальному семейству с параметром формы l
|
|
l = 1 |
l = 1,5 |
l = 2 |
l = 3 |
l = 4 |
l = 5 |
l = 10 |
n = 15 |
a = 0,15 |
21,49 |
20,16 |
19,40 |
18,65 |
18,34 |
18,14 |
17,82 |
a = 0,1 |
24,38 |
22,19 |
21,03 |
19,95 |
19,53 |
19,26 |
18,80 |
|
a = 0,05 |
29,52 |
25,46 |
23,65 |
21,92 |
21,34 |
20,94 |
20,27 |
|
a = 0,025 |
34,79 |
28,64 |
26,12 |
23,71 |
22,95 |
22,41 |
21,56 |
|
a = 0,01 |
41,88 |
32,70 |
29,25 |
25,85 |
24,94 |
24,22 |
23,09 |
|
n = 30 |
a = 0,15 |
40,54 |
38,09 |
36,88 |
35,71 |
35,17 |
34,89 |
34,39 |
a = 0,1 |
44,53 |
40,83 |
39,11 |
37,49 |
36,79 |
36,42 |
35,73 |
|
a = 0,05 |
51,36 |
45,20 |
42,60 |
40,25 |
39,25 |
38,71 |
37,73 |
|
a = 0,025 |
57,85 |
49,20 |
45,74 |
42,70 |
41,41 |
40,77 |
39,51 |
|
a = 0,01 |
66,49 |
54,21 |
49,59 |
45,61 |
44,01 |
43,13 |
41,60 |
|
n = 50 |
a = 0,15 |
64,62 |
60,90 |
59,24 |
57,70 |
56,99 |
56,59 |
55,92 |
a = 0,1 |
69,58 |
64,30 |
62,06 |
59,95 |
59,01 |
58,51 |
57,63 |
|
a = 0,05 |
77,18 |
69,65 |
66,39 |
63,35 |
62,07 |
61,37 |
60,17 |
|
a = 0,025 |
84,42 |
74,42 |
70,20 |
66,46 |
64,79 |
63,96 |
62,41 |
|
a = 0,01 |
93,75 |
80,63 |
74,94 |
70,21 |
68,13 |
66,98 |
65,05 |
|
n = 100 |
a = 0,15 |
121,51 |
115,87 |
113,54 |
111,29 |
110,26 |
109,71 |
108,77 |
a = 0,1 |
128,08 |
120,45 |
117,35 |
114,43 |
113,11 |
112,39 |
111,15 |
|
a = 0,05 |
138,70 |
127,50 |
123,22 |
119,07 |
117,36 |
116,38 |
114,67 |
|
a = 0,025 |
148,27 |
134,04 |
128,29 |
123,18 |
121,07 |
119,87 |
117,79 |
|
a = 0,01 |
160,22 |
142,27 |
134,71 |
128,13 |
125,55 |
124,04 |
121,34 |
Таким образом, численные исследования подтвердили устойчивость распределений статистик и , используемых в критериях проверки гипотез о математических ожиданиях, к отклонениям наблюдаемого закона от нормального. Эмпирические распределения статистик и хорошо согласуются с предельными, полученными в предположении о нормальности наблюдаемого закона. Это позволяет на практике корректно применять классические результаты при наблюдаемых законах, существенно отличающихся от нормального. В частности, в таких ситуациях можно уверенно руководствоваться стандартом [6].
Полученные здесь результаты подчеркивают общую закономерность: критерии, связанные с проверкой гипотез о математических ожиданиях устойчивы к отклонениям наблюдаемых величин от нормального закона. Это было показано ранее при исследовании распределений статистик, используемых при проверке гипотез о векторе математических ожиданий и коэффициентах корреляции многомерных законов распределений [7].
В то же время, распределения статистик и очень существенно зависят от вида наблюдаемого закона. Если наблюдаемый закон значимо отличается от нормального, использование классических результатов для данных критериев недопустимо, так как такая попытка неизбежно приведет к некорректным выводам. В тех ситуациях, когда хорошей моделью для наблюдаемых случайных величин оказывается экспоненциальное семейство распределений с параметром формы l, можно воспользоваться таблицами процентных точек, полученными в данной работе.
Работа выполнена при финансовой поддержке Минобразования РФ (проекты № Т02-3.3-3356 и № А03-2.8-280)
Литература
1. Новицкий П.В., Зограф И.А. Оценка погрешностей результатов измерений. – Л.: Энергоатомиздат, 1991. – 303 с.
2. Лемешко Б.Ю. Компьютерные методы исследований статистических закономерностей // Сб. "Моделирование, автоматизация и оптимизация наукоемких технологий". - Новосибирск: изд-во НГТУ, 2000. - С. 18-19.
3. Р 50.1.033-2001. Рекомендации по стандартизации. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть I. Критерии типа хи-квадрат. – М.: Изд-во стандартов. 2002. – 87 с.
4. Р 50.1.037-2002. Рекомендации по стандартизации. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть II. Непараметрические критерии. – М.: Изд-во стандартов. 2002. – 64 с.
5. Лемешко Б.Ю., Ванюкевич О.Н. Проверка гипотез о дисперсии при нарушении предположений о нормальности // Сб. научных трудов НГТУ. – 2002. – № 3(29). – С.27-32.
6. ГОСТ Р 50779.53-98. Приемочный контроль качества по количественному признаку для нормального распределения. Часть 1. Стандартное отклонение известно. – М.: Изд-во стандартов. 1998. – 23 с.
7. Лемешко Б.Ю., Помадин С.С. Корреляционный анализ наблюдений многомерных случайных величин при нарушении предположений о нормальности // Сибирский журнал индустриальной математики. 2002. – Т.5. – № 3. – С.115-130.