См. также: Прикладная математическая статистика (материалы к семинарам)

Доклады СО АН ВШ. 2002. - № 1(5). - С.65-74.

УДК 519.2

 

НЕПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ ПРИ ПРОВЕРКЕ СЛОЖНЫХ ГИПОТЕЗ О СОГЛАСИИ С РАСПРЕДЕЛЕНИЯМИ ДЖОНСОНА[1]

 

Член-корреспондент САН ВШ Б.Ю. Лемешко,

С.Н. Постовалов

 

Методами статистического моделирования построены распределения статистик непараметрических критериев при проверке сложных гипотез о согласии с распределениями Джонсона.

 

Одной из наиболее распространенных задач статистического анализа при обработке результатов экспериментальных наблюдений является проверка со­гласия полученного опытного распределения с теоретическим. Применяя кри­терии согласия, различают проверку простых и сложных гипотез. Простая про­веряемая ги­потеза имеет вид : , где  – функция рас­пределения веро­ятностей, с которой проверяется со­гла­сие наблюдаемой вы­борки, а  – из­вестное значение параметра (скалярного или векторного). При проверке сложной гипотезы проверяемая гипотеза имеет вид : , где  ­– область возможных значений параметра. В этом случае оценка параметра распреде­ления  вычисляется по той же самой выборке, по которой проверяется согласие.

В процессе проверки согласия по выборке вычисляется значение  ста­тистики используемого критерия. Затем для того, чтобы сделать вывод о том, при­нять или отклонить гипотезу , необходимо знать условное распределе­ние  статистики  при справедливости . И если вероятность

достаточно большая, по крайней мере , где  – условная плотность, а  – задаваемый уровень значимости (вероятность ошибки пер­вого рода – отклонить справедливую гипотезу ), то принято считать, что нет ос­нований для отклонения гипотезы .

К наиболее используемым критериям согласия относятся непарамет­ри­че­ские критерии типа Колмогорова, типа  и  Мизеса. В критерии Колмого­рова в качестве расстояния между эмпирическим и теоретическим законом ис­пользуется величина

,

где  – эмпирическая функция распределения,  – теоретическая функция распределения,  – объём выборки. При проверке гипотез обычно ис­пользуется стати­стика вида [1]

,

где

, , ,

 - объем выборки,  - упорядоченные по возрастанию вы­бо­роч­ные значения,  - функция закона распределения, согласие с которым про­ве­ряется. Распределение величины  при простой гипотезе в пределе подчиня­ется закону Колмо­горова  [1].

В критериях типа  расстояние между гипотетическим и истинным рас­пре­деле­ниями рассматривается в квадратичной метрике

,

где   - оператор математического ожидания.

При выборе  в критериях типа  Мизеса пользуются статис­ти­кой (статистика Крамера-Мизеса-Смирнова) вида

,

которая при простой гипотезе подчиняется распределению  [1].

При выборе  в критериях типа  Мизеса статистика (статистика Андерсона-Дарлинга) имеет вид

.

В пределе эта статистика подчиняется распределению  [1].

В случае простых гипотез предельные распределения статистик непара­мет­рических критериев типа Колмогорова,  и  Мизеса из­вестны давно и не зависят от вида наблюдаемого закона распределения и значений его параметров. Говорят, что эти критерии являются “свободными от рас­пределения”. Это дос­тоинство предопределяет широкое использование данных критериев в прило­жениях.

При проверке сложных гипотез, когда по той же самой выборке оценива­ются пара­метры наблюдаемого закона , непарамет­рические критерии согласия теряют свойство “свободы от распределения”. Однако, мощность не­параметрических критериев при проверке сложных гипотез при тех же объ­емах выборок  всегда существенно выше, чем при проверке простых. И если при проверке простых гипотез непара­мет­ри­че­ские критерии типа Колмогорова,  и  Мизеса уступают по мощно­сти критериям типа ,  при условии, что в последних используется асимптоти­чески оптимальное группирование [2-5], то при проверке слож­ных гипотез непараметрические критерии оказываются бо­лее мощными. Для того чтобы воспользоваться их преимуществами, надо только знать распределение  для проверяемой сложной гипотезы.

Различия в предельных распределениях тех же самых статистик при про­верке простых и сложных гипотез очень существенны. Поэтому предостережения против неак­ку­ратного применения критериев со­гласия при проверке сложных гипотез неодно­кратно поднимались на страницах печати [6-8]. При проверке сложных гипотез на условный за­кон рас­пределения статистики  влияет целый ряд факторов, опреде­ляющих “слож­ность” гипотезы: вид наблюдаемого за­кона , соот­вет­ству­ющего истин­ной гипотезе ; тип оцениваемого пара­метра и коли­чество оцениваемых параметров; в некоторых ситуациях конкретное значение параметра (например, в случае гамма-рас­пре­деления); используемый метод оценивания параметров и точность вычисления оценок.

Исходной точкой для исследований предельных распреде­лений статистик непарамет­рических критериев согласия при сложных гипоте­зах послужила работа [9]. В литературных источниках изложен ряд подходов к использова­нию не­па­раметрических критериев согласия в случае проверки сложных гипотез. При достаточно большом объеме выборки ее можно разбить на две части и по од­ной из них оценивать параметры, а по другой проверять согласие [10]. В некоторых частных случаях предельные распределения статистик исследовались анали­ти­ческими методами [11], процентные точки распределений строились метода­ми статис­тического модели­рования [12-15]. Для при­ближенного вычисления веро­ятностей “согласия” вида  (достигаемого уровня значимости) стро­и­лись фор­мулы, дающие достаточно хорошие приближения при малых зна­че­ниях соответ­ствую­щих вероятностей [16-20]. В наших работах [21-24] иссле­до­вание распределений статистик непараметрических критериев согласия и по­строение моделей этих распределений осуществлялось с исполь­зованием мето­дики компьютерного анализа статистических законо­мерностей.

Наши исследования показали, что распределения статистик критериев согласия существенно зависят от ме­тода оценивания параметров. Вообще говоря, каждому типу оценок при кон­кретной сложной проверяемой гипотезе соответствует своё предельное распре­деление  статистики. В случае ме­тода максимального правдоподобия распределения статистик  очень сильно зависят от закона, соответствующего гипотезе . В то же время, разброс распределе­ний  при использовании MD-оце­нок, минимизирующих статистику критерия, в сущест­венно меньшей степени зависит от вида закона , соответствующего гипотезе . Это позволяет говорить об опре­делен­ной “свободе от распределения” для рассматриваемых критериев. Если опираться только на этот факт, то, казалось бы, что только такие методы оценивания и следует приме­нять при проверке сложных гипотез. Однако исследование мощ­ности рассмат­риваемых критериев при различных методах оценивания пока­зало, что наибольшую мощность данные критерии при близ­ких альтерна­тивах имеют в случае использования оценок максимального правдоподобия (ОМП).

При малых объемах выборки  распределения  зависят от . Однако, существенная за­виси­мость распределения статистик от  наблюдается только при небольших объемах выборки. Как показали наши исследования, при  распределения  достаточно близки к предельным  и зависимостью от  можно пренебречь.

Построенные на настоящий момент таблицы процентных точек и пре­дельные распределения статистик непарамет­ри­ческих критериев ограничены относительно узким кругом сложных гипотез. Это объясняется тем, что построение предельного распределения аналитическими методами выли­вается в чрезвычайно непростую задачу. В то же время методика компьютерного ана­лиза статистических закономерностей, хорошо зарекомен­довавшая себя при моделировании распределений статистик критериев [21-24], позволяет при необходимости без существенных трудностей расширить этот круг.

Согласно этой методике следует в соответствии с законом  смоделировать  выборок того же объема , что и выборка, для которой необходимо прове­рить гипотезу : . Далее для каждой из  выборок вы­числить оценки тех же параметров закона, а затем значение статистики  соот­ветствующего критерия согласия. В результате будет получена выборка значе­ний ста­тистики   с законом распределения  для прове­ря­емой гипотезы . По этой выборке при значительных  можно по­стро­ить достаточно гладкую эмпирическую функцию распределения ,  кото­рой можно непосредственно воспользоваться для вывода о том, следует ли принимать гипотезу . При необходимости можно по  построить приближенную аналитическую модель, аппрокси­ми­рующую , и то­гда уже, опира­ясь на эту модель, принимать решение относительно проверя­е­мой гипотезы.

Как показали наши исследования, хо­рошей аналитической моделью для  часто оказывается один из следующих четырех законов: логариф­мически нормальный, гамма-распредление, распределение Su-Джонсона или распределение Sl-Джонсона [23-24]. В крайнем случае, всегда можно, опираясь на ограниченное множество законов распределения, построить модель в виде смеси этих законов.

В работах [23-24] нами были построены модели предельных распределений статистик рассматриваемых критериев при проверке сложных гипотез относительно 13 различных законов наблюдаемых случайных величин при использовании ОМП и MD-оце­нок. В данной работе нами получены модели предельных распределений статистик при проверке различных сложных гипотез о согласии с распределениями Sb-, Sl- и Su-Джонсона и использовании ОМП. Модели распре­де­ле­ний статистик, построенные в результате применения мето­дики, представлены в таблицах 1-3.

 

Таблица 1.

Модели предельных распределений статистик непараметрических критериев при проверке гипотез о согласии с распределением Sb-Джонсона

Оценива­емые параметры

Для статистики Колмогорова

Для статистики

 Мизеса

Для статистики

 Мизеса

lnN(-0,4138; 0,2289)

lnN(-2,7500; 0,5649)

Su(-2,7925, 1,5513, 0,1138, 0,1165)

lnN(-0,2220; 0,3031)

Sl (0,9845; 1,1812; 0,2354; 0,0053)

Su(-3,2608, 1,2469, 0,0836, 0,0883)

,

g(5,2261; 0,0663; 0,2886)

Su(-2,5137; 1,5524; 0,0159; 0,0118)

Su(-2,1210; 1,5490; 0,1113; 0,1325)

 

В таблицах 1-3, содержащих рекомендуемые для использо­ва­ния при про­верке сложных гипотез распределения  через  обо­значено логарифмически нормаль­ное рас­пре­деление с функ­цией плотности

,

 через  - гамма-распределение с функцией плотности

 ,

через  - распределение Sl-Джонсона с плотностью

,

через  - распределение Su-Джонсона с плотностью

.

Распределение Sb-Джонсона имеет плотность вида

.

 

Таблица 2.

Модели предельных распределений статистик непараметрических критериев при проверке гипотез о согласии с распределением Sl-Джонсона

Оценива­емые параметры

Для статистики Колмогорова

Для статистики

 Мизеса

Для статистики

 Мизеса

lnN(-0,4138; 0,2289)

lnN(-2,7500; 0,5649)

Su(-2,7925, 1,5513, 0,1138, 0,1165)

lnN(-0,2220; 0,3031)

Sl (0,9845; 1,1812; 0,2354; 0,0053)

Su(-3,2608, 1,2469, 0,0836, 0,0883)

lnN(-0,4138; 0,2289)

lnN(-2,7500; 0,5649)

Su(-2,7925, 1,5513, 0,1138, 0,1165)

,

g(5,1416; 0,0672; 0,2886)

Su(-1,8744; 1,2526; 0,0142; 0,0198)

Su(-2,3550; 1,5797; 0,1050; 0,1179)

,

lnN(-0,4226; 0,2266)

lnN(-2,7644; 0,5569)

Su(-3,0997; 1,5568; 0,0937; 0,1023)

,

g(5,1416; 0,0672; 0,2886)

Su(-1,8744; 1,2526; 0,0142; 0,0198)

Su(-2,3550; 1,5797; 0,1050; 0,1179)

,,

lnN(-0,4733; 0,2271)

lnN(-2,9537; 0,5251)

Su(-1,9900; 1,5211; 0,1145; 0,1445)

 

Таблица 3.

Модели предельных распределений статистик непараметрических критериев при проверке гипотез о согласии с распределением Su-Джонсона

Оценива­емый параметр

Распределения статистики Колмогорова

Распределения статистики

 Мизеса

Распределения статистики

 Мизеса

lnN(-0,4138; 0,2289)

lnN(-2,7500; 0,5649)

Su(-2,7925, 1,5513, 0,1138, 0,1165)

lnN(-0,2220; 0,3031)

Sl (0,9845; 1,1812; 0,2354; 0,0053)

Su(-3,2608, 1,2469, 0,0836, 0,0883)

lnN(-0,2594; 0,2990)

Sl (1,0352; 1,1218; 0,2284; 0,0070)

Su(-3,0091; 1,1753; 0,0787; 0,1050)

lnN(-0,4316; 0,2341)

Su(-1,7738; 1,2418; 0,0173; 0,0232)

Su(-2,7823; 1,5327; 0,1140; 0,1125)

,

g(5,2263; 0,0658; 0,2886)

Su(-1,7649; 1,2854; 0,0151; 0,0208)

Su(-2,3262; 1,5422; 0,0964; 0,1235)

,

Su(-2,5586; 2,4112; 0,1908; 0,3411)

lnN(-3,1024; 0,5069)

Su(-2,1247; 1,4688; 0,0863; 0,1339)

,

Su(-2,3187; 2,2729; 0,1888; 0,3607)

Su(-1,4187; 1,0120; 0,0117; 0,0232)

Su(-2,2356; 1,2901; 0,0799; 0,1327)

,

lnN(-0,2836; 0,3039)

Sl(1,0334; 1,1037; 0,2220; 0,0060)

Su (-3,1039; 1,1372; 0,062; 0,0950)

,

lnN(-0,5199; 0,2184)

lnN(-3,0545; 0,5152)

Sl(0,6951; 1,4454; 0,4295; 0,0818)

,

Su(-2,5904; 2,5548; 0,1859; 0,3300)

Su(-1,6883; 1,2861; 0,0121; 0,0187)

Su(-2,1944; 1,3600; 0,0804; 0,1262)

,,

Su(-2,1848; 2,1100; 0,1651; 0,3611)

Su(-1,2247; 1,0971; 0,0120; 0,0228)

Su(-2,2549; 1,4569; 0,0715; 0,1163)

,,

g(4,8573; 0,0568; 0,2890)

lnN(-3,2677; 0,4767)

lnN(-1,3166; 0,4065)

,,

lnN(-0,6615; 0,1929)

g(2,6159; 0,0097; 0,0098)

lnN(-1,4121; 0,3753)

,,

lnN(-0,6101; 0,2020)

Su(-1,5455; 1,2383; 0,0108; 0,0186)

Su(-2,2203; 1,3198; 0,0646; 0,1203)

,,,

lnN(-0,7128; 0,1923)

lnN(-3,5836; 0,4154)

g(3,6074; 0,0429; 0,0629)

 

Рис. 1 иллюстрирует изменение распределений  статистики типа  Мизеса  в зависимости от оцениваемого параметра закона распределения Su-Джонсона. На рисунке “1” обозначена функция распределения , которому подчиняется статистика при проверке простой гипотезы, “2” ­­– распределение статистики при проверке сложной гипотезы и оценивании по данной выборке методом максимального правдоподобия только параметра , “3” ­­– при оценивании только параметра , “4” ­­– при оценивании только параметра , “5” ­­– при оценивании только параметра .

 

Рис. 1.

 

На рис. 2 демонстрируется изменение распределений  статистики типа Колмогорова  в зависимости от числа оцениваемых параметров закона распределения Su-Джонсона. На данном рисунке “1” отмечена функция распределения Колмогорова, которому подчиняется статистика при проверке простой гипотезы, “2” ­­– распределение статистики при проверке сложной гипотезы и оценивании по данной выборке методом максимального правдоподобия только параметра , “3” ­­– при оценивании только параметров  и , “4” ­­– при оценивании параметров , и , “5” ­­– при оценивании всех четырех параметров ,,,.

Как можно убедиться на основании построенных закономерностей, распределения статистик непараметрических критериев согласия существенно зависят от вида и числа оцениваемых параметров. И даже при оценивании единственного параметра предельное распределение статистики резко отличается от предельного распределения той же самой статистики в случае проверки простой гипотезы. Различие возрастает с увеличением числа оцениваемых параметров. Пренебрежение этим фактом в практике применения критериев согласия приводит к большим ошибкам в вычислении вероятности вида и неоправданному принятию проверяемой гипотезы.

 

Рис. 2.

 

Заключение

 

Построенные аппроксимации предельных распределений статистик непа­рамет­рических критериев согласия дополняют результаты, представленные в рекомендациях [24], расширяют область корректного примене­ния этих критериев и могут быть рекомендованы широкому кругу исследовате­лей. Апробированная методика моделирования распределений статистик может быть рекомендована для по­строения статистических закономерностей в ситуа­ции, когда аналити­чес­кими методами не удается решить задачу.

 

ЛИТЕРАТУРА

 

[1] Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. – М.: Наука, 1983. – 416 с.

[2] Денисов В.И., Лемешко Б.Ю., Цой Е.Б. Оптимальное груп­пи­рование, оценка параметров и планирование регрессионных экспериментов: В 2 ч. / Новосиб. гос. техн. ун–т. – Новоси­бирск, 1993. – 346 с.

[3] Лемешко Б.Ю. // Надеж­ность и контроль качества. – 1997. – № 8. – С. 3–14.

[4] Лемешко Б.Ю. // Заводская лаборатория. – 1998. – Т. 64. – №1. – С. 56-64.

[5] Денисов В.И., Лемешко Б.Ю., Постовалов С.Н. Прикладная статис­тика. Правила про­верки согласия опытного распределения с тео­ретическим: Мето­­дические реко­мен­дации. Часть I. Критерии типа  . – Новоси­бирск: Изд–во НГТУ, 1998. – С. 126.

[6] Орлов А.И. // Заводская лаборатория. – 1985. – Т. 51. – №1. – С. 60-62.

[7] Бондарев Б.В. // Заводская лаборатория. – 1986. – Т. 52. – № 10. – С. 62-63.

[8] Кулинская Е.В., Саввушкина Н.Е. // Заводская лаборатория. – 1990. – Т. 56. – № 5. – С. 96-99.

[9] Kac M., Kiefer J., Wolfowitz J. // Ann. Math. Stat. – 1955. – V.26. – P.189-211.

[10] Durbin J. // Lect. Notes Math. – 1976. – V. 566. – P. 33–44.

[11] Мартынов Г.В. Критерии омега–квадрат. – М.: Наука, 1978. – 80 с.

[12] Pearson E.S., Hartley H.O. Biometrica tables for Statistics. V.2. – Cambridge: University Press, 1972. – 634 p.

[13] Stephens M.A. // J. R. Stat. Soc. – 1970. – B. 32. – P. 115-122.

[14] Stephens M.A. // J. Am. Statist. Assoc. – 1974. – V.69. – P. 730-737.

[15] Chandra M., Singpurwalla N.D., Stephens M.A. // J. Am. Statist. Assoc. ­– 1981. – V.76. – P. 375.

[16] Тюрин Ю.Н. // Изв. АН СССР. Сер. Матем. – 1984. – Т. 48. – № 6. – C. 1314-1343.

[17] Тюрин Ю.Н., Саввушкина Н.Е. // Изв. АН СССР. Сер. Техн. Кибернетика. – 1984. – № 3. – C. 109-112.

[18] Тюрин Ю.Н. Исследования по непараметрической статистике (непа­рамет­рические методы и линейная модель): Автореф. дисс. … дра физ.–мат. наук. – М., 1985. – 33 с. – (МГУ).

[19] Саввушкина Н.Е. Критерий Колмогорова–Смирнова для логистического и гамма–распре­деления // Сб. тр. ВНИИ систем. исслед. – 1990, № 8.

[20] Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. // М.: ИНФРА–М, Финансы и статистика, 1995. – 384 с.

[21] Лемешко Б.Ю., Постовалов С.Н. // Надежность и кон­троль качества. – 1997. – № 11. – С. 3-17.

[22] Лемешко Б.Ю., Постовалов С.Н. Исследование допредельных распре­делений статистик критериев согласия при проверке сложных гипотез // Тр. IV международной конференции “Актуальные проблемы элек­трон­ного приборо­строения”. – Новосибирск. – 1998. – Т. 3. – С. 12-16.

[23] Лемешко Б.Ю., Постовалов С.Н. // Заво­дская лаборатория. – 1998. – Т. 64. – № 3. – С. 61-72.

[24] Лемешко Б.Ю., Постовалов С.Н. Прикладная статис­тика. Правила про­верки согласия опытного распределения с тео­ретическим. Мето­дические реко­мендации. Часть II. Непа­раметрические критерии. – Новосибирск: Изд-во НГТУ. – 1999. – 86 с.

 



[1] Работа выполнена при  финансовой поддержке Российского фонда фундаментальных исследований (проект № 00-01-00913)

 

[Содержание]