См. также: Прикладная математическая статистика (материалы
к семинарам)
Доклады СО АН ВШ. Новосибирск, 2000. - № 2. - С. 53-61.
УДК 519.2
МАКСИМИЗАЦИЯ МОЩНОСТИ КРИТЕРИЕВ ТИПА [1]
Рассмотрены причины, влияющие на мощность применяемых критериев согласия типа . Показано, что способность критериев различать близкие гипотезы можно повысить за счет оптимального выбора границ интервалов и числа интервалов.
При применении критериев согласия типа неоднозначность при построении и вычислении статистик связана с выбором числа интервалов и тем, каким образом область определения случайной величины разбивается на интервалы. Такой произвол отражается на статистических свойствах применяемых критериев, в частности, на их мощности при различении близких конкурирующих гипотез. Очевидно, что выбор числа интервалов и способа разбиения на интервалы следует осуществлять с позиций обеспечения максимальной мощности применяемого критерия.
С использованием критериев согласия могут проверяться простые гипотезы вида : , где – функция распределения вероятностей, с которой проверяется согласие наблюдаемой выборки независимых одинаково распределенных величин , а – известное значение параметра (скалярного или векторного), и сложные гипотезы : , где – пространство параметров. В процессе проверки сложной гипотезы оценка параметра вычисляется по этой же самой выборке.
Процедура проверки гипотез о согласии с помощью критериев типа предусматривает разбиение области определения случайной величины на интервалов граничными точками
.
Статистика Пирсона вычисляется в соответствии с соотношением
, (1)
где – количество наблюдений, попавших в -й интервал, – вероятность попадания наблюдения в -й интервал, , . При справедливой простой гипотезе предельное распределение статистики есть -распределение с числом степеней свободы . Если по выборке оценивалось параметров закона в результате минимизации статистики , статистика подчиняется -распределению с степенями свободы. При справедливой альтернативной гипотезе предельное распределение представляет собой нецентральное -распределение с тем же числом степеней свободы и параметром нецентральности
, (2)
где и соответствует альтернативе.
В случае проверки сложных гипотез и оценивании по выборке параметров наблюдаемого закона использование в качестве предельных -распределений справедливо лишь при определении оценок минимизацией статистики или при вычислении по сгруппированным данным оценок максимального правдоподобия (ОМП).
Статистика типа Никулина [1-4] отличается от при сложных гипотезах. Предельное распределение этой статистики – обычное распределение (количество степеней свободы не зависит от числа оцениваемых параметров!). Неизвестные параметры распределения в этом случае должны оцениваться по исходной точечной выборке методом максимального правдоподобия. Вектор вероятностей попадания в интервал предполагается заданным, и границы интервалов определяются выражениями , .
Данная статистика имеет вид [1]
, (3)
где вычисляется в соответствии с (1). Элементы и размерность матрицы
определяются оцениваемыми компонентами вектора параметров , - элементы информационной матрицы
,
- элементы вектора , величины определяются соотношением
.
При справедливости конкурирующей гипотезы статистика имеет в качестве предельного нецентральное -распределение с параметром нецентральности
, (4)
где элементы вектора определяются соотношением .
Зависимость мощности от способа группирования. Целенаправленно воздействовать на мощность критериев типа можно за счет двух факторов: выбора граничных точек и выбора числа интервалов.
Способ группирования особенно сильное влияние оказывает на предельное распределение . В работах [5-9] показано, что критерии согласия Пирсона и отношения правдоподобия при проверке как простых, так и сложных гипотез имеют максимальную мощность против близких альтернатив, если использовать такое разбиение области определения случайной величины на интервалы, при котором потери в информации Фишера о параметрах закона, соответствующего гипотезе , минимальны (асимптотически оптимальное группирование). Чем меньше потери в информации Фишера, связанные с группированием данных, тем больше параметр нецентральности, определяемый соотношением (2). В [5,9] для конкретных законов распределения представлен достаточно широкий состав построенных таблиц асимптотически оптимального группирования (АОГ-группирования), минимизирующего потери в информации Фишера. При построении этих таблиц максимизировался определитель информационной матрицы Фишера по группированным наблюдениям, которая определяется соотношением
.
Использование АОГ-группирования при заданном числе интервалов обеспечивает максимальную мощность при близких гипотезах.
Исследование распределений статистики Никулина, которая отличается от только при сложных гипотезах, показало, что как , так и несущественно зависят от способа группирования. Более того, наши исследования методами статистического моделирования показали, что с позиций наибольшей мощности разбиение на интервалы равной вероятности (РВГ-группирование) оказывается наиболее предпочтительным. Подчеркнем, что критерий типа Никулина мощнее, чем критерии Пирсона и отношения правдоподобия.
Зависимость мощности от числа интервалов . Зная предельные распределения и статистики , для любого заданного уровня значимости можно оценить мощность соответствующего критерия, рассматривая её как функцию от числа интервалов при заданном объеме выборки . Исследование мощности критериев Пирсона и Никулина как функции от и проводилось аналитически и методами статистического моделирования. Причем результаты аналитических вычислений полностью подтверждаются оценками мощности, полученными на основании моделирования.
Величина мощности для критериев типа может быть вычислена в соответствии с выражением [10]:
, (5)
где - параметр нецентральности, определяемый соотношениями (2) и (4), представляет собой -процентную точку -распределения с степенями свободы ( - заданная вероятность ошибки первого рода, - вероятность ошибки второго рода). Все приводимые ниже функции мощности строились при уровне значимости .
На рис. 1 в зависимости от числа равновероятных интервалов при различных представлены функции мощности критерия Пирсона при проверке простой гипотезы о согласии с экспоненциальным законом (: при ; : при ). На рис. 2 приведены аналогичные функции при использовании АОГ-группирования [5, 9]. И в том, и в другом случае с ростом мощность падает, но в случае асимптотически оптимального группирования она выше, чем при равновероятном.
Рис. 1. Рис. 2.
На рис. 3 приведены функции мощности критерия Пирсона в случае РВГ-группирования при проверке простой гипотезы о согласии с нормальным законом : при , против : нормальный закон при , . На рис. 4 – аналогичные функции мощности в случае использования АОГ-группирования [5, 9].
Рис. 3. Рис. 4.
На рис. 5-8 приведены функции мощности критерия Пирсона при проверке гипотез о согласии с распределением Вейбулла. На рис.5 представлены функции мощности критерия Пирсона при проверке простой гипотезы о согласии с распределением Вейбулла при РВГ-группировании. Гипотеза : при , . В качестве альтернативы рассматривается также распределение Вейбулла, но с параметрами , . На рис. 6 для этой же пары гипотез приведены функции мощности критерия для АОГ-группирования. На рис. 7 приведены функции мощности критерия Пирсона при проверке сложной гипотезы о согласии с распределением Вейбулла при использовании РВГ-группирования и близкой альтернативе, соответствующей распределению Накагами
:
при , , . Рис. 8 иллюстрирует функции мощности для той же пары гипотез для случая АОГ-группирования.
Рис. 5. Рис. 6.
Рис. 7. Рис. 8.
На рис. 9 представлены функции мощности критерия типа Никулина при проверке сложной гипотезы о согласии с нормальным законом
: ,
когда в качестве альтернативы рассматривается близкий ему логистический закон
:
при значениях параметров , . Отметим, что функции мощности критерия Пирсона в данной ситуации являются строго убывающими по функциями и принимают максимальное значение при минимально возможном значении числа интервалов .
Рис. 9.
Результаты расчета функций мощности по соотношению (5) контролировались статистическим моделированием функций мощности, при котором строились эмпирические функции распределений и для статистик рассматриваемых критериев, и находились оценки мощности. Результаты моделирования оказались очень близкими к расчетным.
Заключение.
Анализ функций мощности для различных альтернатив при проверке простых и сложных гипотез показывает, что с увеличением числа интервалов мощность критериев типа падает. Это соответствует и результатам работ [11,12]. Максимальная мощность критериев при заданном объеме выборки чаще всего достигается или при минимальном числе интервалов, или при некотором оптимальном значении .
Максимизировать мощность критериев Пирсона и отношения правдоподобия можно за счет оптимального выбора двух факторов: выбора АОГ-группирования в качестве способа разбиения области определения случайной величины и подбора оптимального числа интервалов при заданном объеме выборки . Увеличение мощности критерия типа Никулина возможно только за счет выбора оптимального числа интервалов.
Оптимальное число интервалов зависит от объема выборки и от конкретной пары конкурирующих гипотез и . Чаще всего оптимальное оказывается существенно меньше значений, рекомендуемых различными регламентирующими документами и задаваемых множеством эмпирических формул, широкий перечень которых приводится, например, в [13].
Рассматривая пару альтернатив, всегда можно выбрать оптимальное число интервалов и подобрать оптимальное разбиение на интервалы. В результате будет получен критерий максимальной мощности, наилучшим образом различающий данные конкурирующие гипотезы.
В случае проверки простых гипотез при оптимальном выборе числа интервалов и асимптотически оптимальном группировании, минимизирующем потери в информации Фишера, критерии типа мощнее непараметрических критериев типа Колмогорова и типа и Мизеса. А при проверке сложных гипотез в тех же условиях они лишь не многим уступают последним.
ЛИТЕРАТУРА
[1] Никулин М.С. // Теория вероятностей и ее применение. 1973. Т. XVIII. № 3. – С.675-676.
[2] Никулин М.С. // Теория вероятностей и ее применение. 1973. Т. XVIII. № 3. – С.583-591.
[3] Мирвалиев М., Никулин
М.С. // Заводская лаборатория. 1992. Т. 58. № 3. – С.52-58.
[4] Aguirre N., Nikulin M. // Kybernetika. 1994. V. 30. № 3. – P.214-222.
[5] Денисов В.И., Лемешко Б.Ю., Цой Е.Б. Оптимальное группирование, оценка параметров и планирование регрессионных экспериментов: В 2 ч. / Новосиб. гос. техн. ун-т. - Новосибирск, 1993. – 346 с.
[6] Лемешко Б.Ю. // Надежность и контроль качества. – 1997. – № 8. – С. 3-14.
[7] Лемешко Б.Ю. // Заводская лаборатория, 1998. Т. 64. – №1. – С.56-64.
[8] Лемешко Б.Ю., Постовалов С.Н. // Заводская лаборатория. 1998. Т. 64. – № 5. – С.56-63.
[9] Денисов В.И., Лемешко Б.Ю., Постовалов С.Н. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Методические рекомендации. Часть I. Критерии типа . – Новосибирск: Изд-во НГТУ, 1998. –126 с.
[10] Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. - М.: Наука, 1983. - 416 с.
[11] Чибисов Д.М., Гванцеладзе Л.Г. // III советско-японский симпозиум по теории вероятностей. Ташкент: изд-во “Фан”, 1975. – С. 183-185.
[12] Боровков А.А. // Теория вероятностей и ее применение. 1977. Т. XXII. № 2. – С.375-378.
[13] Новицкий П.В., Зограф И.А. Оценка погрешностей результатов измерений. - Л.: Энергоатомиздат, 1991. - 303 с.
[1] Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований (проект № 00-01-00913)