См. также: Прикладная
математическая статистика (материалы к семинарам)
Заводская лаборатория. Диагностика материалов. 2003. Т. 69. – С.62-68.
УДК 519.2
Б.Ю. Лемешко, Е.В. Чимитова
Новосибирский государственный технический университет
E-mail: headrd@fpm.ami.nstu.ru
Предельные распределения статистик критериев согласия типа Колмогорова, Смирнова, типа и Мизеса при проверке сложных гипотез вида : существенно зависят от применяемого метода оценивания [1,2]. При проверке таких сложных гипотез оценка вектора параметров , принадлежащая пространству параметров , вычисляется по той же выборке, по которой оцениваются и параметры.
Зависимость условных распределений от метода оценивания настолько значительна, что ни в коем случае нельзя при вычислении вероятности , где – значение статистики найденное по выборке, применять распределение статистики, соответствующее другому методу оценивания.
Насколько сильно отличаются распределения одних и тех же статистик при использовании различных методов оценивания – показано в работах [1,2]. В [2] приведены таблицы с построенными аппроксимациями предельных распределений минимумов статистик критериев согласия типа Колмогорова, типа и Мизеса и распределений статистик при использовании метода максимального правдоподобия, уточняющие результаты работы [3].
При вычислении оценок максимального правдоподобия (ОМП), как правило, возникает необходимость численного решения уравнений правдоподобия, что является достаточно сложной задачей. К тому же в некоторых случаях функция правдоподобия имеет много локальных максимумов, что дополнительно усложняет задачу [4] (авторам приходилось сталкиваться с многоэкстремальностью функции правдоподобия). Ещё Р. Фишером было предположено, что во многих регулярных случаях для достижения хорошей аппроксимации будет достаточно осуществить только один итерационный цикл при решении уравнений правдоподобия. Позднее были сформулированы и доказаны теоремы о том, что при определенных условиях регулярности, накладываемых на функцию плотности, асимптотические свойства ОМП и оценок, полученных в результате первой итерации решения системы уравнений правдоподобия методом Ньютона-Рафсона (одношаговых оценок или ОШ-оценок, на графиках и в формулах в дальнейшем использовано сокращение ОШО), совпадают [4-7]. Это означает, что асимптотическая дисперсия ОШ-оценок, как и асимптотическая дисперсия ОМП, определяется соотношением
,
где – информационная матрица Фишера.
Рассмотрим получение ОМП и ОШ-оценок. Пусть наблюдается выборка независимых одинаково распределенных случайных величин с плотностью распределения . Требуется оценить неизвестный параметр . ОМП вектора параметров вычисляется в результате максимизации функции правдоподобия
или, что является более удобным, ее логарифма
. (1)
Обычно находят, решая систему уравнений правдоподобия
, . (2)
В тех случаях, когда ОМП нельзя получить в виде аналитических выражений, задачи (1) или (2) могут решаться численно с использованием какого-либо итерационного процесса.
В методах Ньютона-Рафсона и накопления Рао [8] очередное приближение ОМП определяется соотношением
, (3)
где вектор – градиент логарифма функции правдоподобия с компонентами , . В методе Ньютона-Рафсона матрица представляет собой матрицу вторых частных производных логарифма функции правдоподобия с элементами
, .
В методе накопления Рао матрица . Элементы информационной матрицы Фишера определяются выражением
, ,
где – оператор математического ожидания.
ОШ-оценки определяются соотношением
. (4)
При этом в качестве начального приближения нельзя брать произвольное значение. В качестве может быть взята некоторая асимптотически нормальная оценка и тогда с точностью до приближает [6]. В [7] в качестве рекомендуются состоятельные оценки, вычисляемые по методу моментов или по выборочным квантилям. Именно при выборе таких начальных приближений ОШ-оценки оказываются асимптотически эффективными.
В работе [7] ОШ-оценкам придается очень большое самостоятельное значение. Они, в каком то смысле, даже противопоставляются ОМП. Авторы не склонны так преувеличивать роль ОШ-оценок, но согласны с их большим значением для практики статистических вычислений.
Как уже сказано, условные распределения статистик одних и тех же критериев согласия кардинально отличаются при различных методах оценивания. Однако хотелось бы знать, как отразится на распределениях статистик использование приближенных оценок того же вида, имеющих такие же асимптотические свойства? Вопрос заключается в том, можем ли мы при проверке сложных гипотез о согласии эмпирического распределения с теоретическим и применении ОШ-оценок параметров использовать предельные распределения статистик , построенные в предположении вычисления “точных” ОМП параметров наблюдаемого закона? В определенной степени положительный ответ на этот вопрос очевиден: одинаковые асимптотические свойства оценок предопределяют совпадение предельных распределений статистик соответствующих критериев согласия. На практике же, осуществляя статистические выводы, мы опираемся на выборки конечного размера. И совпадение асимптотических свойств оценок не всегда говорит об одинаковых свойствах тех же оценок при конечных объемах выборок. И будут ли одинаковыми распределения статистик критериев, построенные с использованием ОМП и ОШ-оценок по выборкам ограниченного объема? А что будет с распределениями ОШ-оценок и, соответственно, с распределениями статистик критериев согласия, если начальные приближения в силу разных причин окажутся не соответствующими условиям теорем в [7] или [6]?
Необходимость проведения такого исследования стала очевидной в процессе обсуждения с А.И. Орловым проблем точности построения моделей предельных распределений статистик непараметрических критериев согласия с использованием методов статистического моделирования [9]. В результате возникла идея, используя методы компьютерного моделирования, сравнить статистические свойства ОМП и ОШ-оценок при конечных объемах выборок и посмотреть, как имеющиеся различия в свойствах оценок, если они значимы, отражаются на распределениях статистик критериев.
Исследования проводились на примере двухпараметрических распределений Вейбулла (Вейбулла-Гнеденко) с функцией плотности и гамма-распределения , где – параметр формы, – параметр масштаба, . В качестве начальных приближений использовались оценки, вычисляемые по методу моментов (ОММ). В случае распределения Вейбулла ОММ вычисляются как корни системы уравнений
где и - соответственно первый и второй выборочные моменты. В случае гамма-распределения [10] на основании соотношений
Исследовались распределения ОМП, ОШ-оценок, ОММ и эмпирические распределения статистик критерия согласия типа Колмогорова [11] и типа Мизеса, полученные в случае применения соответствующих оценок. В исследуемом критерии типа Колмогорова используется статистика вида [12]
,
где
- объем выборки, - упорядоченные по возрастанию выборочные значения, - функция закона распределения, согласие с которым проверяется, в критерии типа Мизеса – статистика [12]
.
Исследование предельных распределений статистик непараметрических критериев согласия при проверке сложных гипотез с использованием ОШ-оценок, ОМП и ОММ проводилось с использованием методики компьютерного анализа статистических закономерностей. Эмпирические функции распределений оценок и распределений статистик строились по количеству моделируемых выборок . При этом оценки параметров и статистики вычислялись по выборкам псевдослучайных величин объемом . Выборки моделировались в соответствии с распределением Вейбулла и гамма-распределением с параметрами , .
На приводимых ниже рисунках иллюстрируются некоторые из построенных на основании результатов моделирования эмпирические распределения оценок и распределения статистик критериев согласия типа Колмогорова или типа Мизеса при проверке сложных гипотез и использовании соответствующих оценок. На каждом из рисунков приведены плотности распределений оценок или эмпирические распределения статистик критериев согласия. Соответствующие распределения помечены на рисунках и в тех случаях, когда визуально они совпадают.
Было проведено четыре цикла испытаний.
a) Исследовались распределения оценок и распределения статистик критериев согласия при одновременном оценивании двух параметров закона распределения Вейбулла или гамма-распределения. В качестве начального приближения использовались оценки по методу моментов.
b) Исследовались распределения оценок параметра формы и статистик критериев при известном параметре масштаба . Начальное приближение определялось по методу моментов.
c) Исследовались распределения оценок параметра масштаба и статистик критериев при известном параметре формы . Начальное приближение определялось по методу моментов.
d) Исследовались распределения оценок и распределения статистик критериев согласия при одновременном оценивании двух параметров закона распределения Вейбулла или гамма-распределения. В качестве начального приближения использовались “зашумленные” оценки, получаемые из оценок по методу моментов добавлением некоторой ошибки приближения (ОММ*): , где – генерировалась по нормальному закону с нулевым математическим ожиданием и среднеквадратичным отклонением 0,1.
В случае a), когда одновременно оценивались оба параметра закона, значимых отклонений между плотностями законов распределений оценок и , и , как для распределения Вейбулла, так и для гамма-распределения не обнаружено. Соответственно совпадают и распределения статистик и для критериев типа Колмогорова и типа Мизеса. Отличие распределений ОММ приводит к значимому отклонению закона распределения соответствующей статистики от . Для иллюстрации на рис. 1 представлены плотности распределения оценок параметра формы закона распределения Вейбулла, а на рис. 2 – распределения статистики типа Колмогорова (при одновременном оценивании 2-х параметров распределения Вейбулла). Для распределения Вейбулла плотности оценок и , и практически совпадают. Практически идентичная картина наблюдается в аналогичной ситуации для гамма-распределения. Правда, в этом случае между соответствующими плотностями нет абсолютного совпадения, можно отметить визуально некоторое отличие, но это отличие статистически не значимо и не сказывается на распределениях соответствующих статистик критериев согласия.
Рис. 1. Плотности распределений оценок параметра распределения Вейбулла при оценивании двух параметров одновременно.
Рис. 2. Распределения статистики типа Колмогорова при вычислении оценок параметров и распределения Вейбулла
В случае b), когда оценивался только параметр формы при известном масштабном параметре , между плотностями оценок и (и для распределения Вейбулла, и для гамма-распределения) наблюдаются достаточно значимые различия. На рис. 3 представлены плотности оценок , и для распределения Вейбулла при известном масштабном параметре , а на рис. 4, соответственно, – распределения статистики Колмогорова , , между которыми наблюдаются столь же значимые различия. На рис. 3 кроме указанных выше плотностей оценок, построенных на основании моделирования, приведена плотность предельного нормального закона асимптотически эффективной оценки параметра формы распределения Вейбулла с асимптотической дисперсией, определяемой соотношением , где количество информации Фишера , а – постоянная Эйлера.
Рис. 3. Плотности распределений оценок параметра распределения Вейбулла, параметр полагается известным
Рис. 4. Распределения статистики Колмогорова при оценивании параметра распределения Вейбулла
В случае c), когда оценивался только масштабный параметр при известном параметре формы , для гамма-распределения между плотностями оценок и наблюдаются значимые различия (см. рис. 5). Это приводит к отличию в распределениях и статистики типа Колмогорова (см. рис. 6). Аналогично отличаются и статистики типа Мизеса. На рис. 5 для иллюстрации приведена также плотность нормального закона асимптотически эффективной оценки параметра масштаба гамма-распределения с асимптотической дисперсией , где . В то же время следует отметить, что в аналогичной ситуации для распределения Вейбулла плотности оценок и совпадают(!).
Рис. 5. Плотности распределений оценок параметра гамма-распределения, параметр полагается известным
Рис. 6. Распределения статистики Колмогорова при оценивании параметра гамма-распределения.
В случае d) (при одновременном оценивании двух параметров закона и выборе в качестве начального приближения для вычисления оценок методами Ньютона-Рафсона и накопления Рао “зашумленных” оценок ) между распределениями оценок параметра формы , и между распределениями оценок параметра масштаба , обычно наблюдаются существенные различия (как для распределения Вейбулла, так и для гамма-распределения). Например, на рис. 7 представлены в данной ситуации плотности оценок , для распределения Вейбулла, а на рис. 8 – распределения статистики и критерия типа Мизеса.
Рис. 7. Плотности распределений оценок параметра распределения Вейбулла в случае оценивания двух параметров одновременно
Рис. 8. Распределения статистики типа Мизеса при вычислении оценок параметров и распределения Вейбулла.
Плотности распределений оценок, приводимые на рисунках 1, 3, 5 и 7, представляют собой плотности нормального закона, хорошо аппроксимирующего эмпирический закон распределения соответствующей оценки. Параметры и нормального закона , аппроксимирующего соответствующее распределение оценок, отражены в табл. 1.
№ рисунка |
Параметры нормального закона |
Рис. 1 |
= N(3,0096; 0,1040) = N(3,0090; 0,1039) = N(3,0090; 0,1056) |
Рис. 3 |
= N(2,9983; 0,0993) = N(2,9983; 0,1006) = N(2,9700; 0,1032) = N(2,8516; 0,4162) |
Рис. 5 |
= N (1,9977; 0,0516) = N (1,9977; 0,0519) = N (2,0089; 0,0540) = N (1,9922; 0,1558) |
Рис. 7 |
= N(3,0096; 0,1057) = N(2,9590; 0,1247) = N(3,0070; 0,1470) |
Примечание: Распределения и на рис. 3 и 5, вообще говоря, являются оценками асимптотических распределений соответственно и при объеме наблюдаемых выборок n=500 и числе выборок N=2000. Повторение экспериментов показало, что величины и , где k – число повторений таких экспериментов, очень быстро сходятся к асимптотическим дисперсиям и соответственно.
На основании проведенных исследований, можно констатировать, что статистические свойства первого приближения итерационного процесса (3) существенно зависят от выбранного начального приближения .
При хороших начальных приближениях, соответствующих условиям теорем в [6,7], статистические свойства ОШ-оценок совпадают со свойствами ОМП. В этом случае совпадают и распределения статистик непараметрических критериев согласия и .
Если же начальное приближение оказывается недостаточно хорошим, то между законами распределения ОМП и ОШ-оценок (они уже не будут ОШ-оценками, как это понимается в [7]) появляются значимые различия, которые приводят к значимым же различиям в распределениях статистик и . Обычно, но не всегда, ОММ оказываются достаточно хорошим начальным приближением для ОШ-оценок.
Общий вывод, опирающийся на результаты и свойства итерационного процесса (3), можно сформулировать следующим образом. Если начальное приближение оказывается в области, в которой логарифм функции правдоподобия хорошо аппроксимируется квадратичной функцией (а это соответствует условиям теорем в [6,7]), то статистические свойства получаемых ОМП (3) и ОШ-оценок (4) близки. В этом случае можно при проверке сложных гипотез пользоваться моделями предельных распределений статистик непараметрических критериев согласия, построенных для случая применения ОМП [2,3].
1. Лемешко Б.Ю., Постовалов С.Н. О зависимости распределений статистик непараметрических критериев и их мощности от метода оценивания параметров // Заводская лаборатория. Диагностика материалов. – 2001. – Т. 68. – № 7. – С. (в печати).
2. Лемешко Б.Ю., Постовалов С.Н. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Методические рекомендации. Часть II. Непараметрические критерии. – Новосибирск: Изд-во НГТУ, 1999. – 85 с.
3. Лемешко Б.Ю., Постовалов С.Н. О распределениях статистик непараметрических критериев согласия при оценивании по выборкам параметров наблюдаемых законов // Заводская лаборатория. 1998. – Т. 65. – № 3. – С. 61-72
4. Закс Ш. Теория статистических выводов. М.: Мир, 1975. – 776 с.
5. Джапаридзе К.О. Об упрощенных оценках неизвестных параметров с хорошими асимптотическими свойствами // Теория вероятностей и ее применения. – 1974. – Т. XIX. – №2, – С. 335-366.
6. Боровков А.А. Математическая статистика. – М.: Наука, 1984. – 472 с.
7. Орлов А.И. О нецелесообразности использования итеративных процедур нахождения оценок максимального правдоподобия // Заводская лаборатория, 1986. – Т. 52. – № 5. – С. 67-69.
8. Рао С.Р. Линейные статистические методы и их применения. – М.: Наука, 1968. – 548 с.
9. Орлов А.И. Методы оценки близости допредельных и предельных распределений статистик // Заводская лаборатория. 1998. – Т. 64. – № 5. – С. 64-67.
10. ГОСТ 11.011-83. Правила определения оценок и доверительных границ для параметров гамма-распределения. – М.: Изд-во стандартов, 1984.
11. Орлов А.И. О критериях Колмогорова и Смирнова // Заводская лаборатория. 1995. – Т. 61. – № 7. – С. 59-61.
12. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. – М.: Наука, 1983. – 416 с.
Приложение:
Рис. 9. Плотности распределений оценок параметра распределения Вейбулла в случае оценивания двух параметров одновременно.
Рис. 10. Плотности распределений оценок параметра распределения Вейбулла в случае оценивания двух параметров одновременно.
Рис. 11. Распределения статистики типа Колмогорова при вычислении оценок параметров и распределения Вейбулла.
Рис. 12. Распределения статистики типа Мизеса при вычислении оценок параметров и распределения Вейбулла.
Рис. 13. Плотности распределений оценок параметра гамма-распределения в случае оценивания двух параметров одновременно.
Рис. 14. Плотности распределений оценок параметра гамма-распределения в случае оценивания двух параметров одновременно.
Рис. 15. Распределения статистики типа Колмогорова при вычислении оценок параметров и гамма-распределения.
Рис. 16. Распределения статистики типа Мизеса при вычислении оценок параметров и гамма-распределения.
Рис.17. Плотности распределений оценок параметра распределения Вейбулла, параметр полагается известным.
Рис.18. Распределения статистики Колмогорова при оценивании параметра распределения Вейбулла.
Рис.19. Плотности распределений оценок параметра гамма-распределения, параметр полагается известным.
Рис.20. Распределения статистики Колмогорова при оценивании параметра гамма-распределения.
Рис.21. Плотности распределений оценок параметра распределения Вейбулла, параметр полагается известным.
Рис.22. Распределения статистики Колмогорова при оценивании параметра распределения Вейбулла.
Рис.23. Плотности распределений оценок параметра гамма-распределения, параметр полагается известным.
Рис.24. Распределения статистики Колмогорова при оценивании параметра гамма-распределения.
[1] Работа выполнена при поддержке Российского фонда фундаментальных исследований (проект 00-01-00913)