2.7 Характер влияния способов группирования и метода оценивания на распределения статистик типа c2

Вычисленные по конкретной выборке значения статистик типа c2 очень сильно зависят от того, как сгруппированы данные. При выборе интервалов группирования одним способом нулевая гипотеза H0 о согласии может быть отвергнута, другим – принята. При практическом использовании критериев со­гласия выбирают либо интервалы равной длины, либо интервалы равной веро­ятности (равной частоты), либо асимптотически оптимальные интервалы [10], [16]–[20]. Использование интервалов равной вероятности было предложено ещё в работе [21]. Разбиение области определения случайной величины (раз­маха выборки) на интервалы равной длины неоднозначно. Более определен­ными способами являются равновероятное и асимптотически опти­мальное группирования. При асимптотически оптимальном группировании мощность этих критериев для близких альтернатив максимальна [10], [18]–[20].

Для статистики c2 Пирсона, вычисляемой в соответствии с формулой (1), при справедливой простой гипотезе H0 предельное распределе­ние g(S|H0) есть c2r –распределение с числом степеней свободы r=k-1. При сложной гипотезе, если по выборке оценивали m параметров закона, стати­стика подчиняется c2r –распределению с r=k-m-1 степеней свободы. При справедливой альтернативной гипотезе H1 предельное распределение g(S|H1) представляет собой нецентральное c2r –распределение с тем же чис­лом степеней свободы и параметром нецентральности, определяемым соотно­шением (3).

В случае проверки сложных гипотез и оценивании по выборке пара­мет­ров распределений использование в качестве предельных c2k-m-1–рас­пределе­ний справедливо лишь при определении оценок параметров по сгруппирован­ным данным [1].

Все вышеизложенное относится и к критерию отношения правдоподобия, статистика которого определяется формулой (6).

Выбор способа группирования, в том числе равновероятного или асим­птотически оптимального, отражается на предельных распределениях ста­ти­стик g(S|H1) (при верной конкурирующей гипотезе). При использовании асимптотически оптимального группирования распределения g(S|H0) и g(S|H1) максимально “сдвинуты” относительно друг друга [18]–[20]. Это справедливо как при проверке простых, так и при проверке сложных гипотез.

В случае проверки простых гипотез распределения g(S|H0) статистик критериев c2 Пирсона и отношения правдоподобия при любом разумном спо­собе группирования [равновероятном (РВГ), асимптотически оптимальном (АОГ), равной длины] хорошо согласуются с соответствующим c2k-1–рас­пределением [22], [23].

При проверке сложных гипотез предельные распределения статистик критериев c2 Пирсона и отношения правдоподобия могут зависеть не только от числа оцененных параметров, но и от способа группирования, вида наблю­даемого закона распределения f(x,q), метода оценивания и типа оценивае­мого параметра.

В частности, при проверке сложных гипотез и использовании ОМП по негруппированным наблюдениям распределения g(S|H0) статистик данных критериев существенно зависят от способа группирования.

В работах [22], [23] методами статистического моделирования были про­ведены исследования законов распределения статистик типа c2 при простых и различных сложных гипотезах, при справедливости гипотезы H0 и справедли­вости конкурирующей гипотезы H1, при равновероятном и асимптотически оптимальном группировании.

Например, на рисунках 4–7 сопоставлены полученные в результате моде­лирования эмпирические распределения статистик (при вычислении ОМП по негруппированным наблюдениям) с соответствующими c2k-m-1–распре­делениями. Цифрой “1” на указанных рисунках отмечено распределение статистики при асимптотически оптимальном группировании, “2” – при равновероятном группировании. На рисунках 4-6 в качестве примера представлены распределе­ния статистики Sc2 при справедливой гипотезе H0 для пяти интервалов груп­пирования и оценивании по негруппированным данным параметров нормаль­ного распределения.

Рисунок 4 – Распределение статистики Sc2 при пяти интервалах
группирования и оценивании масштабного параметра
нормального распределения

 

Рисунок 5 – Распределение статистики Sc2 при пяти интервалах группирования
и оценивании параметра сдвига нормального распределения

 

Рисунок 6 – Распределение статистики Sc2 при пяти интервалах группирования
и оценивании двух параметров нормального распределения

Для сравнения на рисунке 7 представлены распределения статистики SОП при пяти интервалах группирования и оценивании обоих параметров нормаль­ного распределения при асимптотически оптимальном и равновероятном груп­пировании.

Результаты моделирования и анализа показали [22], [23], что распределе­ния статистик критериев c2 Пирсона и отношения правдоподобия при про­верке сложных гипотез и вычислении оценок по негруппированным данным существенно отличаются при различных способах группирования. При этом эмпирический закон распределения статистики при асимптотически оптималь­ном группировании ближе к c2k-m-1–распределению, чем при равновероятном группировании. Более того, распределения статистик зависят не только от числа оцененных по выборке параметров, но и от того, какой параметр оцени­вали. Например, оценивание параметра сдвига приводит к более зна­чительному изменению распределения статистики, чем оценивание масштабного пара­метра. Распределения статистик зависят и от вида наблюдаемого закона. Но эта зависимость не проявляется так резко, как в случае применения для проверки сложных гипотез непараметрических критериев, например типа Колмогорова.

 

Рисунок 7 – Распределение статистики SОП при пяти интервалах группирования и
оценивании  двух параметров нормального распределения

 

Эмпирические распределения статистики отно­шения правдоподобия ока­зываются ближе к c2k-m-1–распределению, чем соответствующие эмпирические распределения статистики c2 Пирсона.

            c2r -распределение с числом степеней свободы r является частным слу­чаем гамма-распределения с основным параметром, равным r/2, и с масштаб­ным – 0,5. Оценивание одного из параметров учитывается умень­шением числа степеней свободы на 1. Так, если измерять изменение предельного закона “в степенях свободы”, то оказывается, что оценивание по негруппированным на­блюдениям даже параметра сдвига обычно приводит к изменению “числа сте­пеней” на значение меньшее 1, еще к меньшему изменению в степенях свободы приводит оценивание масштабного параметра. При оценивании по негруппи­рованным наблюдениям двух параметров закона различие между c2r -распреде­лением и действительным распределением статистики еще более значимо. Та­ким образом, при вычислении оценок параметров по негруппированным на­блюдениям использование в критериях согласия c2k-m-1–распределения чревато занижением вероятности вида P{S>S*} и определенным риском отвергнуть верную гипотезу H0. Занижение P{S>S*} более существенно при малом числе интервалов группирования. В целом этот риск существенно меньше в случае применения асимптотически оптимального группирования.

Полученные в результате моделирования эмпирические законы распре­деления статистик рассматриваемых критериев практически всегда с доста­точно высокой точностью описываются гамма-распределением.

Использование в критериях согласия c2k-m-1–распределения для вычис­ления вероятности вида P{S>S*} связано с риском отвергнуть верную гипо­тезу H0. В случае применения асимптотически оптимального группирования этот риск существенно меньше. В качестве примера в таблице 1 приведены значения вероятностей P{S>S*} для различных значений статистики S*, вы­численные по c24 –распределению и в соответствии с “действительными” рас­пределениями статистик при семи интервалах группирования и оценивании двух параметров нормального распределения. Эти данные вместе с другими ре­зультатами позволяют судить о том, что в случае применения асимпто­тически оптимального группирования и использования c2k-m-1–распределения ошибки при вычислении вероятности P{S>S*} практически незначимы.

Таблица 1 – Значения вероятностей вида P{S>S*}

Значе­ние

S*

c24 –распреде­ление

Распределение статистики SОП

Распределение статистики Sc2

При АОГ

При РВГ

При АОГ

При РВГ

3

0,5578

0,5876

0,6293

0,5914

0,6304

4

0,4060

0,4303

0,4700

0,4356

0,4716

5

0,2873

0,3049

0,3384

0,3108

0,3403

6

0,1991

0,2108

0,2370

0,2165

0,2389

7

0,1359

0,1430

0,1626

0,1481

0,1643

8

0,0916

0,0956

0,1096

0,0999

0,1111

9

0,0611

0,0632

0,0729

0,0666

0,0741

10

0,0404

0,0413

0,0480

0,0440

0,0489

11

0,0266

0,0268

0,0313

0,0288

0,0320

12

0,0173

0,0173

0,0202

0,0187

0,0207

13

0,0113

0,0110

0,0130

0,0120

0,0133

 

Исследование распределений статистик при вычислении ОМП по не­группированным данным и дальнейшем увеличении числа интервалов по­казало возрастающую близость распределений статистик к c2k-m-1–распре­делениям. Следовательно, при использовании c2k-m-1–распределения для вычисления ве­роятностей вида P{S>S*} с ростом числа интервалов (при достаточном объ­еме выборки) ошибки будут снижаться.

Как отражается способ группирования на предельных распределениях статистики Sc2при справедливости альтернативной гипотезы H1 показано на рисунках 8–9, где приведены полученные в результате моделирования функции распределения G(S|H1) при использовании асимптотически оптимального (АОГ) и равновероятного (РВГ) группирования, когда гипотеза H0 соответст­вует нормальному закону распределения, а гипотеза H1 – логистическому. Эти два закона достаточно близки и трудноразличимы с помощью критериев согла­сия. На рисунке 8 приведены эмпирические распределения статистики при простой гипотезе H0, а на рисунке 9 – при сложной. Число интервалов груп­пирования – 7. Из рисунков 8, 9 видно, насколько выше мощность критерия при асимптотически оптимальном группировании по сравнению равновероят­ным.

 

Рисунок 8 – Распределения статистики Sc2 при проверке простой гипотезы H0

Рисунок 9 – Распределения статистики Sc2 при проверке сложной гипотезы H0

 

Распределения G(S|H0) и G(S|H1) статистики Y2N(q), определяемой со­отношением (11) при использовании оценок максимального правдоподобия па­раметров по негруппированным данным, несущественно зависят от способа группирования. Исследование этих распределений методами статистического моделирования показало хорошее согласие G(S|H0) с c2k-1-распре­делениями и при равновероятном и при асимп­тотически оптимальном группировании. При выборе различных способов группирования нет большой разницы между соот­ветствующими распределениями статистики G(S|H1). При этом критерий ока­зывается несколько мощнее в случае равновероятного группирования.

Таким образом, по поводу распределений статистик критериев типа c2 можно сделать следующие выводы.

Если по наблюдаемой выборке не оценивали параметры закона (простая гипотеза), то распределения статистик типа c2 при справедливой гипотезе H0 достаточно хорошо согласуются с c2k-1 как при равновероятном, так и при асимптотически оптимальном группировании. Различия между распределе­ниями статистик при равновероятном и асимптотически оптимальном группи­ровании заметны, но незначимы. Распределения статистик при равновероятном группировании в целом оказываются ближе к c2k-1–распределению.

В условиях, когда оценки параметров определяют по негруппированным наблюдениям, распределения этих статистик хорошо согласуются с гамма-рас­пределениями. При этом:

а) Распределения статистик критериев отношения правдоподобия и c2 Пир­сона существенно зависят от способа группирования, особенно при малом числе интервалов.

б) Распределения статистик зависят не только от числа оцененных по выборке параметров, но и от того, какой параметр оценивали. В частности, оценивание параметра сдвига приводит к более значительному изменению распределений статистик, чем оценивание масштабного параметра. Картина аналогичная той, что наблюдается для распределений статистик типа Колмогорова, Смирнова и w2 Мизеса при проверке сложных гипотез [24].

в) Эмпирические распределения статистики отношения правдоподобия оказы­ваются ближе к предельному теоретическому c2k-m-1–распределению, чем со­ответствующие эмпирические распределения статистики c2 Пирсона.

г) В целом, при малом числе интервалов и оценивании m параметров число степеней свободы предельного распределения уменьшается на “число сте­пеней свободы” меньшее m. При этом эмпирический закон распределения стати­стики при асимптотически оптимальном группировании ближе к теоре­тиче­скому c2k-m-1–распределению, чем при равновероятном группировании.

д) С ростом числа интервалов k разность между функцией распределения c2k-m-1 и действительными функциями распределения статистик отношения правдоподобия и c2 Пирсона в случае асимптотически оптимального груп­ппирования убывает существенно быстрее.

е) Анализ показал, что при использовании для вычисления вероятностей P{S>S*} функции распределения c2k-m-1 при асимптотически оптимальном группировании и малом числе интервалов (k<10) при малых значениях P{S>S*} (именно при малых вероятностях принимают решение отклонить гипотезу H0 или нет) погрешность имеет значения, которые не существенны для практических задач. То есть в этом случае, используя c2k-m-1-распределе­ние, не совершают большой ошибки. В то же время ошибка в определении кри­тического значения Sa может быть достаточно большой. Поэтому целесооб­разно принимать решение по достигнутому уровню значимости: значению ве­роятности P{S>S*}.

ж) С ростом числа интервалов (при соответствующем объеме выборки) отли­чие распределений статистик Sc2 и SОП от распределений c2k-m-1 и при асим­птотически оптимальном и при равновероятном группировании становится не­существенным.

При справедливости конкурирующей гипотезы H1 распределения ста­ти­стик c2 и отношения правдоподобия и при простых, и при сложных гипотезах сильно за­висят от способа группирования.

Разность G(S|H0)-G(S|H1) для этих статистик при близких альтер­на­тивах в случае использования асимптотически оптимального группирования максимальна, сле­довательно, максимальна мощность критерия.

Распределения G(S|H1) статистики Никулина от выбранного способа группирования зависят несущественно.

 

[Предыдущая][Содержание][Следующая]