2.3.4 Влияние объема выборки на распределения статистик непараметрических критериев при простых и сложных гипотезах

            В случае проверки простых гипотез предельными распределениями ста­тистик критериев Колмогорова и Смирнова можно пользоваться при n>20 [3]. Исследование методами статистического моделирования зависимости распре­делений статистик всех рассматриваемых здесь непараметрических критериев от объема выборки при проверке различных как простых, так и сложных гипо­тез показывает, что это справедливо во всех случаях.

            Например, рисунок 1 иллюстрирует, как при увеличении объема вы­борки (n =5, 10, 20) меняется распределение G(Sn|H0) статистики Колмогорова SK в случае проверки простой гипотезы о принадлежности выборки нормаль­ному закону. На этом рисунке отражено также предельное распределение ста­тистики – функция распределения Колмогорова K(S). Эмпирические распре­деления GN(Sn|H0)   при больших n практически сливаются с K(S), и на ри­сунке они не показаны. Как видно, при малых n распределение существенно отличается от предельного, но уже при n ³ 15–20 ошибка при вычислении веро­ятности “согласия” P{S> S*} оказывается достаточно малой.

 

Рисунок 1 – Зависимость от n распределений G(Sn|H0)   статистики SK Колмогорова при простой гипотезе (H0 - нормальное распределение): n = 5, 10, 20. K(S) – функция предельного распределения Колмогорова 

 

Та же самая картина наблюдается в случае проверки сложных гипотез о согласии. На рисунке 2 при n = 5, 10, 20, 1000 представлены распределения G(Sn|H0)  статистики SK в случае проверки аналогичной, но уже сложной, ги­потезы о нормальности, когда по выборке вычисляют оценки максимального правдоподобия (ОМП) параметров нормального закона.

            При малых n наибольшие отклонения от предельных распределений на­блюдаются на “хвостах”. И при простых, и при сложных гипотезах с ростом n распределения G(Sn|H0)  равномерно сходятся к предельному. Но если в случае простых гипотез с ростом n увеличивается вероятность больших значений ста­тистик, то в случае сложных возрастают вероятности и больших, и малых зна­чений статистик. Последнее замечание справедливо для распределений стати­стик SK, Sw  , SW.

 

Рисунок 2 – Зависимость от n распределений G(Sn|H0)  статистики SK Колмогорова при сложной гипотезе (H0 - нормальное распределение, ОМП): n = 5, 10, 20, 1000

 

Рисунок 3 иллюстрирует изменения с ростом n распределений G(Sn|H0)  статистики Крамера-Мизеса-Смирнова Sw при проверке сложной гипотезы о нормальности и использовании при оценивании параметров метода максималь­ного правдоподобия. Чтобы подчеркнуть разницу в распределениях статистик при простых и сложных гипотезах, на указанном рисунке приведены G(Sn|H0)  для n = 5, 20, 1000 и a1(S) – предельная функция распределения статистики Sw при проверке простой гипотезы.

            Таким образом, распределения G(Sn|H0)  статистик непараметрических критериев при простых и сложных гипотезах с ростом n очень быстро сходятся к предельным, и уже при n ³15-20 можно, не опасаясь больших ошибок, пользоваться этими предельными законами при анализе данных.

Однако последний вывод не означает, что при малых объемах выборок с помощью этих критериев можно успешно различать близкие гипотезы. Для на­дежного различения близких законов распределения, в частности с помощью критерия согласия Колмогорова, может потребоваться выборка достаточно большого объема [30].

 

Рисунок 3 – Зависимость от n распределений G(Sn|H0)   статистики Sw Крамера-Мизеса-Смирнова при сложной гипотезе (H0 - нормальное распределение, ОМП): n = 5, 20, 1000

 

 

[Предыдущая][Содержание][Следующая]