2.3.2 Методика компьютерного анализа статистических закономерностей

         Очевидно, что бесконечное множество случайных величин, с которым приходится сталкиваться на практике, не может быть описано ограниченным подмножеством моделей законов распределений, наиболее часто используемых для описания реальных наблюдений в приложениях. Любой исследователь для конкретной наблюдаемой величины может предложить (построить) свою пара­метрическую модель закона, наиболее адекватно, с его точки зрения, описы­вающего эту случайную величину. После оценки по данной выборке парамет­ров модели возникает необходимость проверки сложной гипотезы об адекват­ности выборочных наблюдений и построенного закона с исполь­зованием кри­териев согласия.

         Множество всех сложных гипотез бесконечно и заранее иметь распреде­ления G(S|H0) для любой сложной гипотезы H0 практически невозможно. Именно поэтому найденные различным образом предельные распределения статистик непараметрических критериев согласия представлены в литератур­ных источниках лишь для ограниченного ряда распределений, наиболее часто используемых в приложениях, особенно в задачах контроля качества и иссле­дования надежности. Что же делать, если для описания выборки используется закон распределения вероятностей F(x,q) и найдена оценка его параметра , а для проверки сложной гипотезы H0: F(x)={F(x,q),q ÎQ}, исследователю неизвестно распределение G(S|H0) статистики соответствующего критерия со­гласия?

Наиболее целесообразно воспользоваться методикой компьютерного ана­лиза статистических закономерностей, хорошо зарекомендовавшей себя при моделировании распределений статистик критериев [20]-[25].

Для этого следует в соответствии с законом  смоделировать N выборок того же объема n, что и выборка, для которой необходимо проверить гипотезу H0 :  F(x)={F(x,q), q ÎQ}. Далее для каждой из N  выборок вы­числить оценки тех же параметров закона, а затем значение статистики S соот­ветствующего критерия согласия. В результате будет получена выборка значе­ний статистики S1,S2,…,SN  с законом распределения G(Sn|H0) для прове­ряемой гипотезы H0. По этой выборке при достаточно большом N можно по­строить достаточно гладкую эмпирическую функцию распределения GN(Sn|H0), которой можно непосредственно воспользоваться для вывода о том, следует ли принимать гипотезу H0 . При необходимости, можно по GN(Sn|H0) построить приближенную аналитическую модель, аппроксими­ру­ющую GN(Sn|H0), и тогда уже, опираясь на эту модель, принимать решение относительно проверяемой гипотезы.

Как показывает практика, хорошей аналитической моделью для GN(Sn|H0) часто оказывается один из следующих четырех законов: лога­риф­мически нормальный, гамма-распределение, распределение Su-Джон­сона или распределение Sl-Джонсона [21], [24]. Во всяком случае, всегда можно, опира­ясь на ограниченное множество законов распределения, построить модель в виде смеси законов [26]-[27].

Реализация такой процедуры компьютерного анализа распределения ста­тистики не содержит ни принципиальных, ни практических трудностей. Уро­вень вычислительной техники позволяет очень быстро получить результаты моделирования, а реализация алгоритма под силу инженеру, владеющему на­выками программирования.

В то же время такая методика анализа распределений статистик имеет и недостатки, связанные с ограниченной точностью построения закона распреде­ления статистики и возможным влиянием качества используемого датчика псевдослучайных чисел [28]. Поэтому при ее реализации обязательно следует контролировать качество датчиков, генерирующих числа в соответствии с тре­буемыми законами “наблюдаемых” случайных величин. Современные системы программирования включают в себя достаточно хорошие датчики, генерирую­щие псевдослучайные числа, распределенные по равномерному закону. При необходимости построения собственного датчика можно воспользоваться алго­ритмами моделирования, изложенными в [29].

Точность построения закона распределения статистики на основании GN(Sn|H0), конечно, можно повышать, увеличивая N. По оценкам [20]-[24], отклонения смоделированного распределения от теоретического при N=2000 обычно имеют порядок » ±0,015. Если поставить такую цель, то, аппроксими­руя эмпирические распределения теоретическими законами и усредняя их по реализациям (при многократном моделировании), можно, при необходимости, добиться более высокой точности построения закона распределения исследуе­мой статистики. Опираясь на построенное распределе­ние GN(Sn|H0), можно достаточно точно оценить значение P{S>S*}, но значе­ния процентных точек, полученные по GN(Sn|H0), могут оказаться с сущест­венной погрешностью. На практике же, проверяя различные ги­потезы, чаще сравнивают полученное зна­чение статистики S* с соответствующей процентной точкой предельного рас­пределения, что является менее информативным для принятия решения. Более предпочтительно принимать решение по достигнутому уровню значимости P{S>S*}.

         Во всех приводимых далее примерах, иллюстрирующих распределения статистик критериев GN(Sn|Hi), , в зависимости от различных факторов с применением изложенной методики число моделируемых выборок N прини­мали равным 2000, а их объем n, кроме особо отмеченных случаев, равным 1000.

 

[Предыдущая][Содержание][Следующая]