Очевидно, что бесконечное множество случайных величин, с которым приходится
сталкиваться на практике, не может быть описано ограниченным подмножеством
моделей законов распределений, наиболее часто используемых для описания
реальных наблюдений в приложениях. Любой исследователь для конкретной
наблюдаемой величины может предложить (построить) свою параметрическую модель
закона, наиболее адекватно, с его точки зрения, описывающего эту случайную
величину. После оценки по данной выборке параметров модели возникает
необходимость проверки сложной гипотезы об адекватности выборочных наблюдений
и построенного закона с использованием критериев согласия.
Множество всех сложных гипотез бесконечно и заранее иметь распределения G(S|H0) для
любой сложной гипотезы H0 практически невозможно. Именно поэтому найденные
различным образом предельные распределения статистик непараметрических
критериев согласия представлены в литературных источниках лишь для
ограниченного ряда распределений, наиболее часто используемых в приложениях,
особенно в задачах контроля качества и исследования надежности. Что же делать,
если для описания выборки используется закон распределения вероятностей F(x,q) и
найдена оценка его параметра , а для проверки сложной гипотезы H0: F(x)={F(x,q),q ÎQ}, исследователю неизвестно
распределение G(S|H0) статистики соответствующего критерия согласия?
Наиболее целесообразно воспользоваться методикой
компьютерного анализа статистических закономерностей, хорошо зарекомендовавшей
себя при моделировании распределений статистик критериев [20]-[25].
Для этого следует в соответствии с законом смоделировать
N выборок того же объема n, что и выборка,
для которой необходимо проверить гипотезу H0 : F(x)={F(x,q), q ÎQ}. Далее для каждой из N выборок вычислить оценки
тех же параметров закона, а затем значение статистики S
соответствующего критерия согласия. В
результате будет получена выборка значений статистики S1,S2,…,SN с законом распределения G(Sn|H0) для
проверяемой гипотезы H0. По этой выборке при достаточно большом N можно построить достаточно гладкую эмпирическую функцию
распределения GN(Sn|H0), которой можно непосредственно воспользоваться
для вывода о том, следует ли принимать гипотезу H0 .
При необходимости, можно по GN(Sn|H0) построить
приближенную аналитическую модель, аппроксимирующую GN(Sn|H0), и тогда
уже, опираясь на эту модель, принимать решение относительно проверяемой
гипотезы.
Как показывает практика, хорошей аналитической моделью
для GN(Sn|H0) часто
оказывается один из следующих четырех законов: логарифмически нормальный,
гамма-распределение, распределение Su-Джонсона
или распределение Sl-Джонсона
[21], [24].
Во всяком случае, всегда можно, опираясь на ограниченное множество законов
распределения, построить модель в виде смеси законов [26]-[27].
Реализация такой процедуры компьютерного анализа
распределения статистики не содержит ни принципиальных,
ни практических трудностей. Уровень вычислительной техники позволяет очень
быстро получить результаты моделирования, а реализация алгоритма под силу
инженеру, владеющему навыками программирования.
В то же время такая методика анализа распределений
статистик имеет и недостатки, связанные с ограниченной точностью построения
закона распределения статистики и возможным влиянием качества используемого
датчика псевдослучайных чисел [28]. Поэтому
при ее реализации обязательно следует контролировать качество датчиков,
генерирующих числа в соответствии с требуемыми законами “наблюдаемых”
случайных величин. Современные системы программирования включают в себя
достаточно хорошие датчики, генерирующие псевдослучайные числа, распределенные
по равномерному закону. При необходимости построения собственного датчика можно
воспользоваться алгоритмами моделирования, изложенными в [29].
Точность построения
закона распределения статистики на основании GN(Sn|H0), конечно,
можно повышать, увеличивая N. По
оценкам [20]-[24], отклонения смоделированного
распределения от теоретического при N=2000 обычно имеют порядок » ±0,015.
Если поставить такую цель, то, аппроксимируя эмпирические распределения теоретическими
законами и усредняя их по реализациям (при многократном моделировании), можно,
при необходимости, добиться более высокой точности построения закона
распределения исследуемой статистики. Опираясь на построенное распределение GN(Sn|H0), можно достаточно точно оценить значение P{S>S*}, но значения
процентных точек, полученные по GN(Sn|H0), могут
оказаться с существенной погрешностью. На практике же, проверяя различные гипотезы,
чаще сравнивают полученное значение статистики S* с соответствующей процентной точкой предельного
распределения, что является менее информативным для принятия решения. Более
предпочтительно принимать решение по достигнутому уровню значимости P{S>S*}.
Во всех приводимых далее примерах, иллюстрирующих распределения статистик
критериев GN(Sn|Hi),
, в зависимости от различных факторов с
применением изложенной методики число моделируемых выборок N принимали равным 2000, а их объем n, кроме особо отмеченных
случаев, равным 1000.
[Предыдущая][Содержание][Следующая]