См. также: Прикладная математическая статистика (материалы к семинарам)

 

Метрология. 2007. – № 5. ­– С. 3-13

519.245: 006.91.001

СТАТИСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ КАК ЭФФЕКТИВНЫЙ ИНСТРУМЕНТ ДЛЯ ИССЛЕДОВАНИЯ ЗАКОНОВ РАСПРЕДЕЛЕНИЯ ФУНКЦИЙ СЛУЧАЙНЫХ ВЕЛИЧИН

 

Лемешко Б.Ю., Огурцов Д.В.

На основании разработанного программного обеспечения методами ста­тистического моделирования исследуются законы распределения вероят­ностей различных функций от случайных величин, подчиняющихся раз­личным одномерным законам распределения. Показывается эффек­тив­ность методики при исследовании вероятностных закономерностей.

Ключевые слова: статистическое моделирование, функция случайных величин, за­кон распределения функции случайных величин.

 

Достаточно часто решаемой задачей в метрологии является задача определения вероятностных характеристик величины , непосредст­венно недоступной для измерения, на основании доступных для много­кратных измерений величин , , …, , если известна функция

,

или в векторной форме , а совместное распределение вероятностей входных переменных , , …,  найдено на основании результатов статистического анализа.

Классический подход [1,2] определения закона распределения ве­роятностей функции от системы случайных величин предполагает зна­ние совместной плотности распределения  системы случай­ных величин , , …, . Однако аналитическое решение с по­мощью классического подхода удается найти только для некоторых частных случаев  и  [2].

Вследствие этого при определении вероятностных характеристик выходной переменной модели  в случае некоррелированности входных переменных , , …,  рекомендуется [3] линеаризация модели

,                         (1)

где  – вектор математических ожиданий ,  – градиент функ­ции.

Такой подход позволяет достаточно просто на основании законов распределения входных переменных , , …,  или их числовых характери­стик определить соответствующие характеристики случайной величины . К сожалению, данный подход оказывается эффективным также в отно­сительно редких случаях при близости функции  к линейной.

В [4] на примере функции  демонстрируется различие в решениях, полученных при использовании классического подхода и в результате линеаризации, подчеркиваются недопустимо большие погрешности, к которым приводит применение метода линеаризации.

Тем не менее, метод линеаризации широко используют на прак­тике, в том числе в информационно-измерительных системах (ИИС), осуществляющих косвенные измерения. Например, в [5] данный подход используется для исследования метрологических характеристик много­канальных ИИС с мультипликативной связью между каналами. В ре­зультате линеаризации мультипликативное взаимодействие каналов за­меняется на аддитивное. Следует ожидать, что применение такого приема в ситуации, описываемой в [5] должно приводить к заниженным оценкам погрешности измерений.

Что же делать: аналитическое решение в соответствии с классиче­ским подходом в большинстве реальных ситуаций получить не удается, а линеаризация приводит к неадекватным решениям? Цель данной работы – обратить внимание метрологов на эффективность метода статистиче­ских испытаний для исследования вероятностных закономерностей, на его возможности при построении вероятностных моделей для функций от случайных величин, для уточнения вероятностных характеристик по­грешностей при косвенных измерениях. К сожалению, в отечественных работах метод статистических испытаний незаслуженно редко использу­ется для исследования вероятностных закономерностей.

Для исследования законов распределения функций от случайных величин было разработано программное обеспечение, позволяющее мо­делировать выборки функций от случайных величин. Интерфейс с поль­зователем позволяет задавать произвольные функции от системы неза­ви­симых (пока) случайных величин, распределенных по различным одно­­мерным законам.

 Рассмотрим несколько примеров, демонстрирующих точность ста­тистического моделирования и его эффективность при исследовании по­ведения законов распределения  функций от случайных величин

Очевидно, что распределение функции  существенно зависит от вида тех законов, которым подчинены случайные величины , от об­ласти их определения. Более того, функция  от , распределенных по одним и тем же законам, может описываться очень различающимися мо­делями вероят­ностных законов в зависимости от параметров законов, описывающих случайные величины . Покажем это на функции  в случае принадлежности  нормальным законам.

Пример 1. , где  и независимы. Теоретиче­ским законом распределения  является стандартное распределение Коши с плотностью , . В таблице 1 приве­дены резуль­таты проверки согласия смоделированной выборки вели­чины  с распределением Коши. В этом и в остальных случаях объёмы моделируемых выборок составили 10000 значений. В случае критерия  Пирсона использовано асимптотически оптимальное группирование, обеспечивающее максимальную мощность относительно близких конку­рирующих гипотез [6]. В таблице приведены значения статистик при­ме­няемых критериев согласия, вычисленные по выборке, и  достигнутые уровни значимости по каждому критерию [6, 7]. Достигнутый уровень значимости представляет собой вероятность , где  – зна­че­ние статистики  соответствующего критерия, вычисленное по выборке. Гипотеза о согласии эмпирического распределения с теоретическим по соответствующему критерию отклоняется, если , где  – за­данная вероятность ошибки 1-го рода.  В дан­ном случае достигнутые уровни значимости по всем применяемым кри­те­­риям свидетельствуют об очень хорошем согласии полученного в ре­зультате моделирования эмпирического распределения с распределением Коши.

 

Таблица 1. Результаты проверки согласия выборки величины  со стандартным распределением Коши в случае .

Критерий

Значение статистики

Достигнутый уровень значимости

 Пирсона при

12.547

0.5625

Колмогорова

0.6087

0.8526

 Мизеса

0.0521

0.8636

 Андерсона-Дарлинга

0.3416

0.9040

 

Пример 2. , где ,  и независимы. Теоретическим законом распределения  является распределение Коши с плотностью , . Результаты проверки со­гла­сия смоделированной выборки с распределением Коши приведены в таблице 2.

 

Таблица 2. Результаты проверки согласия выборки величины  с распределением Коши в случае , .

Критерий

Значение статистики

Достигнутый уровень значимости

 Пирсона при

10.713

0.7084

Колмогорова

0.7169

0.6829

 Мизеса

0.0530

0.8577

 Андерсона-Дарлинга

0.3202

0.9222

 

 

Пример 3. , где  и  независимы. В слу­чае  и  законом распределения  уже не является распределение Коши. Оце­нивание параметров плотности Коши  по смо­делированной выборке дает оценки максимального правдоподобия (ОМП) параметров масштаба =0.7895 и сдвига =0.6150. Оценка пара­метра сдвига совпадает с медианой эмпирического распределения. Проверка согласия полученного в результате моделирования эмпириче­ского распределения с законом распределения Коши отклоняется по всем критериям. Это является следствием того, что действительное распреде­ление величины  в данном случае стало явно асимметричным.

В общем случае плотность распределения частного  при  ,  может быть представлена в виде [8, 9]:

,                  (2)

где , а  – функция распределения стандартного нормального закона. Резуль­таты проверки согласия смоделированной выборки с распределе­нием (2)  при ,  приведены в таблице 3.

 

Таблица 3. Результаты проверки согласия выборки величины  с распределением, полученным по формуле (2), в случае , .

Критерий

Значение статистики

Достигнутый уровень значимости

 Пирсона при

17.406

0.2351

Колмогорова

0.8085

0.5302

 Мизеса

0.1462

0.4012

 Андерсона-Дарлинга

0.9025

0.4126

 

Пример 4. , где ,  и независимы. В случае существенного превышения абсолютного значения параметра сдвига величины  над сдвигом  хорошей моделью для  является нормальное распределение. На рисунке 1 представлены гистограмма, по­строенная по эмпирическому распределению при 15 интервалах и асим­птотически оптимальном группировании [6, 10], и плотность нормально­го распределения с оценками параметров масштаба =0.10051 и сдвига = 0.10067. В таблице 4 приведены результаты проверки согласия смо­делированной выборки с нормальным распределением.

 

Таблица 4. Результаты проверки согласия выборки величины  с нормальным распределением в случае ,

Критерий

Значение статистики

Достигнутый уровень значимости

 Пирсона при

23.272

0.0255

Колмогорова

0.6501

0.3991

 Мизеса

0.0870

0.1564

 Андерсона-Дарлинга

0.6545

0.0827

Рис. 1. Плотность и гистограмма распределения  при ,

 

В рассматриваемом примере плотность  имеет вид (2) при , . Результаты проверки согласия смоделированной выборки с распределением (2) приведены в таблице 5.

 

Таблица 5. Результаты проверки согласия выборки величины  с распределением (2), в случае ,

Критерий

Значение статистики

Достигнутый уровень значимости

 Пирсона при

17.023

0.2549

Колмогорова

0.9115

0.3770

 Мизеса

0.1462

0.4012

 Андерсона-Дарлинга

1.0833

0.3163

 

Данный пример для функции  это случай, когда примене­ние линеаризации оказывается правомерным. Линеаризация дает нормальное распределение с математическим ожиданием 0.1 и диспер­сией 0.0101, то есть нормальное с параметрами масштаба =0.1 и сдвига =0.100499, что не так уж далеко от истинного положения вещей.

С ростом абсолютной величины параметра сдвига  по отноше­нию к сдвигу  распределение  стремится к нормальному (при равен­стве дисперсий). С ростом дисперсии  распределение  начинает от­клоняться от нормального. В этих же условиях при росте дисперсии  по отношению к дисперсии  распределение хорошо аппроксимиру­ется нормальным законом. А применение линеаризации в этом случае приводит к нормальному закону с более заметным смещением относи­тельно истинного закона распределения.

Когда стандартное отклонение  много меньше его мате­матического ожидания и распределения  близки к нормальному, распределение  хорошо аппроксимиру­ется нор­мальным законом и линеаризация также дает хорошие резуль­таты.

Пример 5. , где ,  и независимы. Плот­ность распределения  в данном случае имеет вид (2) при  , . Результаты проверки согласия смоделированной выборки с распре­делением (2) приведены в таблице 6. Вид эмпирической функции распределения, полученной при моделировании, представлен на рис. 2. Очевидно, что ее хорошо можно описать некоторой смесью распределе­ний, аналитический вид которой отличен от закона (2).

 

Таблица 6. Результаты проверки согласия выборки величины  с распределением (2) в случае ,

Критерий

Значение статистики

Достигнутый уровень значимости

 Пирсона при

14.927

0.3831

Колмогорова

0.8050

0.5359

 Мизеса

0.1261

0.4710

 Андерсона-Дарлинга

0.92532

0.3989

 

Рис. 2. Эмпирическое распределение  при ,

 

В [5] применение линеаризации предусматривается для закона распределения произведения случайных величин. Насколько будет пра­вомерно применение линеаризации в подобном случае?

Пусть , где  ­– взаимно некоррелированные случай­ные величины с математическим ожиданием  и дисперсией . В соот­ветствии с (1) , математическое ожи­дание  и дисперсия .

Распределения произведений исследовались при различных за­ко­нах распределения .

В случае принадлежности  стандартным нор­мальным законам для  применение линеаризации невозможно по оче­видной при­чине: дисперсия оказывается нулевой. Полученные в результате модели­рования распределения  в данном случае представляют собой асиммет­ричные законы с нулевой медианой. Эти распределения не удается адек­ватно описать ка­кой-то одной параметрической моделью закона, однако они доста­точно хорошо аппроксимируются смесями вида:

.

В таблице 7 для данного случая приведены реальные доверительные ин­тервалы для , подчеркивающие асиммет­рич­ность законов.

 

Таблица 7. Доверительные интервалы для произведения  нормаль­ных стандартных случайных величин

 

90% доверительный интервал

95% доверительный интервал

1

-1.645;  1.645

-1.960;  1.960

2

-1,627;  1,603

-2,185;  2,167

3

-1,314;  1,356

-1,980;  2,057

4

-1,053;  1,116

-1,836;  1,934

5

-0,868;  0,749

-1,463;  1,296

 

На рис. 3 представлены эмпирические распределения аналогичных произведений случайных величин, но принадлежащих нормальному за­кону с параметрами сдвига и масштаба, равными единице. Распределе­ния  для этого случая при  неплохо описываются смесями двух, а при  – трех па­раметрических моделей. Различие между реаль­ными доверительными интервалами и полученными в результате линеа­ризации демонстрируется в таблице 8.

При повышении точности измерений  (с уменьшением ) рас­пределение  стремится к нормальному закону. Например, при  и  распределение  хорошо согласуется с нормальным законом N(0.99973, 0.02232), построенным по смоделированной выборке. В этом случае линеаризация дает идентичные результаты: N(1, 0.02236). То же самое наблюдается с ростом  при постоянстве .

 

Рис.3. Эмпирические распределения произведений  нормальных величин с пара­метрами сдвига и масштаба, равными единице

 

Таблица 8. Доверительные интервалы для произведения  нормаль­ных случайных величин с параметрами сдвига и масштаба, рав­ными единице

90% доверительный интервал

95% доверительный интервал

Реальный

Линеаризованный

Реальный

Линеаризованный

1

-0.645; 2.645

-0.645; 2.645

-0.960; 2.960

-0.960; 2.960

2

-1.191; 4.360

-1,326; 3,326

-1.828; 5.293

-1,772; 3,772

3

-1.870; 6.104

-1,849; 3,849

-2.850; 8.375

-2,395; 4,395

4

-2.419; 7.540

-2,290; 4,290

-4.158; 10.942

-2,920; 4,920

5

-3.157; 8.483

-2,678; 4,678

-5.620; 13.793

-3,383; 5,383

 

В заключение проиллюстрируем, насколько хорошие модели мож­но строить для произвольных функций от систем случайных величин. На­при­мер, для функции , где , , , , , т.е. при­над­лежат нормальному, равномерному и экспонен­циальному законам, с указан­ными параметрами сдвига и мас­штаба, очень хорошей моделью оказывается распределение с плотно­стью

                       (3)

и оценками параметров =0.0014, =0.4461, =0.7922. О степени бли­зости полученного эмпи­рического распределения к теоретическому (3) свидетельствуют вы­сокие достигнутые уровни значимости по применяе­мым критериям со­гласия (при проверке сложных гипотез [6, 7]), пред­ставленные в таблице 9.

 

Таблица 9. Результаты проверки согласия с распределением (3) выборки значений функции  

Критерий

Значение статистики

Достигнутый уровень значимости

 Пирсона при

15.064

0.1796

Колмогорова

0.4796

0.8847

 Мизеса

0.0423

0.7028

 Андерсона-Дарлинга

0.3647

0.6035

 

Таким образом, методы статистического моделирования в со­во­купности с про­грам­мным обеспечением, позволяющим строить прибли­женные матема­тические модели для полученных эмпирических распре­делений (в том числе в виде смесей различных параметрических зако­нов), представляют собой эффективный инструмент для изучения зако­нов распределения функций от случайных величин, для исследования вероятностных законо­мерностей, проявляющихся в задачах метрологии.

Распределения функций от случайных величин  зависят не только от вида законов распределений  и могут меняться в широких преде­лах в за­виси­мости от параметров этих законов. Используя методы стати­стического моделирования для исследования закона распределения , можно либо построить приближенную модель, аппроксимирующую этот закон в кон­кретном случае, либо выяснить условия, обеспечива­ю­щие обос­нованность при­ме­нения линеаризации.

Повышение точности измерений  в определенных условиях, хотя и далеко не всегда, способствует тому, что распределение величины , представляющей собой функцию , становится ближе к нормальному закону.

Использование статистического моделирования и специализиро­ван­ного программного обеспечения, примером которого является разви­ваемая система “Интервальная статистика” ISW [11], позволяет строить хорошие при­бли­женные математические модели законов распределения функций случайных величин (в том числе, в форме смесей параметриче­ских моделей законов),  когда этот закон не удается найти аналитически.

Работа выполнена при поддержке РФФИ (проект № 06-01-00059-а) и Министерства образования и науки РФ (проект № 2006-РИ-19.0/001/119).

 

Литература

1.     Чистяков В.П. Курс теории вероятностей. – М.: Наука, 1982. – 256 с.

2.     Гурский Е.И. Теория вероятностей с элементами математической стати­стики. – М.: Высшая школа, 1971. – 328 с.

3.     МИ 2083-90. ГСИ. Измерения косвенные. Определение результа­тов из­мерений и оценивание их погрешностей.

4.     Левин С.Ф. Схема приведения в методе косвенного измерения // Из­ме­рительная техника, 2004. – № 3. – С.5-9.

5.     Шевчук В.П., Лясин Д.Н. Количественная оценка погрешности изме­ре­ний обобщенных технологических параметров // Измери­тельная техника, 2004. – № 10. – С.16-20.

6.     Р 50.1.033-2001. Рекомендации по стандартизации. Прикладная ста­ти­стика. Правила проверки согласия опытного распределения с теорети­ческим. Часть I. Критерии типа хи-квадрат. – М.: Изд-во стандартов. 2002. – 87 с.

7.     Р 50.1.037-2002. Рекомендации по стандартизации. Прикладная ста­ти­стика. Правила проверки согласия опытного распределения с теорети­ческим. Часть II. Непараметрические критерии. - М.: Изд-во стандар­тов. 2002. - 64 с.

8.     Marsaglia G. Ratios of Normal Variables and Ratios of Sums of Uniform Variables // Journal of the American Statistical Association. 1965. – V.60. – P.193–204.

9.     Marsaglia G. Ratios of Normal Variables // Journal of Statistical Software. 2006. – V.16. Issue 4. URL http://www.jstatsoft.org/v11/i04/.

10. Лемешко Б.Ю. Асимптотически оптимальное группирование наблю­де­ний в критериях согласия // Заводская лаборатория. 1998. – Т. 64. – №1. – С. 56-64.

11. Лемешко Б.Ю., Постовалов С.Н. Компьютерные технологии ана­лиза данных и исследования статистических закономерностей. – Новоси­бирск: Изд-во НГТУ, 2004. – 119 с.