См. также: Прикладная
математическая статистика (материалы к семинарам)
Надежность и контроль качества. - 1997. - № 5. - С. 26-35.
УДК 519.2
Группирование наблюдений как способ получения робастных оценок
Лемешко Б.Ю.
Показывается, что группирование исходных наблюдений позволяет получать робастные (устойчивые) оценки параметров. Опираясь на вид функции влияния Хэмпеля и результаты экспериментов, утверждается, что оценки максимального правдоподобия по группированным данным, в отличие от оценок по негруппированным данным, являются робастными.
Цель данной работы еще раз обратить внимание прикладных статистиков на вопросы надежности статистических выводов, в частности, на робастность оценок параметров законов распределений, и настоятельно рекомендовать один из подходов к получению робастных оценок.
В статистике под робастностью понимают нечувствительность к малым отклонениям от предположений [1].
Какие же отклонения от предположений влияют на оценки? Допустим, что наблюдаемая выборка действительно принадлежит тому закону распределения, оценки которого мы пытаемся найти. В этом случае отклонения могут быть связаны с наличием аномальных наблюдений, появление которых в выборке определяется самыми различными причинами. Если не учитывать наличие аномальных наблюдений, попытки оценивания параметров распределения могут привести к самым плачевным результатам. Что же делать? Естественно, надо отбраковать аномальные измерения, а затем искать оценки параметров. К сожалению реализовать отбраковку наблюдений в общем случае оказывается совсем не просто. Наблюдения, аномальные с позиций одного закона распределения, являются естественным проявлением закономерностей второго. Если нет надежной процедуры отбраковки или практических соображений, связанных с физикой наблюдаемой величины, пытаются выйти из положения одним из следующих способов. В первом случае усекают выборку, отбрасывая определенную часть минимальных и/или максимальных наблюдений, и по оставшейся части оценивают параметры распределения. Во втором - перед процедурой оценивания винзорируют выборку: всем наблюдениям левее и/или правее определенных значений присваивают одинаковые значения. Обе эти процедуры далеко не всегда приводят к положительным результатам. Кроме того в обоих случаях мы имеем дело с новой генеральной совокупностью, которой принадлежит видоизмененная выборка. Более правильным следует считать третий подход, когда выборку цензурируют. Для наблюдений, попавших левее и/или правее определенных значений, фиксируют лишь факт попадания в соответствующий интервал, опуская конкретные значения этих наблюдений. По такой цензурированной выборке оценивают параметры закона.
Другая ситуация. В выборке нет аномальных наблюдений, но наблюдаемый закон распределения отличается от предполагаемого. Такая ситуация наиболее реальна, так как множество законов распределения вероятностей бесконечно, а количество моделей, используемых на практике для описания наблюдаемых случайных величин, очень ограничено. Чем существенней вид предполагаемой модели отличается от реально наблюдаемого закона, тем сильнее это отражается на оценках параметров.
Очевидно, что в наблюдаемых на практике выборках и закон, пусть мало, но отличается от используемой модели, и обычно налицо аномальные наблюдения. Поэтому применение цензурирования, односторонннего или двустороннего, редко приносит желаемый эффект.
Одним из наиболее популярных и эффективных методов оценивания параметров распределений является метод максимального правдоподобия. Достаточно часто приходится сталкиваться с необоснованными утверждениями, что оценки максимального правдоподобия (ОМП) являются робастными и, именно поэтому, предпочтительно использовать именно их. Автор является горячим сторонником метода максимального правдоподобия, но вместе с тем, основываясь на достаточно большом практическом опыте и некоторых результатах, обязан подчеркнуть, возможно очевидное для многих, что в общем случае ОМП параметров распределений не являются робастными.
Проиллюстрируем сказанное следующими примерами. Это можно было бы сделать с одинаковым эффектом на различных законах распределения, но, учитывая роль нормального распределения в теории и приложениях математической статистики, приведем примеры именно с нормальным законом. Приводя эти примеры, мы не преследуем цель показать какие плохие оценки получаются, а пытаемся убедить, что из этих ситуаций возможен выход, дающий надежные результаты. В первом примере иллюстрируется влияние аномальных ошибок на ОМП параметров нормального распределения, а во втором параметры нормального закона оцениваются по выборке, принадлежащей другому закону распределения. Для чистоты эксперимента выборки моделируются в соответствии с заданными законами.
Пример 1. Выборка по нормальному закону моделировалась с математическим ожиданием и среднеквадратическим отклонением . На рис. 1 приведены результаты статистического анализа смоделированной выборки. Вычисленные значения ОМП и . На этом и последующем аналогичных рисунках приведены значения статистик отношения правдоподобия, Пирсона, Колмогорова, Смирнова, и Мизеса, вычисляемые при проверке гипотез о согласии, и соответствующие вероятности вида , где - вычисленное значение соответствующей статистики, - предельное распределение вероятностей для статистики. Гипотеза о согласии не отвергается, если , где - заданный уровень значимости. Для статистик отношения правдоподобия и Пирсона значения вероятностей приводятся при двух различных степенях свободы. Разность степеней свободы определяется количеством параметров, оцененных по выборке. При вычислении вероятностей вида для непараметрических критериев типа Колмогорова, Смирнова, и Мизеса учитывается факт потери ими свойства “свободы от распределения” [2]. Как видим, согласие с нормальным законом очень хорошее.
Теперь допустим, что в выборку “вкралось” всего 3 аномальных наблюдения (в результате замены трех первых наблюдений: на , на , на ). Результаты анализа с теоретической и эмпиричеcкой функциями распределения приведены на рис. 2. Полученные ОМП параметров нормального распределения и . Особенно существенно наличие аномальных наблюдений повлияло на оценку среднеквадратичного отклонения. По всем критериям согласие с нормальным законом распределения будет отклонено при уровне значимости > 0.0008.
Пример 2. Этот пример связан с использованием нормального закона распределения в ситуации, когда на самом деле выборка принадлежит распределению Лапласа. Это распределение с более “тяжелыми” хвостами, чем у нормального. На рис. 3 приведены эмпирическая и теоретические функция нормального распределения, когда по выборке, смоделированной в соответствии с распределением Лапласа, оценивались параметры нормального закона (). Как видно из значений статистик и соответствующих вероятностей, ни о какой близости эмпирической и теоретической функций распределения говорить не приходится.
Рис.1. Результаты статистического анализа исходной выборки по негруппированным данным
Рис.2. Эмпирическая функция распределения (1) и теоретическая функции нормального распределения (2), полученная по выборке с аномальными наблюдениями
Естественно, что использование получившихся в этих 2-х примерах нормальных законов в качестве моделей наблюдаемых выборок ни к чему хорошему не приведет.
Рис.3. Эмпирическая функция распределения (1) и функция распределения нормального закона (2), найденного по выборке, принадлежащей распределению Лапласа
Что же можно сделать, чтобы снизить влияние аномальных ошибок и отклонений наблюдаемых выборок от предполагаемого закона на оценки вычисляемых параметров? Мы настоятельно рекомендуем использовать перед вычислением оценок параметров процедуру предварительного группирования наблюдений. Группирование выборки позволяет резко снизить влияние аномальных наблюдений, а иногда практически исключить последствия присутствия их в выборке. Резко снижается влияние на оценки параметров и отклонений вида наблюдаемого закона от предполагаемого. Продемонстрируем это на выборках приведенных примеров.
На рис. 4 представлены результаты оценивания параметров нормального распределения и последующего анализа по сгруппированной выборке из примера 1, содержащей 3 аномальных наблюдения (сравните значения статистик и соответствующих вероятностей с представленными на рис. 2). Полученные ОМП параметров нормального распределения по группированным данным и . Визуального различия между эмпирической и теоретической функцией нормального закона в данном случае нет, поэтому соответствующие графики не приводятся.
Рис. 4. Результаты оценивания по сгруппированной выборке и последующего статистического анализа при наличии в выборке аномальных измерений
На рис. 5 представлены результаты оценивания по сгруппированным данным параметров нормального закона по выборке из примера 2, принадлежащей распределению Лапласа (сравните результаты анализа с результатами, представленными на рис. 3). ОМП параметров нормального распределения по группированным данным и . В данном случае в центре области определения случайной величины наблюдается некоторая близость эмпирической функции распределения и функции распределения нормального закона.
В работах [3-5] подчеркивается высокая устойчивость оценок максимального правдоподобия по группированным наблюдениям к наличию в выборке аномальных измерений, к отклонению реально наблюдаемого закона от предполагаемого, к засорению выборки данными, принадлежащими другому закону. Это подтверждается опытом эксплуатации программной системы [3] и многочисленными результатами модельных экспериментов. В работе [6] свойство робастности ОМП исследовано с позиций функции влияния, предложенной Хэмпелом [7]. Анализ функций влияния ОМП параметров для множества законов распределения, включенных в программную систему [3] (26 непрерывных законов распределения случайных величин, наиболее часто используемых в приложениях), позволил утверждать, что ОМП по негруппированным данным, вопреки порой бытующему заблуждению, в большинстве своём являются неробастными. В то же время ОМП по группированным данным всегда робастны.
Рис. 5. Эмпирическая функция, построенная по выборке, принадлежащей распределению Лапласа (1), и теоретическая функция нормального закона (2), найденная по сгруппированной выборке
Влияние ещё одного наблюдения на очень большую выборку может характеризоваться функцией (кривой) влияния, которая определяется следующим образом [1]
,
где - единичная масса в точке , - функция распределения, к которому принадлежит выборка, - вычисляемая статистика. Эта функция позволяет оценить относительное влияние отдельного наблюдения на значение статистики критерия или оценку параметров. Если функция влияния неограничена, то резко выделяющиеся наблюдения могут приводить к существенным изменениям оценок или статистик.
Для асимптотически эффективных оценок, к которым относятся оценки максимального правдоподобия по негруппированным данным, функция влияния удовлетворяет равенству [1]
,
где - количество информации Фишера, - оцениваемый параметр закона распределения.
В работе [6] были исследованы функции влияния для ОМП параметров по негруппированным данным всех 26 законов, включенных в программную систему [3]. И все они (за исключением функций влияния для оценок параметров распределения Коши и параметра сдвига логистического распределения) представляют собой неограниченные функции на области определения соответствующих случайных величин. А вот функции влияния для ОМП по группированным данным всегда представляют собой ограниченные по величине ступенчатые зависимости.
Приводимые на рис. 6-7 в качестве примера функции влияния для оценок параметров распределения Вейбулла построены при конкретных значениях параметров и характеризуют качественную картину их поведения на области определения случайных величин. Вид функций влияния говорит о чувствительности к аномальным ошибкам и засорению выборки ОМП по негруппированным данным, и об устойчивости ОМП по группированным.
Рис.6. Функции влияния для основного (формы) параметра
распределения Вейбулла по негруппированным и
сгруппированным данным (ступенчатая линия)
Подведем итоги вышесказанному. Группирование наблюдений перед оцениванием и последующее оценивание параметров по группированной выборке позволяет получать устойчивые оценки. Когда мы говорим об оценках по группированным данным, то имеем ввиду ОМП, которые определяются в результате максимизации функции правдоподобия вида
,
где - вероятность попадания наблюдения в -й интервал значений, k - число интервалов, но только не оценки по методу моментов с последующим использованием поправок типа Шеппарда.
Рис. 7. Функции влияния для параметра масштаба распределения Вейбулла по негруппированным и сгруппированным данным (ступенчатая линия)
Естественно, мы предлагаем использовать оценки по группированным данным не вместо, а вместе с оценками по негруппированным наблюдениям. Качество тех и других зависит от степени засоренности выборки аномальными наблюдениями или близости к предполагаемому закону распределения.
При группировании наблюдений мы несём потери информации о параметрах закона распределения, в том числе потери в информационном количестве Фишера [8-9], с которым связана асимптотическая дисперсия асимптотически эффективных оценок, в частности ОМП. Асимптотическая дисперсия ОМП по группированным данным определяется соотношением
,
- количество информации Фишера о параметре в одном группированном наблюдении, - объем выборки. Больше потери - больше асимптотическая дисперсия оценки. Подчеркиваем, асимптотическая дисперсия. Реально же, при наличии в выборке неоднократно упоминаемых отклонений, дисперсия оценок по группированным данным оказывается меньше, чем по негруппированным. Т.е. вклад в дисперсию от потерь в асимптотике оказывается несоизмеримо мал по сравнению с вкладом, связанным с наличием отклонений.
Остаётся вопрос, как группировать? Можно различным образом. Не стоит, конечно, рассматривать крайние случаи: сгруппировать можно и так, что в группированной выборке не останется никакой информации о законе и его параметрах. Реально на интервалы разбивают область, определяемую размахом выборки. Это могут быть или интервалы равной длины, или интервалы равной вероятности (равной частоты), или асимптотически оптимальные интервалы [9] (минимизирующие потери от группирования в информационном количестве Фишера о параметрах закона распределения), или интервалы, сформированные по какому-то другому принципу. Обычно наиболее устойчивыми к отклонениям оказываются оценки при разбиении выборки на интервалы равной вероятности. В то же время в случае асимптотически оптимального группирования потери информации о параметрах закона распределения, связанные с группированием, существенно меньше, чем при равновероятном. Если мы знаем, что отклонения от наших предположений в выборке минимальны, то использование таблиц асимптотически оптимального группирования, широко представленных в [9], позволяет резко сократить объемы хранимых данных без существенной потери информации о законе распределения. Но всё-таки в общем случае здесь следует ожидать большей чувствительности оценок к отклонениям от предположений.
С другой стороны достаточно часто мешающая информация, связанная с засорением выборки, оказывает меньшее влияние на оценки, чем потери информации от группирования при асимптотически оптимальном группировании. В некоторых случаях оценки с использованием асимптотически оптимального группирования оказываются так же устойчивыми, как и при равновероятном, и при этом показывают лучшие результаты. Поэтому рекомендуется вычислять две оценки по группированным данным с использованием как оптимального, так и равновероятного группирования, и остановиться на той оценке, которая дает лучшее согласие с исходной выборкой [5].
1. Хьюбер П. Робастность в статистике. - М.: Мир, 1984. - 303 с.
2. Лемешко Б.Ю., Постовалов С.Н. К вопросу о распределениях статистик непараметрических критериев согласия // Сб. научных трудов НГТУ. - 1997. - №1. (в печати).
3. Лемешко Б.Ю. Статистический анализ одномерных наблюдений случайных величин: Программная система. - Новосибирск: Изд-во НГТУ. - 1995. - 125 с.
4. Лемешко Б.Ю., Постовалов С.Н. Статистический анализ одномерных наблюдений по частично группированным данным // Изв. вузов. Физика. - Томск, 1995. - № 9. - С. 39-45.
5. Лемешко Б.Ю., Постовалов С.Н. Вопросы обработки выборок одномерных случайных величин // Научный вестник НГТУ, 1996. - № 2. - C.3-25.
6.
Лемешко Б.Ю., Постовалов С.Н. К вопросу о робастности оценок
по группированным данным // Сб. научных трудов НГТУ. - 1996. - №2. (в печати).
7. Hampel F.R. The influence curve and its role in robust estimation // J. Amer. Statist. Ass., 1974. - V. 69, № 346. - P. 383-393.
8. Куллдорф Г. Введение в теорию оценивания по группированным и частично группированным выборкам. - М.: Наука, 1966. - 176 с.
9. Денисов В.И., Лемешко Б.Ю., Цой Е.Б. Оптимальное группирование, оценка параметров и планирование регрессионных экспериментов: В 2 ч. / Новосиб. гос. техн. ун-т. - Новосибирск, 1993. - 346 с.