ПОСТРОЕНИЕ ОПТИМАЛЬНЫХ L-ОЦЕНОК ПАРАМЕТРОВ СДВИГА И МАСШТАБА РАСПРЕДЕЛЕНИЙ ПО ВЫБОРОЧНЫМ КВАНТИЛЯМ[1]
Новосибирский государственный технический университет
Исследуются свойства L-оценок параметров сдвига и масштаба в виде линейных комбинаций выборочных квантилей. Предлагается использовать для построения таких оценок выборочные квантили, соответствующие асимптотически оптимальному группированию, при котором минимизируются потери в информации Фишера. Построены таблицы коэффициентов L-оценок параметров для ряда законов распределений, позволяющие просто вычислять оптимальные L-оценки. Методами статистического моделирования показано, что предельными распределениями статистики критерия согласия Пирсона в случае использования L-оценок являются -распределения.
Введение. L-оценки параметров распределений, формируемые как линейные комбинации порядковых статистик или выборочных квантилей, обладают двумя важными для широкого практического применения качествами: чрезвычайной простотой вычислений и очень хорошими свойствами робастности.
В данной работе мы остановимся на оценках параметров сдвига и масштаба, вычисление которых базируется на значениях выборочных квантилей [1]. Самой сложной операцией при вычислении таких оценок является сортировка имеющейся выборки по возрастанию с целью определения выборочных квантилей наблюдаемого закона. Интуитивно ясно, что, так как L-оценки получаются в виде линейной комбинации выборочных квантилей, то отдельные аномальные наблюдения (очень большие или очень малые), возможно присутствующие в выборке, ни коим образом не влияют на значения оценок параметров закона распределения. Такие оценки являются робастными, как и оценки максимального правдоподобия по группированным наблюдениям [2, 3]. Робастность этих оценок подтверждает вид функций влияния Хампеля [4], которые для L-оценок представляют собой ступенчатые, ограниченные по абсолютной величине зависимости [5, 6].
В данном случае основное внимание будет уделено тому, какие квантили закона распределения при заданном их числе следует использовать, чтобы асимптотические свойства рассматриваемых L-оценок были наилучшими? Насколько отличаются свойства оценок при ограниченных объемах выборок от асимптотических? Как отражается использование рассматриваемых оценок на распределении статистики критерия согласия Пирсона при проверке сложной гипотезы?
Построение L-оценок параметров сдвига и масштаба. Опираясь на асимптотическое распределение выборочных квантилей ( квантилей при интервалах) [7], Дз. Огавой в работах [8, 1] получено асимптотическое распределение выборочных квантилей для функции плотности, зависящей только от параметров расположения и рассеяния . Им же (см. стр. 54-60, [1]) методом наименьших квадратов построены “оптимальные линейные несмещенные оценки” параметров сдвига и масштаба, в основе которых лежат значения выборочных квантилей.
Пусть и неизвестные параметры сдвига и масштаба закона с функцией распределения и функцией плотности .
При известном параметре оценка параметра имеет вид [1]
, (1)
где
, (2)
, (3)
, (4)
, , , . Здесь – оценка по наблюдаемой выборке квантили закона такой, что , где – соответствующая квантиль стандартного распределения с нулевым параметром сдвига и единичным масштабным. Через – обозначено количество информации Фишера о соответствующем параметре по группированным данным. В общем случае информационная матрица Фишера о векторе параметров распределения по группированным наблюдениям определяется выражением
,
где - вероятность попадания наблюдения в интервал. В случае , это будет матрица
.
При известном параметре оценка параметра определяется выражением [1]
, (5)
где
, (6)
, (7)
При симметричных функциях плотности и симметричных квантилях второе слагаемое в формулах (1) и (5) равно нулю.
Если неизвестны оба параметра, то оценки параметров сдвига и масштаба представлены соотношениями [1]:
, (8)
, (9)
где .
Соотношения (1), (5), (8) и (9) можно преобразовать в совсем простую зависимость [9]. Формулу (1) для оценивания при известном можно привести к виду
, (10)
где
,
,
;
.
А формулу (5) для оценивания при известном представить в виде
, (11)
где
,
,
;
.
Аналогично формулы (8) и (9) можно преобразовать к виду
, (12)
, (13)
где
,
.
Выбор квантилей стандартного распределения и вычисление , , , . Все рассмотренные выше оценки параметров асимптотически эффективны [1] и их асимптотические дисперсии определяются количеством информации Фишера по группированным данным, а в случае векторного параметра – соответствующей информационной матрицей
. (14)
Коэффициенты , , , зависят от граничных точек (квантилей стандартного распределения). Очевидно, что, так как рассматриваемые оценки асимптотически эффективны, то использование квантилей (граничных точек интервалов), соответствующих асимптотически оптимальному группированию, при котором минимизируются потери в информации Фишера, связанные с группированием [10, 11], обеспечит оптимальные свойства этих оценок [9]: минимум асимптотической дисперсии, а в случае оценивания сразу двух параметров – минимум обобщенной асимптотической дисперсии. Несложно вычислить значения , , , при асимптотически оптимальном группировании и сформировать таблицы соответствующих коэффициентов. И если в случае больших выборок мы будем выбирать таким образом, чтобы , где - соответствует вероятности попадания в интервал при асимптотически оптимальном группировании, используя, соответственно, формулы (10), (11), (12) и (13) с полученными коэффициентами, то будем получать оптимальные оценки.
Отметим, что в частных случаях решение такой задачи рассматривалось в ряде работ. В [1, 12] рассматривались оценки параметров для нормального распределения, в [1] - для однопараметрического экспоненциального распределения, в [13] - для двухпараметрического экспоненциального распределения, в [14] – для параметров логистического распределения, в [15] - для параметров распределения Коши, в [16] - для параметров распределения экстремальных значений. Приближенный подход к решению такой задачи рассматривался в [17]. Причем в случае одновременного оценивания параметров и оптимальные наборы граничных точек определялись исходя из минимума величины , , а не минимума .
Опираясь на построенную нами совокупность таблиц асимптотически оптимального группирования [11,18], значения коэффициентов , , , для параметров законов распределений, упоминаемых в данной статье, получены в [9] (64 таблицы) и вместе с таблицами асимптотически оптимального группирования (58 таблиц) доступны читателям журнала на WEB-сайте [19].
Таблицы коэффициентов для формул вида (10), (11), (12) и (13) сформированы для нормального распределения, для логистического распределения с функцией плотности
,
для распределения Коши с плотностью
,
для распределения наименьшего экстремального значения с плотностью
,
для распределения наибольшего экстремального значения с плотностью
.
При этом в зависимости от того, известен ли один из параметров или неизвестны оба параметра, наборам коэффициентов , и паре , соответствуют свои таблицы асимптотически оптимального группирования. В частности, для нормального распределения асимптотически оптимальные граничные точки для случая одновременного оценивания двух параметров представлены в табл. 1, а соответствующие вероятности – в табл. 2. Полученные значения коэффициентов , приведены в табл. 3 - 4.
Для распределений экспоненциального с плотностью
,
модуля нормального вектора () с плотностью
,
частными случаями которого являются распределения полунормальное - , Рэлея - и Максвелла - , таблицы коэффициентов , , опираются на таблицы асимптотически оптимального группирования только относительно масштабного параметра . Это связано с тем, что область определения этих случайных величин зависит от параметра сдвига и, следовательно, в этом случае теряет смысл максимизация соотношения (3) для построения асимптотически оптимальных граничных точек относительно этого параметра.
Симметричность коэффициентов в формулах (10), (11), (12) и (13) для симметричных распределений определяется симметричностью оптимальных граничных точек интервалов. Для параметров масштаба при известном параметре сдвига и четном задача асимптотически оптимального группирования обычно имеет два решения с несимметричными значениями квантилей. В таких случаях пара этих решений зеркальна относительно центра симметрии распределения. Поэтому не единственным будет оптимальный набор коэффициентов в формулах (11). Таким образом, не оправдывается предположение о симметричности оптимальных порядковых статистик для параметра нормального распределения, высказанное в [20].
Значения , фигурирующие в формулах (10), (11), (12) и (13), следует выбирать из условия
,
где - члены вариационного ряда , построенного по исходной выборке, , - означает целую часть числа, а - выбираются из соответствующей строки таблицы оптимальных вероятностей. Например, в качестве могут быть взяты средние значения между соответствующими соседними членами вариационного ряда.
Пример. Для нормального распределения при соотношение (10) принимает вид (см. [19])
,
соотношение (11) (см. [19]) –
,
соотношения (12) и (13) (см. табл. 3-4) –
,
.
Если мы оцениваем оба параметра, для определения вероятности выбираются из табл. 2. И при объеме выборки в 1000 наблюдений в качестве , , можно взять средние значения между следующими парами членов вариационного ряда: , , , , , , , .
Точность оценивания квантилей и L–оценок. Оптимальные L-оценки параметров сдвига и масштаба являются асимптотически эффективными. На практике же мы имеем дело с выборками ограниченного объема. Понятно, что и точность оценивания квантилей , и точность вычисления L-оценок зависят от объема выборки . В качестве основного возражения против использования L-оценок обычно выдвигают возможную значительную неточность в определении выборочных квантилей , которая должна отражаться на точности L-оценок. Методами статистического моделирования мы исследовали законы распределения выборочных квантилей и получаемых L-оценок в зависимости от конкретных объемов выборок и числа используемых квантилей для различных законов распределений. На рис. 1 для случая оценивания масштабного параметра экспоненциального закона при использовании 5 квантилей (число интервалов ) приведены центрированные плотности выборочных квантилей и L-оценок , построенных по этим выборочным квантилям (центрированные относительно истинных значений квантилей и параметра ) при объемах выборок . Экспоненциальный закон моделировался с масштабным параметром . Значения асимптотически оптимальных квантилей , , для данной ситуации соответственно равны [11,18,21]: 0,4993; 1,0997; 1,8538; 2,8714; 4,4650. Значение L-оценки определялось по формуле:
Рис. 1. Центрированные распределения выборочных асимптотически оптимальных квантилей и L-оценок масштабного параметра экспоненциального распределения при объемах выборок
Для построения приведенных на рисунке законов распределения формировались выборки оценок из значений, каждое из которых находилось по выборке объема случайных величин, распределенных по экспоненциальному закону. Для большей точности параметры найденных моделей законов распределения оценок усреднялись по 100 таким экспериментам. Для сравнения на рисунке построена также плотность асимптотического распределения оценки максимального правдоподобия (ОМП) по точечной выборке. Сравнивая плотность асимптотически эффективной ОМП по точечной выборке с плотностью L-оценки, мы видим, что последние мало уступают ОМП. Это естественно, так как в данном случае при асимптотически оптимальном группировании сохраняется 94,76% информации Фишера о параметре масштаба . Следовательно, стандартное отклонение предельного распределения превышает стандартное отклонение распределения не более чем на 2,73%.
Рисунок наглядно демонстрирует, что, несмотря на относительно невысокую точность оценивания квантилей , и , мы имеем достаточно высокую точность оценивания параметра масштаба наблюдаемого экспоненциального закона. При этом очевидно, что эти оценки не многим уступают ОМП по точечным (негруппированным) наблюдениям, имея существенное преимущество в робастности.
Точность L-оценок в зависимости от объема выборок. Характер изменения точности L-оценок с ростом объема выборок при фиксированном числе используемых квантилей показывают рис. 2 и 3. На рисунках приведены, соответственно, плотности оценок и параметров нормального закона, центрированные относительно истинных значений параметров и , для случая в зависимости от , когда при построении L-оценок используются всего две выборочных квантили, соответствующие асимптотически оптимальному группированию, и одновременно оцениваются оба параметра. Выборки нормального закона объема генерировались с параметрами и .
Рис. 2. Плотности распределения L-оценок при в зависимости от
Рис. 3. Плотности распределения L-оценок при в зависимости от
О сравнительной точности оценивания можно судить по значениям среднеквадратичного отклонения закона, описывающего распределение соответствующих оценок при конкретных объемах выборок. Значения среднеквадратичного отклонения характеризуют рассеяние оценок. Например, в табл. 5 для различных объемов выборок представлены значения среднеквадратичных отклонений (СКО) для ОМП по точечным выборкам и и для L-оценок и параметров сдвига и масштаба логистического закона при . Характеристики рассеяния для ОМП по группированным наблюдениям в данном случае совпадают с характеристиками рассеяния L-оценок. В то же время следует отметить, что в общем случае ОМП по группированным наблюдениям все-таки несколько точнее. Исследования при конечных объемах выборок распределений оценок параметров сдвига и масштаба, рассматриваемых в данной работе законов, показали, что всегда и . Однако если это преимущество и оказывается за ОМП по группированным наблюдениям, то оно незначительно.
Таблица 5.
Объем выборки |
ОМП по точечной выборке |
L-оценки |
||
СКО |
СКО |
СКО |
СКО |
|
100 |
0,0947 |
0,0833 |
0,0997 |
0,0927 |
300 |
0,0550 |
0,0482 |
0,0577 |
0,0541 |
500 |
0,0426 |
0,0373 |
0,0446 |
0,0420 |
1000 |
0,0301 |
0,0264 |
0,0315 |
0,0297 |
2000 |
0,0214 |
0,0187 |
0,0224 |
0,210 |
Точность L-оценок в зависимости от числа используемых квантилей. Характер изменения точности L-оценок с ростом числа используемых квантилей при фиксированном объеме выборки показывают рис. 4 и 5. На этих рисунках приведены центрированные относительно истинных значений параметров и плотности оценок и параметров нормального закона при объеме выборки и различном числе используемых выборочных квантилей, для случая одновременного оценивания двух параметров. Выборки нормального закона, как и в предыдущем случае, генерировались с параметрами и . Для сравнения на рисунках представлены центрированные распределения ОМП и , полученные также в результате моделирования. Сохраняемое различие в законах распределения ОМП и L-оценок при связано с величиной относительной асимптотической информации о параметрах закона . Эта величина определяет часть информации, сохраняющейся при группировании выборки (при переходе к выборочным квантилям), и составляющую в данном случае величину 0,8753.
Рис. 4. Плотности распределения L-оценок при в зависимости от
Рис. 5. Плотности распределения L-оценок при в зависимости от
Распределения статистики Пирсона при использовании L-оценок. При анализе наблюдений случайных величин оценивание параметров модели наблюдаемого закона всегда оказывается лишь первым этапом. Следующим этапом является проверка адекватности построенной модели наблюдаемым данным. Проверка адекватности найденной теоретической модели закона распределения наблюдаемому эмпирическому распределению осуществляется с использованием критериев согласия. Если мы проверяем согласие по той же выборке, по которой оценивали и параметры, то имеем дело с проверкой сложной гипотезы. В этом случае предельное распределение статистики любого критерия согласия (касается ли это критериев типа или непараметрических критериев типа Колмогорова и типа Мизеса) зависит от применяемого метода оценивания параметров. И для того, чтобы воспользоваться каким-либо критерием согласия, вычислив L-оценки, необходимо знать (предельное) распределение статистики этого критерия, соответствующее данной проверяемой сложной гипотезе.
В частности, при справедливости сложной проверяемой гипотезы предельным распределением статистики критерия согласия Пирсона , где - объем выборки, - количество наблюдений, попавших в -й интервал, - вероятность попадания наблюдения в интервал, - вектор параметров закона с плотностью , относительно которого проверяется гипотеза, - граничные точки интервалов, является -распределение в том случае, если компонентов вектора параметров закона оцениваются по этой же выборке в результате минимизации этой же статистики. Статистика подчиняется -распределению и в том случае, если используются ОМП по группированным наблюдениям (см. стр. 563-567 в [21], стр. 460-470 в [22], [23]). Последнее подтверждают и наши исследования методами статистического моделирования, которые показали хорошее согласие получаемых эмпирических распределений статистики с -распределениями при проверке сложных гипотез с использованием ОМП по группированным наблюдениям (при конечных объемах выборок).
Начиная исследование распределений статистики при проверке сложных гипотез с использованием L-оценок, мы надеялись на справедливость наших предположений о том, что и в данном случае предельными распределениями статистики являются -распределения. Действительно, статистическое моделирование распределений статистики с использованием L-оценок (для различных наблюдаемых законов; при различном числе используемых квантилей, которое соответствует числу интервалов группирования при вычислении статистики; при различном числе оцениваемых параметров) и последующий анализ показали очень хорошее согласие получаемых эмпирических распределений статистики с соответствующими -распределениями.
Например, на рис. 6 представлены эмпирическая функция распределения статистики при проверке согласия с экспоненциальным законом распределения в случае использования L-оценок масштабного параметра этого закона при объеме выборок и числе интервалов и функция -распределения (). Эмпирическая функция распределения построена по выборке из смоделированных значений статистики . А на рис. 7 приведена аналогичная картина, соответствующая проверке согласия с нормальным законом распределения при использовании L-оценок параметров сдвига и масштаба. И также при объеме выборок и числе интервалов . В этом случае число степеней свободы предельного -распределения . Как видим, на приводимых рисунках эмпирические функции распределений статистики визуально практически совпадают с теоретическими -распределениями. Проверка гипотез о согласии с -распределениями по критериям, реализованным в [24] ( Пирсона, отношения правдоподобия, Колмогорова, и Мизеса), подтвердила очень хорошее согласие.
Рис. 6. Распределение статистики с использованием L-оценок параметра экспоненциального распределения, ,
Рис.7. Распределение статистики с использованием L-оценок параметров
сдвига и масштаба нормального распределения, ,
-распределения являются частным случаем гамма-распределения с плотностью , в котором параметр формы и параметр масштаба . Наилучшей моделью для эмпирических распределений статистики , получаемых в результате моделирования, оказались гамма-распределения. При повторении испытаний, указанных в предыдущем абзаце, была получена серия из 10 эмпирических распределений, каждое из которых было сглажено гамма-распределением, параметры которого оценивались по выборке значений статистик. Средние значения параметров гамма-распределения по серии из 10 экспериментов, соответствующих проверке согласия с экспоненциальным законом, составили: =1,02405; =1,966607 (вместо положенных для -распределения значений параметров, соответственно, 1 и 2). А для рассмотренной выше ситуации проверки согласия с нормальным законом получены параметры гамма-распределения – =1,51723; =2,003205 (вместо 1,5 и 2). Очевидно, что усреднение по большему числу реализаций приведет нас к соответствующим -распределениям.
Заключение
L-оценки асимптотически эквивалентны ОМП по группированным наблюдениям, и асимптотические дисперсионные матрицы этих оценок определяются соотношением (14). Но при конечных разница между свойствами этих оценок все же заметна. Дисперсионные матрицы оценок практически совпадают при , а при меньших объемах выборок преимущество, хотя и незначительное, за ОМП по группированным данным.
Преимущество L-оценок в другом. Определение ОМП по группированным наблюдениям всегда, а ОМП по точечным выборкам за редким исключением (например, экспоненциальный и нормальный законы) связано с проблемами вычислительного характера, так как требуется реализация итерационного процесса для определения максимума функции правдоподобия или решения системы уравнений правдоподобия. По сравнению с этим, вычисление L-оценок параметров сдвига и масштаба реализуется элементарно. При этом самой трудоемкой операцией является процедура упорядочивания исходных наблюдений. Применение таблиц вероятностей попадания в интервал, соответствующих асимптотически оптимальному группированию, и формул (10-13), опирающихся на вычисленные таблицы коэффициентов, позволяют легко получать оптимальные оценки параметров сдвига и масштаба для больших выборок.
Использование L-оценок не вызывает проблем в применении критериев согласия типа Пирсона и отношения правдоподобия, так как распределениями статистик этих критериев являются -распределения. А применение готовых таблиц вероятностей попадания в интервал, соответствующих асимптотически оптимальному группированию, делает элементарной и процедуру вычисления статистики .
Как и все оценки по группированным данным L-оценки являются робастными. Они устойчивы к наличию аномальных ошибок измерений, к малым отклонениям от исходных предположений о виде наблюдаемого закона распределения.
Все вышесказанное позволяет настоятельно рекомендовать использование L-оценок в приложениях. Полный состав таблиц, которыми можно воспользоваться при вычислении L-оценок и проверке гипотез о согласии, представлен в [19].
1. Сархан А.Е., Гринберг Б.Г. Введение в теорию порядковых статистик. – М.: Статистика, 1970. – 414 с.
2. Лемешко Б.Ю. Группирование наблюдений как способ получения робастных оценок // Надежность и контроль качества. – 1997. – № 5. – С. 26-35.
3. Лемешко Б.Ю. Робастные методы оценивания и отбраковка аномальных измерений // Заводская лаборатория. – 1997. – Т.63. – № 5. – С. 43-49.
4. Hampel F.R. The influence curve and its role in robust estimation // J. Amer. Statist. Ass., 1974. – V. 69. – № 346. – P. 383-393.
5. Хьюбер П. Робастность в статистике. – М.: Мир, 1984. – 303 с.
6. Шуленин В.П. Введение в робастную статистику. – Томск: Изд-во Том. ун-та, 1993. – 227 с.
7.
Mosteller
F. On some useful inefficient statistics. Ann. Math. Statist. 17 (1946). – P. 377-407.
8.
Ogawa
J. Contributions to the theory of systematic statistics. I.
9. Лемешко Б.Ю. Оптимальные оценки параметров сдвига и масштаба по выборочным квантилям для больших выборок / Тр. третьей международной научно-технической конференциии “Актуальные проблемы электронного приборостроения АПЭП-96”. – Т. 6. – Ч.1. – Новосибирск, 1996. – С. 37-44.
10. Куллдорф Г. Введение в теорию оценивания по группированным и частично группированным выборкам. – М.: Наука, 1966. – 176 с.
11. Денисов В.И., Лемешко Б.Ю., Цой Е.Б. Оптимальное группирование, оценка параметров и планирование регрессионных экспериментов. В 2-х ч. / Новосиб. гос. техн. ун-т. – Новосибирск, 1993. – 347 с.
12. Eisenberger J.,
Posner E.C. Systematic statistics used for data compression in space telemetry.
J. Amer. Statist. Ass. 60 (1965). - P. 97-133.
13. Saleh A.K.M.J., Ali
M.M. Asymptotic optimum quantiles for the estimation of the parameters of the
negative exponential distribution. Ann. Math. Statist. 37 (1966). – P. 143-151.
14. Gupta S.S.,
Gnanadesikan M. Estimation of the parameters of the logistic distribution. Biometrika,
53 (1966). – P. 565-570.
15. Bloch D. A note on
the estimation of the location parameter of the Cauchy distribution. J. Amer.
Statist. Ass. 61 (1966). – P. 852-855.
16. Hassanein K.M.
Analysis of extreme-value data by sample quantiles for very large samples. J.
Amer. Statist. Ass. 63 (1968). – P. 877-888.
17. Särndal C.E. Estimation of the parameters of the gamma distribution by sample quantiles. Technometrics. 6 (1964). – P. 405-414.
18. Денисов В.И., Лемешко Б.Ю., Постовалов С.Н. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Методические рекомендации. Часть I. Критерии типа . – Новосибирск: Изд-во НГТУ, 1998. – 126 c.
19. http://www.ami.nstu.ru/~headrd/.
20. Дэйвид Г. Порядковые статистики. – М.: Наука, 1979. – 336 с.
21. Кендалл М., Стьюарт А. Статистические выводы и связи. – М.: Наука, 1973. – 900 с.
22. Крамер Г. Математические методы статистики. – М.: Мир, 1975. – 648 с.
23. Birch M.W. A new proof of the Pearson–Fisher theorem // Ann. Math. Statist. – 1964. V. 35. – P. 817.
24. Лемешко Б.Ю. Статистический анализ одномерных наблюдений случайных величин: Программная система. – Новосибирск: Изд-во НГТУ, 1995. – 125 с.