1_3

Выбор числа интервалов при использовании критериев типа c²

При применении критериев согласия типа c² неоднозначность при построении и вычислении статистик связана с выбором числа интервалов и тем, каким образом область определения случайной величины разбивается на интервалы. Такой произвол отражается на статистических свойствах применяемых критериев, в частности, на их мощности при различении близких конкурирующих гипотез.

Рекомендуемое в различных источниках количество интервалов группирования, используемое при вычислении оценок параметров, построении гистограмм, вычислении статистик типа отношения правдоподобия или c² Пирсона колеблется в очень широких пределах. Большинство рекомендуемых формул для оценки числа интервалов k носит эмпирический характер и обычно дает завышенные величины. Естественно, что определение количества интервалов связывают с объемом выборки. Основополагающим является желание, чтобы вид гистограммы был как можно ближе к плавной кривой плотности распределения генеральной совокупности. В различных источниках можно найти целый ряд рекомендаций по выбору числа интервалов k.

При выборе интервалов равной длины определяющим является требование, чтобы количество наблюдений, попавших в интервалы, было не слишком малым и сравнимым. При этом наиболее часто рекомендуется, чтобы количество наблюдений, попавших в интервал, было не менее 10. Отмечается, что на практике допустимо, чтобы количество наблюдений в крайних интервалах было менее 5. В работах Манна и Вальда, в которых изучалась мощность критерия c² Пирсона, говорится, что в случае унимодального распределения допускается уменьшение ожидаемых частот попадания наблюдений для одного или двух интервалов до 1 и даже ниже.

Во многих источниках для определения “оптимального” числа интервалов можно найти упоминание эвристической формулы Старджесса: k=3,31*lgn+1; формулы Брукса и Каррузера: k=5*lgn; рекомендуемое соотношение k=n^1/2. Для равновероятных интервалов их количество рекомендуется выбирать порядка k» 4*2^1/5(n/t)^0,4, где t - квантиль стандартного нормального распределения для заданного уровня значимости. Приводятся модификации данной формулы. Предлагается значение k=4*lgn, соотношение k=5*lgn-5, рекомендуется соотношение k=4*(lgn-1)/А , где А - значение контрэксцесса (А =1/(m ₄/s ⁴)^1/2.

При больших объемах выборок n разброс значений k, задаваемых различными формулами, достаточно велик. Поэтому на практике при выборе числа интервалов больше руководствуются разумными соображениями, выбирая число интервалов так, чтобы в интервалы попадало число наблюдений не менее 5-10. Так, например, в рекомендациях ВНИИМетрологии в зависимости от n предлагаются следующие величины k:

n	k
40–100	7–9
100–500	8–12
500–1000	10–16
1000–10000	12–22

Н.Н. Ченцовым показано, что величина уклонения гистограммы от плотности распределения в лучшем случае имеет порядок 1/n^1/3 и он достигается при числе интервалов k порядка n^1/3.

Выбор числа интервалов и способ разбиения на интервалы следует осуществлять с позиций обеспечения максимальной мощности применяемого критерия.

Из анализа функций мощности для различных альтернатив при проверке простых и сложных гипотез следует, что с увеличением числа интервалов мощность критериев типа c² падает. Максимальная мощность критериев при заданном объеме выборки n чаще всего достигается или при минимально возможном числе интервалов k, или при некотором оптимальном его значении.

Мощность критериев c² Пирсона и отношения правдоподобия можно максимизировать за счет оптимального выбора двух факторов. Во-первых, за счет выбора асимптотически оптимального группирования в качестве способа разбиения области определения случайной величины. Во-вторых, за счет подбора оптимального числа интервалов k при заданном объеме выборки n.

При асимптотически оптимальном группировании относительно скалярного параметра при 10-11 интервалах в группированной выборке сохраняется около 98% информации, при оптимальном группировании относительно вектора параметров (два параметра) для 15 интервалов - около 95%. Дальнейшее увеличение количества интервалов существенного значения не имеет.

Выбор конкретного числа интервалов при асимптотически оптимальном группировании должен осуществляться из следующих соображений. При оптимальном группировании вероятности попадания в интервалы в общем случае не равны. Обычно минимальны вероятности попадания в крайние интервалы. Поэтому k желательно выбирать из условия nP_i(q)і 5ё10 для любого интервала при оптимальном группировании. По крайней мере, минимальная ожидаемая частота должна быть больше 1. В случае использования равновероятного группирования порядок k должен быть примерно таким же, как и при асимптотически оптимальном группировании.

Оптимальное значение k не превышает числа интервалов, для которых рассчитаны таблицы асимптотически оптимального группирования. Поэтому рекомендуемое значение k следует выбирать, опираясь на предыдущий абзац. Оптимальное значение k чаще всего оказывается существенно меньше значений, рекомендуемых различными регламентирующими документами и задаваемых множеством эмпирических формул.

Выбирайте значение k на 1ё3 интервала больше минимально возможного при заданном числе оцениваемых параметров.

Оптимальное число интервалов k зависит от объема выборки n, от конкретной пары конкурирующих гипотез H₀ и H₁, от способа группирования. Рассматривая пару альтернатив, всегда можно, основываясь на функции мощности критерия, выбрать оптимальное число интервалов и подобрать оптимальное разбиение на интервалы. В результате будет получен критерий максимальной мощности, наилучшим образом различающий данные конкурирующие гипотезы. Если Вас интересует максимальная мощность различения пары альтернатив H₀ и H₁, смотрите, как это можно сделать в работах: (1) Лемешко Б.Ю., Чимитова Е.В. Максимизация мощности критериев типа c² // Доклады Сибирского отделения Академии наук высшей школы. 2001. № 2. (2) Лемешко Б.Ю., Постовалов С.Н., Чимитова Е.В. О распределениях статистики и мощности критерия типа c² Никулина // Заводская лаборатория. Диагностика материалов. 2001. Т. 67. - № 5.

В случае проверки простых гипотез при оптимальном выборе числа интервалов и асимптотически оптимальном группировании, минимизирующем потери в информации Фишера, критерии типа c² мощнее непараметрических критериев типа Колмогорова и типа w² и W² Мизеса. А при проверке сложных гипотез в тех же условиях они лишь не многим уступают последним.

[Назад] [Содержание] [Вперед]

Выбор числа интервалов при использовании критериев типа c2

Выбор числа интервалов при использовании критериев типа c²