Свойства робастности модифицированных оценок Ходжеса - Лемана | Известия вузов. Физика. 2020. № 4. DOI: 10.17223/00213411/63/4/40

Свойства робастности модифицированных оценок Ходжеса - Лемана

В реальных данных физических экспериментов неизбежно появляются выпадающие наблюдения (выбросы), которые могут привести к существенным искажениям при статистической обработке данных. Поэтому важно использовать такие статистические процедуры, которые « защищены » от наличия выбросов в наблюдениях. К таким процедурам относится оценка параметра положения, предложенная Ходжесом и Леманом. Рассматриваются адаптивные оценки модифицированных вариантов оценки Ходжеса - Лемана. Исследуются свойства оценок в асимптотике и при конечных объемах выборки в рамках различных супермоделей, описывающих наличие выбросов и отклонения от гауссовской модели в сторону «утяжеления хвостов» распределений. Для построения адаптивных оценок используются выборочные оценки функционалов, описывающих степень «тяжести хвостов» распределений.

Properties of robustness of modified Hodges - Lehman estimates.pdf Введение При решении прикладных задач, связанных с обработкой данных физических экспериментов, важно описать функцию распределения наблюдаемой в эксперименте случайной величины хотя бы в общих чертах посредством немногих простых параметров. Такая дескриптивная статистика связана с введением количеств (мер), характеризующих различные особенности распределений, и с нахождением оценок для них по исходным наблюдениям над изучаемой случайной величиной . Типичными количественными характеристиками являются математическое ожидание и медиана , которые определяют параметр положения случайной величины . Для описания разброса случайной величины (параметра масштаба) обычно используют дисперсию или стандартное отклонение , и интерквартильный размах. Общие требования для описания параметров положения и масштаба в виде функционалов от распределения наблюдений над изучаемой случайной величиной обсуждаются в работе [1, 2]. Для параметра масштаба робастные альтернативы стандартному отклонению, которые в отличие от него «защищены» от наличия выбросов в выборке, рассмотрены в [3]. К настоящему времени известно большое число различных оценок параметра положения (см., например, [4-6]). Большинство из них могут быть отнесены к общим классам оценок, либо к классу , либо , либо [7-12]. Исторически первой и легко воспринимаемой оценкой параметра положения является выборочное среднее , которое является оценкой математического ожидания, построенной методом подстановки [13]. Стремление обосновать целесообразность этой оценки и наделить её некоторыми свойствами оптимальности даже послужило основным аргументом для введения К. Гауссом нормального распределения (см. цитату К. Гаусса, приведённую в работе [14], и см. также работы Тьюки [15, 16]). Автор работ [15, 16] отмечает, что: «предполагаемые достоинства средней арифметической были использованы для введения гауссовского распределения, а предполагаемая «истинность» гауссовского распределения была использована для доказательства оптимальности средней арифметической. Нет сомнений в том, что этот круговорот был очевиден для многих, работавших в этой области…». Далее Тьюки пишет: «к началу тридцатых годов, когда я впервые столкнулся с практическим использованием анализа данных, оно, по крайней мере, в наиболее искушенных руках, достигло стадии, когда получение итогового результата представляло собой исследование данных в том отношении, что явно «хорошие» данные представлялись средними значениями, а явно «плохие» наборы чисел, например, - медианами. Подобное разветвление вовсе не означало, что итоговый результат не может быть фиксированной функцией данных; оно означает только то, что эту фиксированную функцию не так-то просто записать… Прошло почти тридцать лет с тех пор, как я встретил специалиста по анализу данных, достаточно искушенного для того, чтобы избегать пользоваться средним арифметическим в большинстве случаев». Отметим, что выборочное среднее , будучи оценкой максимального правдоподобия для параметра сдвига при нормальном распределении, является асимптотически эффективной оценкой, то есть в классе несмещенных оценок параметра она имеет минимально возможную дисперсию, совпадающую с границей в неравенстве Рао - Крамера. Однако, как было наглядно продемонстрировано в работе [15], выборочное среднее «очень быстро» теряет свойство оптимальности даже при небольших отклонениях от нормального распределения и подвержено сильному влиянию выбросов в выборке (см. также примеры в работах [6, 7]). Другой, столь же известной и широко используемой на практике оценкой параметра , является выборочная медиана [8]. Эта оценка является оценкой максимального правдоподобия параметра сдвига для распределения Лапласа. Она подвержена существенно меньшему влиянию выбросов в выборке, чем выборочное среднее . Интуитивно этот факт легко объясним, и получил свою строгую и наглядную интерпретацию после введения Ф. Хампелем понятия «функция влияния» (см. монографию [5]). Отметим, что функция влияния Хампеля является удобным и очень полезным инструментом для построения робастных процедур. С помощью этой функции определяются различные числовые характеристики робастности статистических процедур и изучается их качество при различных отклонениях от принятой модели наблюдений в условиях реальных экспериментов [5, 7, 8]). Выборочное среднее , являясь оптимальной оценкой параметра сдвига нормального распределения , имеет абсолютную эффективность , однако она теряет свойства оптимальности даже при небольших отклонениях от нормального распределения (см. примеры в работах [6, 7, 15]), её функция влияния неограниченна и её чувствительность к грубым ошибкам равна бесконечности, то есть , а её предел устойчивости, точка срыва (breakdown point) равна нулю, то есть . Альтернативная оценка параметра положения в виде выборочной медианы является -робастной оценкой [5], её функция влияния ограничена, она имеет максимально возможный предел устойчивости , однако её абсолютная эффективность при нормальном распределении очень низкая и равна . В настоящее время известны различные оценки параметра положения, которые имеют ограниченные функции влияния и достаточно высокую абсолютную эффективность при нормальном распределении. Например, оценка Ходжеса - Лемана ( -оценка), предложенная в [1], среди большого числа оценок параметра положения случайной величины принадлежит к группе лидеров по многим характеристикам. Для нормальной модели наблюдений её абсолютная эффективность , то есть она проигрывает оптимальному выборочному среднему менее 5 % в эффективности. Оценка Ходжеса - Лемана является -робастной, её функция влияния ограничена и, следовательно, она «защищена» от наличия выбросов в выборке, её чувствительность к грубым ошибкам конечна и равна , а её предел устойчивости (breakdown point) достаточно высок и равен (см., например, [8]). Изучение характеристик -оценок в условиях различных супермоделей, описывающих отклонения от нормального распределения в сторону «утяжеления хвостов» распределений, показало, что свойства -оценок могут быть существенно улучшены путем различных модификаций этих оценок [17-20]). Это и послужило основой для построения в данной работе адаптивных оценок модифицированных вариантов оценки Ходжеса - Лемана и изучения их асимптотических свойств, а также их характеристик при конечных объёмах выборки методом статистических испытаний. Отметим ещё раз, что многие из известных оценок параметра положения могут быть отнесены к классу либо , либо , либо . Эти классы оценок имеют тесные связи, часто оценку можно отнести к нескольким классам. Например, оценка Ходжеса - Лемана традиционно рассматривалась в литературе как -оценка, построенная с использованием ранговых критериев [1, 21]. Однако введение класса обобщенных -оценок [10, 11, 22, 23] позволяет отнести её и к этому классу обобщенных -оценок [8]. Наличие связей между классами оценок [6, 24, 25] позволяет, указав оценку с оптимальными свойствами в одном классе, выделять в другом классе свою оценку с такими же оптимальными свойствами. В частности, наличие теоремы Джекеля (см. работы [26, 27] и [8, с. 124]) позволяет построить в классах - и -оценок минимаксно-робастные оценки в рамках модели с засорением с такими же асимптотическими свойствами, как у -оценки Хьюбера [6, 12, 14). Оценка Ходжеса - Лемана Пусть - последовательность независимых одинаково распределенных (н.о.р.) случайных величин с функцией распределения (ф.р.) . Предполагаем, что ф.р. непрерывна, симметрична, то есть , и имеет плотность , . Отметим, что в симметричном случае параметр сдвига характеризует параметр положения изучаемой случайной величины . Обозначим через , эмпирическую функцию распределения, которая построена по выборке . Рассмотрим вариант, когда параметр определятся функционалом , который задается неявно выражением вида . (1) Отметим, что в симметричном случае функционал является состоятельным по Фишеру, то есть для него выполняется выражение , и . Это является следствием того факта, что свертка симметричных распределений симметрична (детали см. в [8, с.103]). Оценка функционала , называемая в литературе оценкой Ходжеса - Лемана, представляет собой половину медианы свертки эмпирической функции распределения с собой, то есть записывается в виде , (2) где символ « » обозначает выборочную медиану. В другой форме -оценка записывается в виде (3) где , , - упорядоченные значения средних Уолша , . Отметим, что свойства -оценки хорошо изучены как в асимптотике, так и при конечных объемах выборки и подробно описаны в литературе [6-8]. Приведём основные сведения, которые понадобятся ниже. Дифференциал Гато первого порядка функционала , , заданного выражением (1), вычисляется по формуле . (4) Заменив в формуле (4) функцию распределения на вырожденную в точке функцию , получаем выражение для функции влияния оценки Ходжеса - Лемана в виде , , . (5) Отметим, что данная функция ограничена (см. рис. 1 ниже при ). Далее, в [8] доказано, что -оценка асимптотически нормальна и её асимптотическая дисперсия вычисляется по формуле , . (6) Отметим также, что для оценки Ходжеса - Лемана вида (2) асимтотически эквивалентная оценка параметра может быть получена и как решение уравнения для соответствующей -статистики с ядром (детали см. в [8, c. 181]). Модифицированные варианты оценок Ходжеса - Лемана Для описания модифицированных оценок Ходжеса - Лемана обозначим через упорядоченную статистику выборки , и пусть обозначает -уре¬занную выборку, и - заданные пропорции урезания выборки, причем . Обозначим через множество -наборов индексов , удовлетворяющих условию , то есть множество определяется в виде . (7) Модифицированные оценки Ходжеса - Лемана параметра , основанные на -урезанной выборке, были предложены в [28, 29] (см. также работы [17-19, 22, 23, 30]) и названы обобщенными оценками Ходжеса - Лемана. Эти оценки записываются в виде . (8) Асимптотические свойства оценок (8) изучались в работах [22, 23], числовые характеристики робастности в условиях различных супермоделей приводятся в работах [7, 8, 20]. Для описания свойств оценок (8) в данной работе выделим два случая. 1. Пусть обе пропорции урезания выборки равны нулю, то есть . В этом случае обобщенные оценки Ходжеса - Лемана записываются в виде . (9) 2. Пусть и . В этом случае -урезанный вариант оценки Ходжеса - Лемана, предложенный в работах [30, 31], записывается в виде , , . (10) Для описания свойств -оценок вида (9) обозначим через -кратную свертку ф.р. с собой, то есть -( -раз), причем , и . Плотность ф.р. обозначим через , то есть является -кратной сверткой плотности для ф.р. . Отметим, что с учетом введенных обозначений, функционал для , соответствующий оценке (9), задается неявно выражением вида или . (11) В работе [8] показано, что для и -оценки асимптотически нормальны, то есть случайные величины имеют асимптотически стандартное нормальное распределение, где асимптотическая дисперсия -оценки вычисляется по формуле , . (12) Далее, функция влияния Хампеля для -оценок определяется выражением , . (13) Для нормального распределения, то есть при , функция влияния -оценок записывается в виде , где . Для наглядности эти функции влияния -оценок при и различных приведены на рис. 1. Асимптотическая дисперсия -оценки вычисляется по формуле . Чувствительность -оценки к грубым ошибкам равна , и чувствительность -оценки к локальным изменениям наблюдений вычисляется по формуле [8]. Численные значения характеристик -оценок при приведены в табл. 1. Рис. 1. Функции влияния -оценок для Таблица 1 Числовые характеристики робастности -оценок при Характеристики оценок 1 2 3 4 5 10 1.253 1.571 1.772 1.414 1.047 2.171 1.255 1.019 2.507 1.155 1.011 2.802 1.118 1.007 3.693 1.054 1.002 1.000 1.000 Отметим, что при гауссовском распределении чувствительность -оценок к грубым ошибкам возрастает с увеличением и достигает бесконечного значения (это является следствием неограниченной функции влияния при ). Далее чувствительность -оценок к локальным изменениям наблюдений и их асимптотическая дисперсия убывают до своих предельных значений, соответственно равных единице. Отметим также, что глобальная характеристика робастности оценок, называемая пределом устойчивости или точкой срыва (breakdown point), для -оценок вычисляется по формуле (см. работу [32]). В частности, при получаем известный результат для точки срыва оценки Ходжеса - Лемана в виде . Отметим, что в классе обобщенных оценок Ходжеса - Лемана вида (9) существует асимптотически эффективная оценка параметра сдвига в одновыборочной задаче для симметричных распределений, то есть если ф.р. и её плотность является решением дифференциального уравнения , где - постоянная величина, тогда . Здесь - количество информации Фишера относительно параметра сдвига распределения с плотностью (см. работу [8, с. 184]). Заметим, что решением приведенного уравнения при является логистическая плотность . Для этого распределения оценка Ходжеса - Лемана вида (10) при является асимптотически эффективной оценкой параметра сдвига . Свойства и характеристики робастности -оценок Для обсуждения свойств -оценок вида (10) приведем необходимые результаты. Отметим, что в отличие от -оценки вида (2), которая вычисляется по исходной выборке путем определения медианы средних значений Уолша , , -урезанная оценка Ходжеса - Лемана -оценка вида (10) вычисляется на основе упорядоченной статистики , из которой предварительно удалены наименьших и наибольших порядковых статистик. Функционал , выборочной оценкой которого является оценка вида (10), задается неявно выражением , . (14) В работе [6] показано, что для и -оценки асимптотически нормальны, то есть случайные величины имеют асимптотически стандартное нормальное распределение, где функционал определен в (14) и асимптотическая дисперсия -оценки вычисляется по формуле . (15) Функция влияния -оценки ограничена и записывается в виде , . (16) Вычисление асимптотических дисперсий -оценок по формуле (15) для различных супермоделей приводится далее. Описание супермоделей Изучение эффективности многих статистических процедур при изменении распределения вероятности наблюдений в некотором заданном классе (в рамках заданной супермодели) показывает (см., например [6, 7]), что эффективность часто зависит от некоторых общих свойств распределений. В частности, к таким общим свойствам относится «затянутость хвостов» распределений или «тяжесть хвостов» распределений. В работах [6, 21, 33]) описаны различные подходы для упорядочивания распределений в заданном классе по степени тяжести хвостов. При изучении свойств робастности -оценок вида (10) будем использовать три вида супермоделей. 1. Супермодель в виде конечного семейства заданных симметричных распределений, то есть , (17) где - стандартное нормальное распределение, информация Фишера ; - логистическое, ; - Лапласа, ; - Коши, . Следуя работе [33], используем следующее определение. Пусть . Считается, что хвосты ф.р. легче хвостов ф.р. (или имеет хвосты тяжелее чем , и это записывают в виде ), если функция выпуклая для , где - точка симметрии для и . Отметим, что если , то распределения и являются -упорядоченными. Можно убедиться [33], что данная супермодель содержит -упорядоченные распределения, причем выполняется выражение . (18) Следуя работе [34], рассмотрим меру «тяжести хвостов» распределения , в виде функционала , определяемого выражением , . (19) Отметим, что для класса симметричных распределений функционал записывается в виде , , . (20) Например, для нормального распределения функционал равен . Численные значения функционала для значений , и -упорядоченных распределений из супермодели приведены в табл. 2. Таблица 2 Значения функционала для Ф.р. 1.755 1.805 1.916 2.500 Таким образом, в рамках супермодели выполняется выражение: . 2. Супермодель в виде семейства распределений Стьюдента, для которого ф.р. имеет плотность распределения с степенями свободы и записывается в виде , , . Можно убедиться (см. [6]), что функционал для распределений Стьюдента, то есть для , вычисляется по формуле . В частности, для и с учетом, что и , получаем . Численные значения функционала приведены в табл. 3. Таблица 3 Значения функционала для 1 2 3 4 5 7 9 25 2.50 2.00 1.90 1.85 1.83 1.81 1.79 1.77 1.75 Итак, для семейства распределений Стьюдента функционал монотонно зависит от числа степеней свободы , то есть выполняется неравенство , для . 3. Супермодель в виде гауссовской модели с масштабным засорением, которая обычно используется при изучении влияния выбросов в выборке на оценку и определяется в виде , , . (21) Можно убедиться [7], что функционал для распределений вычисляется по формуле , (22) где - стандартная нормальная плотность. В частности, для значений и функционал вида (19) для вычисляется по формуле , (23) где - квантиль уровня функции распределения . Отметим, что для нормального распределения из формул (22) и (23) при получаем , . Численные значения функционала для приведены в [7]. Эффективность -оценок Приведём вычисления асимптотических дисперсий -оценок по формуле (15) для супермоделей, описывающих различные отклонения от нормального распределения. 1. Рассмотрим супермодель . Асимптотические дисперсии -оценок, вычисленные по формуле (15), приведены в табл. 5. (см. ниже). Абсолютные эффективности -оценок, вычисленные для распределений супермодели по формуле , приведены на рис. 2. Из рисунка наглядно видно, что качество -оценок существенно зависит от параметра , который характеризует пропорцию урезания исходной выборки. Для распределений с «тяжелыми хвостами» параметр следует выбирать близким к 0.5. Например, для распределения Коши при достигается максимальная абсолютная эффективность. Для нормального распределения следует выбрать параметр . Эти качественные соображения будут использованы ниже при адаптивном выборе параметра , основываясь на выборочной оценке функционала вида (19), построенной по исходной выборке . Рис. 2. Зависимости от параметра для 2. Рассмотрим супермодель в виде семейства распределений Стьюдента. В работе [7] показано, что для асимптотическая дисперсия -оценок для вычисляется по формуле . (24) В частности, из формулы (24) при получаем формулу для вычисления асимптотической дисперсии -оценки в виде . (25) Далее из (24) при следует формула для вычисления асимптотической дисперсии выборочной медианы . Для -оценки асимптотическая дисперсия для вычисляется по формуле . (26) Отметим, что для выборочного среднего асимптотическая дисперсия -оценки для вычисляется по формуле , . (27) Численные значения асимптотических значений дисперсий оценок, рассчитанные по приведенным формулам (24) - (27) для супермодели при различных степенях свободы , приведены в табл. 4. Таблица 4 Асимптотическая дисперсия и абсолютная эффективность оценок для Ст. св. , , 3.29 (0.61) 2.47 (0.81) (0.00) 1.92 (0.87) 2.00 (0.81) (0.00) 1.58 (0.95) 1.85 (0.80) 3.00 (0.50) 1.34 (0.99) 1.73 (0.77) 1.67 (0.80) 1.25 (1.00) 1.67 (0.75) 1.40 (0.89) 1.20 (1.00) 1.66 (0.72) 1.28 (0.94) 1.047 (0.96) 1.571 (0.64) 1.000 (1.00) В этой таблице в скобках приведена абсолютная эффективность оценок , вычисляемая по формуле , где - информация Фишера. Из данных табл. 4 следует, что оценка Ходжеса - Лемана обеспечивает высокую абсолютную эффективность в рамках всего семейства распределений Стьюдента для числа степеней свободы . Асимптотическая относительная эффективность -оценки вида (10) относительно -оценки Ходжеса - Лемана вида (2), вычисляемая по формуле , для , записывается в виде , (28) где - табулированная функция распределения Стьюдента с степенями свободы; - табулированная квантильная функция. Из формулы (28) получаем при асимптотическую относительную эффективность для нормального распределения, то есть для , имеем . (29) Из формулы (28) получаем при асимптотическую относительную эффективность для распределения Коши, то есть для , имеем . (30) Например, при из (29) и (30) получаем для нормального распределения и для распределения Коши . 3. Рассмотрим супермодель в виде гауссовской модели с масштабным засорением. В работе [35] показано, что асимптотическая дисперсия -оценки для вычисляется по формуле , (31) где ; ; ; - квантиль уров¬ня для ф.р. . Численные расчеты по формуле (31) приведены в табл. 7 (см. далее). Зависимости абсолютной эффективности от параметра при различных значениях параметра и фиксированном значении приведены на рис. 3. Рис. 3. Зависимости от параметра при различных и Отметим, что вычисление асимптотической относительной эффективности -оценки вида (10) относительно -оценки Ходжеса - Лемана вида (2) по формуле для с использованием формулы (15) [7] приводит к следующему выводу: достоинства -оценок возрастают при «утяжелении хвостов» распределений, то есть при увеличении -пропорции засорения грубыми ошибками исходной выборки. Этот факт является проявлением более общего свойства -оценок, рассмотренных в [6]. Адаптивные -оценки Изучение асимптотических свойств -оценок показало (см., например, [7, 20]), что качество этих оценок существенно зависит от выбора пропорции урезания исходной выборки, которая характеризуется параметром , . Например, если мы заинтересованы в уменьшении асимптотической дисперсии, то для распределений «близких по затянутости хвостов» к нормальному величину следует выбирать близкой к нулю, для распределений с «тяжелыми хвостами» (например, Лапласа, Коши) параметр следует выбирать близким к . Таким образом, выбор параметра можно связать с поведением функционала вида (19), который характеризует степень затянутости «хвостов» распределений при их изменении в заданной супермодели. Однако на практике функция распределения наблюдений обычно неизвестна, поэтому естественно использовать вместо функционала его выборочную оценку, построенную по исходной выборке . Выборочная оценка функционала вида (19), построенная по выборке методом подстановки [13], записывается в виде , , , (32) где - порядковые статистики выборки . Отметим, что при . Кроме того, результаты моделирования (см. [7]) показывают, что уже при объемах выборки статистика приемлема для определения типов распределений, различающихся степенью «затянутости хвостов» распределений. Для построения адаптивной оценки Ходжеса - Лемана ( -оценки), определим параметр в виде (33) где параметры , , и задаются в соответствии с рассматриваемым типом супермодели и выборочная оценка функционала определена в (32). Следуя работе [34], далее везде полагаем и . Пример 1. Рассмотрим супермодель , определенную в (17). Примем следующие значения параметров: , , , . В табл. 5 приведены асимשּׁтотические дисперсии (строки ) для -оценок, вычисленные по формуле (15), и выборочные дисперсии (строки ) для -оценок, полученные методом статистических испытаний при числе испытаний и объёме выборки . В строках ( ) табл. 5 приведены отношения выборочных дисперсий -оценок при к асимптотическим дисперсиям. В правом столбце таблицы приведены данные для адаптивной -оценки Ходжеса - Лемана, для которой параметр определен выражением (33) при значении параметров: , , , . Из данных табл. 5 следует, что приведенные выше асимптотические результаты являются вполне приемлемой аппроксимацией дисперсий -оценок при конечных объемах выборки , за исключением некоторых значений при распределениях Лапласа и Коши. Для этих распределений с «тяжелыми хвостами», как показали результаты моделирования, качество асимптотики существенно улучшается при объемах выборки . Чтобы проиллюстрировать преимущество предложенных адаптивных -оценок, применим критерий сравнения оценок, основанный на понятии дефекта оценки (см. работы [4, 6]). Дефект оценки , среди сравниваемых оценок параметра при заданном распределении определяется в виде Таблица 5 Асимптотические и выборочные дисперсии -оценок для - Гаусс 1.04 1.07 1.09 1.15 1.25 1.39 1.43 1.04 1.047 1.060 1.085 1.156 1.256 1.390 1.571 1.047 0.99 1.01 1.00 0.99 1.00 1.00 0.91 0.99 -Логист. 3.06 3.09 3.11 3.24 3.50 3.87 3.96 3.14 3.000 3.002 3.016 3.099 3.273 3.561 4.000 3.000 1.02 1.03 1.03 1.05 1.07 1.09 0.99 1.05 -Лаплас 1.40 1.37 1.33 1.26 1.23 1.23 1.25 1.39 1.333 1.322 1.296 1.224 1.146 1.070 1.000 1.306 1.05 1.04 1.03 1.03 1.07 1.15 1.25 1.06 -Коши 3.93 3.66 3.36 2.81 2.47 2.43 2.45 2.66 3.290 3.208 3.025 2.616 2.345 2.283 2.467 2.467 1.19 1.14 1.11 1.07 1.05 1.06 0.99 1.08 , . (34) Отметим, что если среди сравниваемых оценок есть эффективная оценка параметра при заданном распределении , для которой , тогда и, следовательно, в этом случае дефект оценки равен единица минус ее абсолютная эффективность, то есть , . (35) При изучении свойств робастности сравниваемых оценок параметра сдвига в рамках супермодели , состоящей из конечного набора симметричных распределений , изучают поведение дефективностей оценок на плоскости двух распределений (см. [4]). По оси абсцисс обычно откладывают дефективность для базовой (идеальной модели, обычно гауссовской), а по оси ординат откладывают дефективность для альтернативной модели, входящей в супермодель . При таком наглядном представлении дефективностей оценок на плоскости двух распределений предпочтение отдается той оценке, которая окажется ближе к началу координат. Если же мы хотим сделать вывод о предпочтительности оценки среди сравниваемых оценок параметра в рамках всей рассматриваемой супермодели , то можно использовать евклидову метрику, которая с использованием введенных обозначений запишется в виде , . (36) Предпочтение в рамках всей рассматриваемой супермодели отдается той оценке среди сравниваемых оценок , для которой вычисленное значение евклидовой метрики минимальное, то есть , . (37) В табл. 6 значения евклидовой метрики были вычислены по эмпирическим данным табл. 5 (при ) с использованием формулы (36). Таким образом, в семействе -оценок для супермодели предпочтение следует отдать адаптивной -оценке, для которой . Таблица 6 Значения евклидовой метрики -оценок для супермодели 0.40 0.35 0.29 0.18 0.21 0.33 0.36 0.15 Пример 2. Рассмотрим супермодель . Для определения параметра по формуле (33) примем следующие значения параметров: , , , . В табл. 7 приведены асимптотические дисперсии (строки ) -оценок, вычисленные по формуле (31), и выборочные дисперсии (строки ) -оценок, полученные методом статистических испытаний при числе испытаний и объёме выборки . Таблица 7 Асимптотические и выборочные дисперсии -оценок для при 1.04 1.06 1.10 1.19 1.30 1.42 1.46 1.05 1.047 1.060 1.085 1.156 1.256 1.390 1.571 1.047 0.99 1.00 1.01 1.03 1.04 1.02 0.93 1.00 1.17 1.18 1.20 1.29 1.40 1.55 1.58 1.17 1.171 1.172 1.189 1.252 1.351 1.490 1.681 1.171 1.00 1.01 1.01 1.03 1.04 1.04 0.94 1.00 1.38 1.38 1.40 1.46 1.55 1.67 1.70 1.32 1.311 1.302 1.308 1.360 1.457 1.600 1.803 1.303 1.05 1.06 1.07 1.07 1.06 1.04 0.94 1.01 1.80 1.77 1.75 1.75 1.85 1.94 1.97 1.65 1.651 1.628 1.605 1.622 1.709 1.861 2.091 1.617 1.09 1.09 1.09 1.08 1.08 1.04 0.94 1.02 2.14 2.08 2.00 1.97 2.05 2.21 2.24 1.95 2.090 2.062 2.004 1.966 2.032 2.191 2.454 1.993 1.02 1.01 1.00 1.00 1.01 1.01 0.91 0.98 2.63 2.57 2.49 2.44 2.53 2.79 2.87 2.50 2.655 2.627 2.543 2.425 2.455 2.616 2.921 2.483 0.99 0.98 0.98 1.01 1.03 1.07 0.98 1.01 Для сравнения -оценок с адаптивной -оценкой в рамках супермодели воспользуемся критерием, основанным на евклидовой метрике вида (36), которая была вычислена по эмпирическим данным (при ) табл. 7 с использованием формулы (34). Данные сравнения приведены в табл. 8. Таблица 8 Значения евклидовой метрики -оценок для супермодели 0.15 0.12 0.11 0.19 0.32 0.48 0.52 0.03 Таким образом, согласно критерию (36), в семействе -оценок предпочтение в рамках супермодели следует отдать адаптивной -оценке, для которой параметр определяется выражением (33) и . На рис. 4 приведены зависимости абсолютных эффективностей оценок от параметра засорения при . Из этого рисунка наглядно видно, что адаптивная -оценка обладает преимуществом для перед -оцен¬ками с фиксированной пропорцией урезания исходной выборки . Рис. 4. Абсолютные эффективности -оценок в рамках супермодели , Заключение В семействе модифицированных оценок Ходжеса - Лемана выделены два типа оценок, которые принадлежат классу обобщенных L-оценок параметра положения и классу U-статистик, вычисляемых по урезанной выборке. Предложены адаптивные оценки -урезанного варианта оценки Ходжеса - Лемана. Описаны асимптотические свойства предложенных оценок. Параметр адаптивной -оценки выбирается на основе информации, содержащейся в исходной выборке , путем использования выборочной оценки функционала, характеризующего степень «тяжести хвостов» распределений. Приводятся свойства оценок в асимптотике и при конечных объемах выборки в рамках различных супермоделей, описывающих отклонения от нормальной модели в сторону «утяжеления хвостов» распределений. Показано, что приведенные асимптотические результаты являются вполне приемлемой аппроксимацией дисперсий -оценок при конечных объемах выборки . Предложен критерий сравнения заданного семейства оценок параметра сдвига в рамках супермодели , состоящей из конечного набора симметричных распределений. Этот критерий записан в виде евклидовой метрики с использованием понятия дефекта оценки при заданном распределении.

Ключевые слова

робастные оценки, выбросы, функция влияния, адаптивные оценки, метод статистических испытаний, robust estimates, outliers, influence function, adaptive estimates, method statistical tests

Авторы

ФИООрганизацияДополнительноE-mail
Шуленин Валерий ПетровичНациональный исследовательский Томский государственный университетк.т.н., доцент НИ ТГУshulenin-vp@rambler.ru
Всего: 1

Ссылки

Hodges J.L. annd Lehmann E.L. // Ann. Math. Statist. - 1963. - V. 34. - P. 598-611.
Bickel P.J. and Lehmann E.L. // Proc. Prague Symp. Asymptotic Statist. 1973. V. 1. - Prague Charles Univ., 1974. - P. 25-36.
Шуленин В.П. // Изв. вузов. Физика. - 2016. - Т. 59 - № 6. - C. 62-69.
Andrews D.F., Bickel P.Z., Hampel F.R., et al. Robust Estimation of Location: Survey and Advances. - Princeton, N.J.: Princeton Univ. Press, 1972. - 375 p.
Хампель Ф., Рончетти Э., Рауссей П., Штаэль В. Робастность в статистике. Подход на основе функций влияния. - М.: Мир, 1989. - 512 с.
Шуленин В.П. Введение в робастную статистику. - Томск: Изд-во Том. ун-та, 1993. - 227 с.
Шуленин В.П. Математическая статистика. Ч. 3. Робастная статистика: учебник. - Томск: Изд-во НТЛ, 2012. - 520 с.
Шуленин В.П. Робастные методы математической статистики. - Томск: Изд-во НТЛ, 2016. - 260 с.
Шуленин В.П., Серых А.П. // Изв. вузов. Физика. - 1993. - Т. 36. - № 10. - С. 128-136.
Serfling R.J. // Ann. Statist. - 1984. - V. 12. - P. 76-86.
Serfling R.J. Approximation Theorems of Mathematical Statistics. - N. Y.: Wiley, 1980. - 371 p.
Jureckova J. // Handbook of Statistics. V. 4 / eds. P.R. Krishnaiah and P.K. Sen. - Elsevier Science Publishers, 1984. - P. 463-485.
Шуленин В.П. Дополнительные главы математической статистики (курс лекций). - Томск: Изд-во НТЛ, 2018. - 516 с.
Huber P.J. // Ann. Math. Statist. - 1972. - V. 43. - P. 1041-1067.
Tukey J.W. // Contributions to Prob. and Statist / ed. Ingram Olkin. - Stanford Univ. Press, 1960. - P. 448-485.
Tukey J.W. // Quarterly Appl. Math. - April 1972. - V. XXX. - No. 1. Special Issue: «Symposium on the Future of Applied Mathematics». - P. 51-65 (см. также: Современные проблемы математики: сб. (пер. с англ.). - М.: Знание, серия математика, кибернетика. - 1977. - № 12. - С. 41-64).
Тарасенко Ф.П., Шуленин В.П. // VI Междунар. симп. по теории информации. АН СССР, АН УзССР. Тез. докл. Ч. I. - Москва; Ташкент, 1984. - С. 171-173.
Шуленин В.П. // Труды V Междунар. конф. по теории вероятности и математической статистике. - Вильнюс, 1989. - Т. 4. - С. 377-378.
Шуленин В.П. // Вестник Томского государственного университета. Приложение. - 2004. - № 9(II). - С. 184-190.
Шуленин В.П. // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. - 2010. - № 2(11). - С. 96-112.
Хеттсманспергер Т. Статистические выводы, основанные на рангах. - М.: Финансы и статистика, 1987. - 334 с.
Janssen P., Serfling R., and Veraverbeke M. // Ann. Statist. - 1984. - V. 12. - No. 4. - P. 1369- 1379.
Janssen P., Serfling R., and Veraverbeke M. // J. Statist. Planning and Inference. - 1987. - V. 16. - P. 63-74.
Shulenin V.P. and Tarasenko F.P. // 12-th PRAGUE Conf. Inf. Theory, Stat. Decision Functions. - Prague: Random Processesб,1994. - P. 220-223.
Шуленин В.П. // Теория вероятностей и её применение. - 1992. - Т. 37. - Вып. 4. - С. 816-818.
Jaeckel L.A. // Ann. Math. Statist. - 1971. - V. 42. - No. 5. - P. 1540-1552.
Jaeckel L.A. // Ann. Math. Statist. - 1971. - V. 42. - No. 3. - P. 1020-1034.
Shulenin V.P. // II PRAGUE Conf. on Information Theory. - 1990.
Shulenin V.P. // 6th Prague Symposium on Asymptotic Statistics. Prague, August 23-28, 1998. PRAGUE STOCHATICS’98. - 1998. - P. 84.
Шуленин В.П. // Труды 6-й Всес. конф. по теории кодирования и передачи информации. - Москва; Вильнюс, 1978. - С. 147-151.
Шуленин В.П. О некоторых свойствах устойчивости a-урезанной оценки Ходжеса - Лемана. Стохастические системы управления. - Новосибирск: Наука, 1979. - С. 54-62.
Shulenin V.P. and Deeva T.A. // Proc. the Third Russian-Korean International Symposium on Science and Technology. KORUS’99. June 22-25, 1999. - Novosibirsk, Russia: Novosibirsk State Technical University, 1999. - V. 2. - P. 510-513.
Van Zwet W.R. Convex Transformations of Random Variables. - Amsterdam: Math. Centrum, 1964.
Hogg R.V. // J. Amer. Statist. - 1974. - V. 35. - P. 73-101.
Shulenin V.P. and Deeva T.A. // Computer data analysis and modeling. - Minsk, 1998. - V. 2. - P. 107- 112.
 Свойства робастности модифицированных оценок Ходжеса - Лемана | Известия вузов. Физика. 2020. № 4. DOI: 10.17223/00213411/63/4/40

Свойства робастности модифицированных оценок Ходжеса - Лемана | Известия вузов. Физика. 2020. № 4. DOI: 10.17223/00213411/63/4/40