Данные экспериментов при изучении свойств различных физических объектов часто содержат выпадающие наблюдения, грубые ошибки (выбросы), которые могут привести к существенным искажениям при статистической обработке таких данных. По этой причине разрабатываются статистические процедуры, которые « защищены » от наличия выбросов в наблюдениях. В данной работе рассматриваются два типа робастных оценок масштабного параметра, который характеризует «разброс» (вариабельность) изучаемой случайной величины. Предложенные оценки асимтотически нормально распределены, имеют ограниченные функции влияния и, следовательно, в отличие от оценки стандартного отклонения, « защищены » от наличия выбросов в выборке. Приводятся результаты сравнения оценок масштабного параметра по эффективности в условиях различных моделей наблюдений, в частности в условиях гауссовской модели с масштабным засорением.
Robust properties of the median of absolute differences and family inter-a-quantile scatters.pdf Введение При обработке результатов измерений , полученных в эксперименте путем наблюдений за признаком изучаемого физического объекта, традиционно вычисляются по статистическим данным выборочные оценки математического ожидания и дисперсии (или стандартного отклонения ), что вполне оправдано для гауссовской модели наблюдений. Однако выборочные оценки этих числовых характеристик изучаемой случайной величины (с.в.) подвержены «сильному» влиянию грубых ошибок (выбросов), которые обычно присутствуют в реальных данных эксперимента [1-4]. По этой причине в статистике разработаны робастные процедуры [5-15], которые, с одной стороны, оказываются нечувствительными к наличию умеренного засорения данных грубыми ошибками, а с другой стороны, ведут себя «достаточно хорошо» при идеальных условиях нормальности или какого-либо другого предположения о типе распределения данных. Удобным и очень полезным инструментом для построения робастных процедур является функция влияния Хампеля [5, 13]. С помощью этой функции определяются различные числовые характеристики робастности процедур и изучается их качество при различных отклонениях от принятой модели наблюдений в условиях реальных экспериментов (см., например, [8, 11, 12]). В настоящее время разработано большое количество робастных оценок параметра положения в качестве альтернативы выборочной оценке математического ожидания, которые имеют ограниченные функции влияния и «защищены» от наличия выбросов в выборке. Многие из этих оценок принадлежат к общим классам M-, L-, R- и MD-оценок, которые хорошо изучены и описаны в литературе [7-19]. Эти классы оценок имеют тесные связи [8, 9, 20-24]. Часто оценку можно отнести к нескольким классам. Например, оценка Ходжеса - Лемана традиционно рассматривалась в литературе как -оценка, построенная с использованием ранговых критериев [15, 25, 26]. Однако введение класса обобщенных -оценок [6, 7, 27-29] позволяет отнести её и к этому классу обобщенных -оценок (см., например, [30, 31]). Наличие связей между классами оценок позволяет, указав оценку с оптимальными свойствами в одном классе, выделять в другом классе свою оценку с такими же оптимальными свойствами. В частности, наличие теоремы Джекеля [12, c. 124] позволяет построить в классах L- и R-оценок минимаксно-робастные оценки в рамках модели с засорением с такими же асимптотическими свойствами как у M-оценки Хьюбера [14]. Менее изученными являются робастные оценки масштабного параметра, который используется в качестве числовой меры, характеризующей степень разброса случайной величины. Эти меры определяются в виде функционалов , , заданных на множестве допустимых распределений в условиях эксперимента, связанного с изучением с.в. по статистическим данным . Требования, предъявляемые к таким функционалам, сформулированы в работах [1-4]. В данной работе использованы общие результаты GL-оценок и U-статистик на урезанных выборках [27, 28]. Рассмотрены два типа робастных оценок масштабного параметра: медиана абсолютных разностей и семейство интер- -квантильных размахов. Приведены результаты сравнения оценок по эффективности в условиях различных моделей наблюдений, в частности в условиях гауссовской модели с масштабным засорением. Общие понятия и обозначения Пусть изучаемая случайная величина (с.в.) характеризуется функцией распределения (ф.р.) , которая абсолютно непрерывна и симметрична, т.е. , где множество симметричных распределений определяется в виде и обозначает точку симметрии. Везде ниже обратную (квантильную) функцию для ф.р. будем обозначать через , . Масштабный параметр функции распределения используется в качестве меры, характеризующей степень разброса случайной величины с ф.р. . Определим «разброс» с.в. относительно точки (масштабный параметр) в терминах расстояния от , т.е. с помощью величины . Будем говорить, что с.в. имеет больший разброс относительно , чем с.в. относительно , если стохастически больше . Следуя работам [1-4], различные меры масштабного параметра определяют с помощью функционалов от ф.р. , которые допускают монотонность относительно стохастического возрастания распределений и удовлетворяют условиям эквивариантности, т.е. функционал , , называют мерой «разброса» с.в. , (или масштабным параметром ф.р. ), если он удовлетворяет следующим условиям: для всех и , для , (1) где и - функции распределения вероятностей случайных величин и . Отметим, что стохастическая упорядоченность распределений обозначается в виде , причём , и , (см. [19]). Выборочная оценка функционала , , построенная методом подстановки [26], записывается в виде , где - эмпирическая функция распределения, построенная по выборке , которая характеризуется как последовательность независимых и одинаково распределённых (н.о.р.) случайных величин. Везде ниже порядковые статистики исходной выборки будем обозначать в виде . Замечание 1. Отметим, что множество различных функционалов, характеризующих масштабный параметр, условно можно разделить на следующие три группы [32]. 1. К первой группе относятся функционалы, построенные с помощью отклонений каждого члена генеральной совокупности от некоторого «центрального» (типичного значения) ф.р. . Обычно в качестве такого значения используется параметр положения либо в виде среднего , либо в виде медианы . К этой группе относятся стандартное отклонение и среднее абсолютных отклонений , а также широко используемая в теории робастных оценок медиана абсолютных отклонений от медианы . 2. Ко второй группе относятся функционалы, построенные с помощью отклонений между всеми членами генеральной совокупности. К этой группе относится оценка средних абсолютных разностей Джини [33] и оценка медианы абсолютных разностей , которая определена в (19). 3. К третьей группе относятся функционалы, построенные с помощью расстояний между точками, в которых ф.р. имеет характерные особенности. К таким точкам могут относиться, например, квантили заданных уровней. К этой группе функционалов относится семейство интер- -квантильных размахов. Функционалы этого семейства определены в (26). Замечание 2. Отметим, что общая схема построения различных функционалов, описывающих масштабный параметр, сводится, по существу, к следующему. Над исходной случайной величиной осуществляется некоторое преобразование вида , , , и т.п. Затем к преобразованным случайным величинам применяется либо операция усреднения, либо операция вычисления медианы, либо операция вычисления оценки Ходжеса - Лемана и т.п. Другими словами, функционал, описывающий масштабный параметр, определяется с помощью функционала, характеризующего параметр положения для преобразованных случайных величин. Отметим также, что традиционно используемые на практике выборочные оценки масштабного параметра, такие, как оценка стандартного отклонения и оценка среднего абсолютных отклонений , относятся к первой группе. Эти оценки имеют неограниченные функции влияния, и они очень чувствительны к наличию выбросов в выборке (см., например, [8-12]). Урезанные варианты этих оценок и , , вычисляются не по исходной выборке , а на основе упорядоченной статистики [9, 11, 34]. Эти оценки имеют ограниченные функции влияния, следовательно, они защищены от наличия выбросов в выборке, но их характеристики существенно зависят от параметра , , что на практике приводит к дополнительным усилиям по выбору этого параметра, например с помощью адаптивного подхода [12, 22, 24, 31, 35]. Ниже рассматриваются робастные оценки масштабного параметра, которые относятся ко второй и третьей группам. Изучаются асимптотические распределения выборочных оценок медианы абсолютных разностей и семейства интер- -квантильных размахов. Приводятся как асимптотические, так и при конечных объёмах выборки результаты сравнения оценок по эффективности в условиях различных моделей наблюдений. Асимптотические свойства урезанных GL-оценок и U-статистик Рассмотрим класс статистик, предложенный в [7], который включает U-статистики (см. раздел 7.4 в [11]) и обычные -оценки в виде линейных комбинаций порядковых статистик (см. раздел 8.2 в [11]). Отметим, что многие конкретные оценки, относящиеся к общим классам M-, L- или R-оценок, могут быть объединены в одном классе обобщенных L-оценок (GL-оценок) и проанализированы с единых позиций при использовании теории U-статистик Хёфдинга и дифференциального подхода Мизеса [12]. Для цели построения робастных оценок масштабного параметра обсудим сначала свойства класса обобщённых L-оценок, вычисляемых по урезанным выборкам. В литературе их называют -оценками (см., например [27, 30]). В этот класс оценок входят обычные L-оценки [8, 11] и обобщенные L-оценки [12, 19, 36]. В частности, в этот класс входят оценка Ходжеса - Лемана [8, 9, 12] и её -урезанный вариант [11, 31], а также обобщенные оценки Ходжеса - Лемана [31, 37], медиана абсолютных разностей [38, 39] и многие другие. Асимптотическая нормальность этих оценок доказывается методом Мизеса [12] с использованием теоремы Слуцкого, центральной предельной теоремы, понятий дифференциала Гато и функции влияния Хампеля (см., например, [6, 7, 13]). Урезанный вариант U-статистик Хёфдинга обсуждается в работах [18, 21, 28]. В класс -оценок также входят урезанное среднее [9, 12], средняя разность Джини и её урезанный вариант [33]. Для удобства дальнейших ссылок приведём общие результаты, которые получены в указанных работах и которые понадобятся ниже. Пусть - последовательность н.о.р. случайных величин с ф.р. F и плотностью ; - порядковые статистики исходной выборки ; обозначает урезанную упорядоченную статистику, и - заданные пропорции урезания выборки, причем . Пусть задано «ядро» , которое является симметричной функцией своих аргументов. Множество -наборов индексов , удовлетворяющих условию , обозначим через , т.е. . (2) Определим функцию распределения значений в виде , (3) где - индикатор события ; и - обратная функция для ф.р. F. Обозначим и . Для данного ядра обозначим через эмпирическую функцию распределения значений и определим ее как . (4) Отметим, что для каждого фиксированного значения аргумента эмпирическая функция распределения может рассматриваться как урезанная U-статистика с ядром для функции распределения [28]. Рассмотрим класс оценок, которые будем кратко называть -оценками, в виде . (5) Здесь - заданные константы; ; обозначает квантильную функцию для эмпирической функции распределения . Отметим, что оценки вида (5) являются обобщенными оценками в виде линейных комбинаций порядковых статистик, основанными на урезанных выборках. Эти оценки записаны в виде функционала от эмпирической функции распределения , т.е. , где функционал определен на множестве функций распределений и записывается так: . (6) Класс оценок вида (5) является достаточно широким. В частности, при оценки (5) записываются в виде , (7) где символ « » обозначает выборочный квантиль уровня , . В этот класс оценок также входят обобщенные оценки Ходжеса - Лемана, предложенные в [21] (см. также [19, 36, 37]), которые соответствуют выбору ядра в виде , , и при определяются следующим образом: . (8) Здесь символ « » обозначает выборочную медиану. Отметим, что для ядра при виде и при оценки (7) записываются следующим образом: . (9) Итак, представляет интерес изучение асимптотических распределений достаточно общего класса оценок вида (5). Изучение асимптотических распределений этих -статистик основано на использовании разложения вида , (10) где - остаточный член разложения; - дифференциал Гато первого порядка функционала в точке по направлению эмпирической функции [6, 7, 27, 28]. Обсудим подробнее оценки вида (7), которые являются оценками функционала , , определяющего квантиль уровня , для ф.р. вида (3). Следуя работам [12, 27], воспользуемся «эквивалентным» представлением функционала с помощью функционала от исходной ф.р. , который задан неявно выражением . (11) Замечание 3. Отметим, что «эквивалентное» представление функционала с помощью функционала , т.е. выполнение равенства , позволяет конкретизировать дифференциал Гато и функцию влияния оценок вида (7) [12]. Далее, использование разложения (10) и найденное выражение для функции влияния (детали см. в [9, 30]) позволяют заключить, что случайные величины имеют асимтотически стандартное нормальное распределение [30], где асимптотическая дисперсия -оценок вычисляется по формуле . (12) Отметим, что использование метода подстановки [26] для оценивания эквивалентного функционала , т.е. замена ф.р. в (11) на эмпирическую функцию распределения , построенную по выборке , приводит к -оценкам Мизеса [6, 12], которые асимптотически эквивалентны оценкам вида (7). Асимптотическая нормальность выборочной медианы абсолютных разностей Применим приведённые результаты для построения оценок масштабного параметра. Для этого обсудим подробнее оценку (9) при выполнении условия . Пусть - н.о.р. случайные величины, порождённые ф.р. с плотностью , . Обозначим функцию распределения с.в. через и определим её как , . (13) Плотность ф.р. равна . (14) Эмпирическая функция распределения значений , , записывается в виде . (15) Определим функционал в виде медианы функции распределения с.в. , т.е. в виде , (16) где - квантильная функция для ф.р. . Выборочная оценка функционала , называемая выборочной медианой абсолютных разностей, входит в класс обобщенных -оценок [12, 27] и определяется как (17) где , , - упорядоченные значения «абсолютных разностей Джини» , , число которых равно . Отметим, что при выполнении неравенства оценка является асимптотически нормальной (см. [9], а также теорему (8.4.26) в [11]). Замечание 4. Используя упорядоченные «абсолютные разности Джини» и отмеченный факт асимптотической нормальности оценки , можно построить асимпто- тический свободный от распределения (непараметрический) -доверительный интер- вал для медианы ф.р. (т.е. для функционала ) в виде , где при заданной доверительной вероятности номер определяется как и ; здесь - квантиль уровня стандартного нормального распределения (детали см. в [26, с. 298]). Замечание 5. Заметим, что функционал ), определяющий оценку вида (17), может быть представлен эквивалентным функционалом , который определяется через исходную ф.р. и задаётся, согласно (13), неявно с помощью выражений , или . (18) Отметим также, что использование метода подстановки [26] для оценивания эквивалентного функционала , т.е. замена ф.р. в (18) на эмпирическую функцию распределения , построенную по выборке , приводит к -оценке Мизеса [6, 12], которая асимптотически эквивалентна оценке и определяется в виде . (19) Эта оценка была предложена в [39], см. также [9, 38]. Можно убедиться (детали см. в [11]), что дифференциал Гато первого порядка функционала , заданного выражением (18), вычисляется по формуле . (20) Отсюда следует, что функция влияния оценки функционала , заданного выражением (18), определяется в виде , . (21) Замечание 6. Заметим, что функционал для симметричных распределений определяется неявно выражением , (22) т.е. соответствует квантилю уровня для ф.р. случайной величины . Далее можно убедиться (детали см. в [11, 12]), что оценка функционала асимптотически нормальная, т.е. справедливо выражение при , (23) причем асимптотическая дисперсия -оценки вычисляется по формуле . (24) Замечание 7. Отметим, что функция влияния (21) для оценки - медианы абсолютных разностей вида (19) является ограниченной функцией, следовательно, эта оценка является B-робастной [15] и она подвержена меньшему влиянию выбросов в выборке по сравнению с традиционно применяемой на практике оценкой стандартного отклонения, оценкой среднего абсолютных отклонений и оценкой средних абсолютных разностей Джини , для которых их функции влияния неограниченны [11]. Заметим, что для наглядности поведения функций влияния различных оценок масштабного параметра при нормальном распределении они приведены на рис. 1 в работе [18]. Замечание 8. Для сравнения различных оценок масштабного параметра при заданной ф.р. будем использовать понятие асимптотической относительной эффективности, определенное через обратное отношение стандартизованных асимптотических дисперсий. Асимптотическую эффективность оценки относительно при заданной ф.р. обозначим через и, следуя работам [3, 4], определим в виде , (25) где - стандартизованная дисперсия -оценки, равная отношению асимптотической дисперсии оценки к квадрату оцениваемого функционала, т.е. . Пример 1. Приведем результаты сравнения оценки функционала с оценкой стандартного отклонения и оценкой среднего абсолютных отклонений в условиях супермодели с засорением вида , где , , и - стандартная нормальная функция распределения. Учитывая, что , выражение (22), определяющее функционал , перепишем так: . Далее с помощью формулы (24) выражение для асимптотической стандартизованной дисперсии запишем в виде . Здесь , , . Численные расчеты относительных эффективностей медианы абсолютных разностей по отношению к оценке стандартного отклонения и относительных эффективностей для при различных и приведены в табл. 1. Таблица 1 Относительные эффективности и для 0.864 0.986 1.507 1.048 2.383 1.172 2.211 1.163 1.816 1.075 1.459 0.967 0.864 0.986 5.471 1.335 6.733 1.988 4.395 1.958 2.751 1.616 1.735 1.230 Из данных табл. 1 видно, что оценка медианы абсолютных разностей, проигрывая по эффективности оценке стандартного отклонения при нормальном распределении менее 14 %, а оценке среднего абсолютных отклонений лишь 2 %, обладает существенным преимуществом при отклонении от нормального распределения в рамках супермодели . В частности, при изменении пропорции засорения в интервале приведенные эффективности больше единицы. Отмеченное преимущество возрастает при «утяжелении хвостов распределений» (при увеличении пропорции засорения и масштабного параметра нормального распределения). Напомним также, что оценка , в отличие от оценок и , имеет ограниченную функцию влияния (см. рис. 1 в [18]). Отметим также, что сравнение характеристик средней разности Джини и ее модифицированного варианта с оценками и для моделей с засорением, т.е. для случая, когда , и для модели Тьюки, т.е. где , приведено в [33]. Семейство интер- -квантильных размахов Представителями третьей группы функционалов, определяющих масштабный параметр, являются интер- -квантильные размахи, которые определяются (см. [9]) в виде , . (26) Оценки функционалов в виде вычисляются по формуле , , (27) где - -я порядковая статистика выборки , порождённой функцией распределения с плотностью , и -заданный параметр. Замечание 9. Напомним (см. предыдущее замечание 8), что для выбранного функционала , , описывающего масштабный параметр с.в. с ф.р. , его выборочная оценка строится методом подстановки [26, 40] и записывается в виде , где - эмпирическая функция распределения, построенная по выборке . Асимптотическая нормальность таких оценок масштабного параметра изучается методом Мизеса с использованием теоремы Слуцкого [6, 7] на основе разложения , (28) где - функция влияния Хампеля [5, 13] оценки функционала , , которая определяется в виде , , , (29) для тех , при которых предел существует. Здесь обозначает вырожденную функцию распределения в точке . Асимптотическая дисперсия -оценки обозначается через и вычисляется по формуле . (30) При сравнении различных оценок и масштабного параметра, которые характеризуются различными функционалами, используют понятие асимптотической относительной эффективности , определенное через обратное отношение стандартизованных асимптотических дисперсий в виде (25). Это понятие также будем использовать и для сравнения оценок вида (27) при различных значениях параметра , . Асимптотические свойства рассматриваемого класса оценок описаны в [9, 11]. Эти свойства получены с использованием разложения вида (28) и формулируются следующим образом. Пусть и , . Тогда случайные величины имеют асимптотически стандартное нормальное распределение, т.е. выполняется выражение при , (31) где асимптотическая дисперсия -оценки вычисляется по формуле , . (32) Далее, стандартизованная дисперсия -оценки вычисляется по формуле , . (33) Отметим, что свойства -оценок существенно зависят от параметра , . В частности, функции влияния для -оценок являются ограниченными функциями и определяются, согласно (29), в виде , . (34) Используя данное выражение, формулы (30) и (32), получим формулу (33) для вычисления стандартизованной дисперсии: , . (35) Отметим, что при из формулы (35) следует выражение стандартизованной дисперсии для часто применяемого на практике интерквартильного размаха в виде , . (36) Отметим также, что в симметричном случае выражение (36) совпадает с формулой для стандартизованной дисперсии робастной оценки медианы абсолютных отклонений от медианы, которая определяется как (см. [11, с. 422]). Пример 2. Рассмотрим супермодель в виде конечного набора стандартных симметричных распределений: - стандартное нормальное распределение, - логистическое распределение, - распределение Лапласа, - распределение Коши. В условиях этой супермодели стандартизованные дисперсии оценок , , вычисляются, согласно (35), по формулам , , , . (37) Численные значения стандартизованных дисперсий и асимптотической относительной эффективности -оценок по отношению к интерквартильному размаху для супермодели приведены в табл. 2. Таблица 2 Стандартизованная дисперсия и для Ф.р. Станд. дисп. 1.34 1.01 0.78 1.75 0.80 1.73 0.90 1.52 1.08 1.26 1.36 1.00 1.80 0.76 4.18 0.33 1.34 1.10 1.15 1.28 1.02 1.44 1.07 1.37 1.22 1.21 1.47 1.00 1.90 0.78 4.22 0.35 2.37 0.46 1.70 1.22 1.54 1.35 1.61 1.29 1.79 1.17 2.08 1.00 2.55 0.82 5.02 0.41 49.1 0.05 9.06 0.27 4.71 0.53 3.13 0.79 2.62 0.94 2.47 1.00 2.62 0.94 4.57 0.54 Отметим, что стандартизованные дисперсии -оценок существенно зависят от параметра . Например, для распределения Коши интерквартильный размах имеет минимальное значение стандартизованной дисперсии среди -оценок. Для распределений с «более легкими хвостами» параметр следует выбирать меньше, чем 0.25. Для нормального распределения -оценки существенно проигрывают стандартному отклонению. В частности, и . Однако для распределений с «тяжелыми хвостами» -оценки могут быть гораздо эффективнее оценки стандартного отклонения, так как -оценки, в отличие от оценки стандартного отклонения, обладают ограниченной функцией влияния и, следовательно, защищены от наличия выбросов в выборке. Пример 3. Приведем результаты сравнения семейства -оценок, , с помощью критерия, основанного на понятии дефекта оценки (см. раздел 2.6 в [40]), в котором вместо асимп¬тотической дисперсии оценок будем использовать стандартизованные дисперсии оценок. Рассмотрим супермодель , для которой априорные вероятности для равны , . В семействе оценок , , выделим набор из оценок с дискретными значениями параметра . Определим дефект оценки , , среди сравниваемых оценок при заданном распределении в виде , . (38) Дефект оценки , , среди сравниваемых оценок в рамках рассматриваемой супермодели определим с помощью евклидовой метрики, вычисляемой по формуле , . (39) В табл. 3 приведены дефекты -оценок, , для супермодели , вычисленные по формулам (38 ) и (39) при , . Таблица 3 Дефекты -оценок, , для супермодели 0.58 0.24 0.13 0.18 0.29 0.42 Из данных табл. 3 видно, что, согласно используемому критерию (39), в рамках супермодели предпочтение среди -оценок, , следует отдать -оценке, для которой значение её дефекта является минимальным. Пример 4. Приведённые данные табл. 2 и 3 показывают, что асимптотические стандартизованные дисперсии -оценок существенно зависят от параметра при изменении распределений в условиях супермодели . Поэтому при практическом использовании -оценок возникает необходимость адаптации параметра к меняющимся распределениям в условиях заданной супермодели. Следуя работам [11, 35], адаптивный параметр определим в виде для ; для ; (40) для ; для ; для , где , , , и - оценка функционала , характеризующего степень «затянутости хвостов» распределений, вычисляемая с помощью упорядоченной статистики исходной выборки по формуле , , , (41) Следуя работе [35], полагаем и . Отметим, что при (см. [11]). Для выбора параметра в виде (40) сравним адаптивную -оценку с интерквартильным размахом в рамках супермодели . Результаты сравнения приведены в табл. 4 в виде отношения стандартизованной дисперсии оценки к минимальной стандартизованной дисперсии среди сравниваемых оценок и , . Таблица 4 Отношения стандартизованной дисперсии к минимальной для заданной ф.р. Ф.р. 1.75 1.00 1.44 1.00 1.35 1.00 1.00 1.00 Итак, в рамках супермодели адаптивная -оценка предпочтительнее интерквартильного размаха . Вычисления показывают, что аналогичный вывод справедлив и для супермодели с засорением [11]. Отметим, что приведённые результаты носят асимптотический характер. Далее приведены результаты сравнения различных оценок масштабного параметра при конечных объемах выборки. Результаты сравнения оценок при конечных объемах выборки Приведем результаты сравнения оценок масштабного параметра при конечных объемах выборки, полученные методом статистических испытаний. В эксперимент были включены оценка стандартного отклонения , оценка среднего абсолютных отклонений , оценка средних абсолютных разностей Джини [33] и оценка медианы абсолютных разностей . В эксперименте вычислялись выборочные значения средних и дисперсий оценок и значения их стандартизованных дисперсий при различных объемах выборки в условиях различных статистических моделей исходного распределения наблюдений. В качестве первой модели было взято гауссовское распределение с масштабным засорением, т.е. . Получение псевдовыборки для этой модели осуществлялось следующим образом. Датчиком случайных чисел генерировалась выборка объема , оставшиеся элементов выборки генерировались датчиком , при этом число задавалось в соответствии с пропорцией засорения . В качестве второй модели была взята модель Тьюки (см. (П.2.103) в [35]). В рамках этой модели исходная псевдовыборка формируется с помощью формулы , , где и параметры выбираются таким образом, чтобы обеспечить аппроксимацию квантильной функции , , заданного распределения , . Таблица 5 Стандартизованные дисперсии оценок при и для супермодели Ф.р. 0.500 0.508 0.984 0.571 0.586 0.974 0.511 0.520 0.982 0.579 0.630 0.919 1.168 1.169 0.742 0.805 0.797 0.888 0.719 0.814 2.295 1.795 1.113 1.171 1.254 1.289 0.723 0.851 3.859 2.331 2.279 1.947 2.202 1.839 0.722 0.851 В экспериментах объем выборки менялся от 5 до 40, число экспериментов изменялось от 1000 до 10000. В табл. 5 представлены значения стандартизованных дисперсий оценок при и для супермодели при различных значениях и . Результаты эксперимента для модели Тьюки приведены в [11]. Отметим, что первая строка таблицы ( ) содержит значения асимптотических стандартизованных дисперсий оценок. В строке приведены отношения асимптотических значений к значениям, полученным экспериментально при . Из данных табл. 5 видно (см. строку ), что асимптотика является вполне приемлемой аппроксимацией для объема выборки . Медиана абсолютных разностей обладает преимуществом перед другими оценками при масштабном засорении. Её стандартизованная дисперсия меняется лишь незначительно, в отличие от других оценок, при увеличении параметра . Это объясняется ограниченной функцией влияния оценки [38]. Для распределений, «близких по затянутости хвостов» к нормальному распределению, преимуществом обладает среднее абсолютных отклонений , которое при нормальном распределении проигрывает в асимптотической эффективности оценке стандартного отклонения 12 % [11, 14]. Заключение В работе исследованы два типа оценок масштабного параметра, который характеризует степень разброса (вариабельности) случайной величины. Изучены свойства оценок масштабного параметра в виде медианы абсолютных разностей и семейства интер- -квантильных размахов. Предложенные оценки асимптотически нормальны и обладают ограниченными функциями влияния и, следовательно, в отличие от традиционно применяемой на практике оценки стандартного отклонения, «защищены» от наличия выбросов в выборке. Оценка масштабного параметра в виде медианы абсолютных разностей обладает рядом преимуществ перед известными оценками. Эти преимущества проявляются как в асимптотике, так и при конечных объемах выборки, её асимптотическая стандартизованная дисперсия проявляет большую стабильность по сравнению с другими оценками при отклонении исходного распределения от гауссовского в условиях нормальной модели с масштабным засорением. В рамках этой модели она эффективнее оценки стандартного отклонения и оценки среднего абсолютных отклонений при изменении пропорции засорения в интервале . Отмечено, что свойства оценок интер- -квантильных размахов существенно меняются при изменении параметра , . Предложены адаптивные оценки, для которых параметр выбирается на основе информации, содержащейся в исходной выборке. Отмечены преимущества адаптивной оценки перед оценкой интерквартильного размаха.
Bickel P.J. and Lehmann E.L. // Proc. Prague Symp. Asymptotic Statist. 1973. - Prague Charles Univ., 1974. - V. 1. - P. 25-36.
Bickel P.J. and Lehmann E.L. // Ann. Statist. - 1975. - V. 3. - P. 1038-1044, 1045-1069.
Bickel P.J. and Lehmann E.L. // Ann. Statist. - 1976. - V. 4. - No. 6. - P. 1139-1158.
Bickel P.J. and Lehmann E.L. // Contributions to Statistics. Hajek Memorial Volume / ed. by J. Jureckova. - Prague: Academia, 1979. - P. 33-40.
Hampel F.R. // J. Am. Statist. Assoc. - 1974. - V. 69. - No. 346. - P. 383-393.
Serfling R.J. Approximation Theorems of Mathematical Statistics. - N.-Y.: Wiley, 1980. - 371 p.
Serfling R.J. // Ann. Statist. - 1984. - V. 12. - P. 76-86.
Shulenin V.P. Robust Methods of Mathematical Statistics. - Tomsk: Scientific Technology Publishing House, 2020. - 260 p.
Шуленин В.П. Введение в робастную статистику. - Томск: Изд-во Том. ун-та, 1993. - 227 с.
Шуленин В.П. Математическая статистика. Ч. 2. Непараметрическая статистика: учебник. - Томск: Изд-во НТЛ, 2012. - 388 с.
Шуленин В.П. Математическая статистика. Ч. 3. Робастная статистика: учебник. - Томск: Изд-во НТЛ, 2012. - 520 с.
Шуленин В.П. Робастные методы математической статистики. - Томск: Изд-во НТЛ, 2016. - 260 с.
Хампель Ф., Рончетти Э., Рауссей П., Штаэль В. Робастность в статистике. Подход на основе функций влияния. - М.: Мир, 1989. - 512 с.
Хьюбер П. Робастность в статистке. - М.: Мир, 1984. - 304 с.
Хеттсманспергер Т. Статистические выводы, основанные на рангах. - М.: Финансы и статистика, 1987. - 334 с.
Серых А.П., Шуленин В.П. // Изв. вузов. Физика. - 1993. - T. 36. - № 10. - С. 128-136.
Шуленин В.П. // Изв. вузов. Физика. - 1995. - T. 38. - № 9. - С. 84-89.
Шуленин В.П. // Изв. вузов. Физика. - 2016. - Т. 59. - № 6. - С. 62-69.
Шуленин В.П. // Изв. вузов. Физика. - 2020. - Т. 63. - № 4. - С. 40-54.
Tarasenko F.P. and Shulenin V.P. // 12th PRAGUE Conf. Inf. Theory, Stat. Decision Functions, Random Processes. - Prague, 1994. - P. 220-223.
Shulenin V.P. // 6th Prague Symposium on Asymptotic Statistics. Prague. 23-28 August 1998. PRAGUE STOCHATICS’98: Abstracts. - 1998. - P. 84.
Shulenin V.P. // Reliability: Theory and Applications. Gnedenko-Forum. - San Diego, 2013. - V. 8. - No. 2. - P. 24-38.
Шуленин В.П. // Теория вероятностей её применение. - 1992. - Т. 37. - Вып. 4. - С. 816-818.
Шуленин В.П. // Материалы Междунар. науч. конф., посвящённой 80-летию профессора, доктора физико-математических наук Геннадия Алексеевича Медведева. Минск, 23-26 февраля 2015 г. - Минск: РИВШ, 2015. - С. 372-377.
Tarasenko F.P. and Shulenin V.P. // Applied Methods of Statistical Analysis. Nonparametric Approach. - AMSA’2015. Novosibirsk, Russia, 14-19 September 2015: Proceedings of the International Workshop. - Novosibirsk: NSTU Publisher 2015. - P. 12-17.
Шуленин В.П. Дополнительные главы математической статистики (курс лекций). - Томск: Изд-во НТЛ, 2018. - 516 с.
Janssen P., Serfling R., and Veraverbeke M. // Ann. Statist. - 1984. - V. 12. - No. 4. - P. 1369- 1379.
Janssen P., Serfling R., and Veraverbeke M. // J. Statist. Planning and Inference. - 1987. - V. 16. - P. 63-74.
Rousseeuw P.J. and Croux C. // J. Am. Statist. Assoc. - 1993. - V. 88. - No. 424. - P. 1273-1283.
Шуленин В.П. // Вестник Томского государственного университета. Приложение. - Август 2004. - № 9(11). С. 184-190.
Шуленин В.П. // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. - 2010. - № 2(11). - С. 96-112.
Кендэлл М., Стьюарт А. Теория распределений. - М.: Наука, 1966. - 587 с.
Шуленин В.П. // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. - 2016. - № 4(37). - С. 73-82.
Шуленин В.П. Устойчивые меры масштабного параметра, их оценивание и сравнение. Математическая статистика и её приложения. - Томск: Изд-во Том. ун-та, 1981. - С. 199-215.
Hogg R.V. // J. Am. Statist. Assoc. - 1974. - V. 69. - P. 909-923.
Шуленин В.П. // Непараметрические и робастные статистические методы в кибернетике и информатике. - Томск: Изд-во Том. ун-та, 1990. - С. 564-570.
Тарасенко Ф.П., Шуленин В.П. // VI Междунар. симп. по теории информации АН СССР, АН УзССР: тез. докл. Ч. I. - Москва; Ташкент, 1984. - С. 171-173.
Шуленин В.П. // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. - 2016. - № 2(35). - С. 62-69.
Шуленин В.П. // V Совещание-семинар по непараметрическим и робастным методам статистики в кибернетике. СО АН СССР. - Томск: Том. гос. ун-т, 1987. - Ч. II. - С. 460-467.
Шуленин В.П. Математическая статистика. Ч. 1. Параметрическая статистика: учебник. - Томск: Изд-во НТЛ, 2012. - 540 с.