Сравнение робастных оценок модифицированных вариантов стандартного отклонения и среднего абсолютных отклонений | Известия вузов. Физика. 2022. № 2. DOI: 10.17223/00213411/65/2/171

Сравнение робастных оценок модифицированных вариантов стандартного отклонения и среднего абсолютных отклонений

Изучаются робастные оценки масштабного параметра, характеризующего «разброс» случайной величины. Предложены оценки, которые асимптотически нормально распределены, имеют ограниченные функции влияния и, следовательно, в отличие от оценки стандартного отклонения, « защищены » от наличия выбросов в выборке. Оценки вычисляются на основе упорядоченной статистики, из которой предварительно удаляется часть наблюдений. Предложен адаптивный вариант оценок, основанный на использовании выборочных оценок функционалов, характеризующих степень «затянутости хвостов» распределений. Приводятся результаты сравнения оценок масштабного параметра в условиях различных моделей наблюдений. В частности, для описания наличия выбросов в выборке используется гауссовская модель с масштабным засорением.

Comparison of robust estimates of modified variants of standard deviation and average absolute deviations.pdf Введение Статистические методы обработки результатов экспериментов завоевывают все большее признание как в исследовательской работе, так и в практической деятельности. Классические методы статистики в большинстве своем обладают повышенной чувствительностью к исходным предпосылкам статистической модели, принятой при обработке данных эксперимента. При решении прикладных задач неизбежно возникают отклонения от исходных предпосылок модели, и применение стандартных методов в этих условиях может оказаться мало эффективным и часто приводит к существенным искажениям статистических выводов. В связи с этим возникает необходимость построения новых, нетрадиционных методов обработки информации, устойчивых (робастных) к возможным отклонениям характеристик реальных данных от предполагаемых в модели [1-4]. В литературе (например, [1-7]) описаны различные робастные оценки параметра положения в качестве альтернативы оценке математического ожидания, которые имеют ограниченные функции влияния Хампеля [8]. Эти оценки «защищены» от наличия выбросов в выборке. Многие из этих оценок принадлежат к общим классам M-, L-, R-, MD-, GL-оценок. Эти классы оценок параметра положения имеют тесные связи, хорошо изучены и описаны в литературе [1-7]. Робастные оценки масштабного параметра, который используется в качестве меры, характеризующей степень разброса случайной величины, изучены менее детально и подробно. Масштабный параметр определяется в виде функционала от функции распределения наблюдений. Общие требования, предъявляемые к таким функционалам, сформулированы в [9]. Для масштабного параметра робастные альтернативы стандартному отклонению, которые, в отличие от него, «защищены» от наличия выбросов в выборке, обсуждаются в работах [5, 10, 11]. Отметим, что традиционно используемые на практике оценки масштабного параметра, такие как оценка стандартного отклонения и оценка среднего абсолютных отклонений, имеют неограниченные функции влияния, и они очень чувствительны к наличию выбросов в выборке (см., например, [5, 11]). В данной работе предложены модифицированные («урезанные») варианты этих оценок, которые вычисляются не по исходной выборке, а на основе упорядоченной статистики, из которой предварительно удаляются , , наименьших и наибольших порядковых статистик. Показано, что предложенные оценки имеют ограниченные функции влияния. Однако их характеристики существенно зависят от параметра , что при обработке данных на практике приводит к дополнительным усилиям по выбору этого параметра. По этой причине в работе предложены адаптивные варианты оценок масштабного параметра, для которых параметр определяется по информации, содержащейся в исходных данных. Приводятся результаты сравнения оценок масштабного параметра (см. также работы [5, 11]) в условиях различных моделей наблюдений, в частности в рамках гауссовской модели с масштабным засорением. Предложенная в работе адаптивная модифицированная оценка стандартного отклонения имеет ограниченную функцию влияния, она «защищена» от наличия выбросов в выборке, имеет высокую эффективность в условиях гауссовской модели и может быть рекомендована к использованию на практике для оценивания масштабного параметра, при умеренных объемах выборки и при возможных отклонениях от гауссовской модели наблюдений, вызванных наличием выбросов в выборке. Общие понятия и обозначения Пусть - изучаемая случайная величина (с.в.) с функцией распределения (ф.р.) , , которая абсолютно непрерывна, имеет плотность , , и симметрична относительно точки , т.е. , где . Везде ниже обратную (квантильную) функцию для ф.р. будем обозначать через , , и порядковые статистики исходной выборки будем обозначать через . Масштабный параметр функции распределения используется в качестве меры, характеризующей степень разброса случайной величины с ф.р. . Рассмотрим такие меры, которые могут быть представлены в виде функционала , , заданного на множестве допустимых распределений в условиях эксперимента, связанного с изучением с.в. по статистическим данным , полученным в серии независимых и повторных наблюдений над с.в. . Общие требования, которым должен удовлетворять функционал , описывающий разброс случайной величины , сформулированы в работе [9]. Различные меры масштабного параметра определяют с помощью функционалов от ф.р. , которые допускают монотонность относительно стохастического возрастания распределений и удовлетворяют условиям эквивариантности относительно линейных преобразований наблюдений, т.е. функционал , , называют мерой «разброса» с.в. , (или масштабным параметром ф.р. ), если он удовлетворяет следующим условиям: для всех и , для . (1) Выборочная оценка функционала , , построенная методом подстановки, записывается в виде , где - эмпирическая функция распределения, построенная по выборке . Замечание. В литературе (например, [1, 11]), при изучении асимптотических свойств оценки заданного функционала , , обычно используют подход Мизеса [1, 2, 12], который основан на анализе разложения вида , (2) где - дифференциал Гато первого порядка функционала в «точке» по направлению эмпирической функции ; - остаточный член разложения Мизеса вида (2). Важным и полезным инструментом при построении робастных процедур является функция влияния Хампеля [2, 8], с помощью которой определены различные числовые характеристики робастности оценок параметров в виде (см., например, [1, 2]). Функция влияния оценки функционала определяется в терминах дифференциала Гато первого порядка функционала в «точке» по направлению вырожденной в точке функции распределения , т.е. в виде , . (3) Отметим также, что для широкого класса функционалов, оценки которых представляют практический интерес в статистике, дифференциал Гато первого порядка функционала в «точке» по направлению эмпирической функции выражается через функцию влияния следующим образом: , (4) где элементы выборки - независимые и одинаково распределенные (н.о.р.) случайные величины. Следовательно, аппроксимационная статистика в разложении (2) записывается в виде (5) и, согласно центральной предельной теореме, имеет асимптотически нормальное распределение. С использованием функции влияния разложение (2) принимает вид . (6) Это выражение с использованием центральной предельной теоремы и теоремы Слуцкого (см., например, [12]) служит основой для доказательства асимптотической нормальности оценки функционала . Подводя итог, для удобства ссылок приведем теорему. Теорема [1]. Пусть - последовательность н.о.р. случайных величин с ф.р. , и пусть оценка функционала допускает разложение вида , (7) для которого выполняется выражение , , и - функция влияния оценки функционала , причем , . (8) Тогда случайная величина имеет асимптотически нормальное распределение, т.е. выполняется выражение при . (9) Замечание. Рассмотрим теперь оценки масштабного параметра, заданного функционалом , который удовлетворяет условиям, сформулированным в [9]. Для выбранного функционала , , описывающего масштабный параметр с.в. с ф.р. , его оценка строится методом подстановки и записывается в виде . Асимптотическая нормальность таких оценок масштабного параметра изучается методом Мизеса [1, 11, 12]. При выполнении условий приведенной теоремы оценки асимптотически нормальны и асимптотическая дисперсия -оценки, обозначаемая через , вычисляется по формуле , (10) где - функция влияния Хампеля оценки функционала , , которая с использованием единичной функции Хевисайда вида и , (11) вычисляется по формуле , . (12) Здесь , , . Замечание. Для сравнения различных оценок масштабного параметра при заданной ф.р. будем использовать, следуя работам [3, 9], понятие асимптотической относительной эффективности, определенное через обратное отношение стандартизованных асимптотических дисперсий. Асимптотическую относительную эффективность оценки относительно при заданной ф.р. обозначим через и определим в виде , (13) где - стандартизованная дисперсия -оценки, равная отношению асимптотической дисперсии к квадрату оцениваемого функционала, т.е. . (14) Модифицированные варианты стандартного отклонения, среднего абсолютных отклонений и их оценки Пусть имеется последовательность н.о.р. случайных величин с непрерывной симметричной ф.р. , , т.е. и везде ниже, с учетом эквивариантности оценок, полагаем без потери общности точку симметрии . Обозначим ф.р. случайной величины через , а ф.р. случайной величины обозначим . Определим модифицированное « -урезанное» стандартное отклонение в виде функционала , . (15) Этот функционал может быть записан с использованием ф.р. в виде , . (16) Определим оценку -урезанного стандартного отклонения как , , (17) где - i-я порядковая статистика для преобразованной выборки , , . При оценка (17) превращается в обычную оценку стандартного отклонения . (18) Оценку -урезанного среднего абсолютных отклонений определим в виде , , (19) где - i-я порядковая статистика для преобразованной выборки , , . Функционал, соответствующий этой оценке, имеет вид , . (20) При оценка (20) превращается в обычную оценку среднего абсолютных отклонений . (21) Асимптотические свойства оценок и их сравнение Асимптотическая нормальность оценок (17) и (19) масштабного параметра изучается методом Мизеса с использованием теоремы Слуцкого, центральной предельной теоремы и теории U-ста¬тистик на основе разложения (6) [1, 4, 12]. Для сравнения рассмотренных оценок с использованием формулы (13) следует, прежде всего, вычислить их функции влияния (12), асимптотические дисперсии (10) и стандартизованные дисперсии, определенные в (14). Для удобства записи введем следующие обозначения: , , , где , . (22) Используя (12), можно убедиться, что функция влияния , , для -оценки вида (17) записывается в виде . (23) Используя приведенную формулу (23) и формулы (14) и (15), получаем с учетом (22) выражение для вычисления стандартизованной дисперсии -оценки в виде . (24) Далее, функция влияния , , для -оценки вида (19) записывается в виде . (25) Используя приведенную формулу (25) и формулы (14) и (15), получаем с учетом (22) выражение для вычисления стандартизованной дисперсии -оценки в виде . (26) Отметим, что при имеем выражения для стандартизованных дисперсий - и -оценок в виде , . (27) Замечание 1. Отметим, что приведенные функции влияния -оценки и -оценки (см. формулы (23) и (25)) являются ограниченными функциями при и, следовательно, эти оценки «защищены» от наличия выбросов в выборке. В литературе [2] такие оценки называют B-робастными. Отметим также, что при изучении - и -оценок мы рассмотрели случай симметричных распределений при условии, что точка симметрии известна. При изучении асимптотических свойств эквивариантных оценок функционала , для которых выполняется равенство , можно без потери общности точку симметрии положить равной нулю. Если точка симметрии неизвестна, то для построения оценок масштабного параметра следует использовать оценки точки симметрии. Отметим, что при достаточно общих условиях асимптотические свойства - и -оценок не зависят от типа используемой оценки точки симметрии (см., например, [9]). Пример 1. Рассмотрим нормальную модель с засорением в виде , где , , , - функция распределения стандартного нормального распределения. Обозначим через квантиль уровня для ф.р. , т.е. . С учетом этих обозначений выражения для , , из (22) для записываются в виде , , , где и обозначают соответственно функцию распределения и плотность стандартного нормального распределения; - квантиль уровня для ф.р. . Используя приведенные формулы, получаем выражения для стандартизованных дисперсий оценок и в виде , (28) . (29) В частности, при получаем , , . Отметим, что для нормального распределения (при или при ) имеем: , , и, следовательно, , . Таким образом, асимптотическая относительная эффективность -оценки по отношению к оценке для нормального распределения равна , т.е. -оценка среднего абсолютных отклонений проигрывает -оценке стандартного отклонения по эффективности при нормальном распределении примерно 12%. С учетом приведенных выражений стандартизованные дисперсии оценок стандартного отклонения и среднего абсолютных отклонений для модели с засорением, т.е. для , вычисляются по формулам (30) Согласно формулам (30), асимптотическая относительная эффективность -оценки, по отношению к для супермодели , вычисляется по формуле , . (31) Из этой формулы также следует при , что . Приведем в табл. 1 вычисленные по формуле (31) численные значения асимптотической относительной эффективности -оценки, , по отношению к для супермодели . Таблица 1 Значения для супермодели 3 5 7 10 20 0.001 0.002 0.005 0.007 0.01 0.02 0.05 0.07 0.10 0.20 0.95 1.02 1.20 1.30 1.44 1.75 2.04 2.02 1.90 1.51 1.53 2.07 3.20 3.67 4.10 4.40 3.39 2.81 2.24 1.41 3.31 4.95 7.29 7.75 7.78 6.41 3.52 2.68 2.00 1.21 9.46 31.1 14.7 13.5 11.6 7.08 3.00 2.20 1.62 1.02 55.0 55.8 22.8 16.0 10.6 4.60 1.75 1.33 1.04 0.76 Отметим, что значения эффективности , соответствующие большим значениям параметра и малым значениям , являются неожиданно высокими. По всей вероятности, это является следствием того факта, что функция влияния оценки имеет квадратическую зависимость и не является ограниченной [5, 9]. Отметим также, что функция влияния оценки среднего абсолютных отклонений имеет линейную зависимость. Она, проигрывая лишь 12% в эффективности стандартному отклонению при нормальном распределении, становится более эффективной, для уже при ! При умеренных значениях параметра и небольших значениях среднее абсолютных отклонений предпочтительнее стандартного отклонения в условиях супермодели . Замечание. Отметим, что Эддингтон (Eddington A. S.) и Фишер (Fisher R. A.) придерживались противоположных точек зрения относительно преимуществ оценок и [3, с. 10]. Отметим также, что и оценивают разные функционалы и . И в условиях, например, нормальной модели наблюдений оценка сходится к , а оценка сходится к . По этой причине при сравнении различных оценок масштаба используется не асимптотическая дисперсия, а стандартизованная дисперсия вида (14) и асимптотическая относительная эффективность определяется в виде (13). Численные значения , для , вычисленные с использованием формул (28) и (29), приведены в табл. 2. Таблица 2 Значения для при различных значениях параметра 0,928 0.988 1.089 0.892 0.911 0.929 0.876 0.882 0.885 0.872 0.875 0.887 1.032 1.513 3.401 0.930 0.994 1.104 0.890 0.906 0.920 0.879 0.887 0.907 Из приведенных данных следует, что при малых значениях параметра -оценка предпочтительнее -оценки лишь для распределений с «очень тяжелыми хвостами», в частности при . В других случаях картина обратная, т.е. в рамках супермодели урезанный вариант стандартного отклонения предпочтительнее. Адаптивные оценки Для построения - и -оценок на практике требуется задавать значения параметра , , при изменении которого свойства этих оценок существенно меняются. Например, в условиях семейства распределений Стьюдента с числом степеней свободы при имеем , а при . Следуя работам [5, 13, 14], выбор параметра можно связать с поведением оценки функционала, характеризующего степень «затянутости хвостов распределений». Эта оценка записывается в виде , , , (32) где и - порядковые статистики выборки . Следуя работе [5], везде ниже полагаем и . Адаптивный параметр определим в виде (33) где параметры , , и задаются в соответствии с рассматриваемым типом супермодели, и выборочная оценка определена в (32). В данной работе параметр вычисляется по формуле (33) при следующих значениях параметров: , , , . Для такого адаптивного выбора параметра сравним адаптивные оценки и с другими оценками, для которых параметр фиксирован. Сравнение проведено в условиях супермодели . Результаты приведены в табл. 3 в виде отношения стандартизованной дисперсии оценки при заданном распределении к минимальной стандартизованной дисперсии среди сравниваемых оценок. Таблица 3 Отношения стандартизованных дисперсий оценок к минимальной среди сравниваемых оценок 0.05 3 5 10 2.25 6.48 13.5 1.02 1.00 1.00 1.00 1.01 1.09 1.20 1.91 4.49 1.15 1.10 1.08 1.12 1.10 1.17 0.10 3 5 10 2.37 4.49 6.07 1.00 1.05 1.13 1.00 1.00 1.00 1.25 2.00 3.74 1.08 1.05 1.02 1.06 1.09 1.10 0.20 3 5 10 1.67 2.22 2.30 1.05 2.07 7.26 1.00 1.00 1.00 1.11 1.58 2.26 1.00 1.37 3.15 1.01 1.03 1.00 0.30 3 5 10 1.26 1.23 1.26 1.25 2.15 3.55 1.03 1.05 1.00 1.00 1.11 1.48 1.08 1.45 2.70 1.06 1.00 1.03 Данные табл. 3 показывают, что в рамках супермодели среди сравниваемых - и -оценок предпочтение следует отдать адаптивному стандартному отклонению , для которого параметр вычисляется по формуле (33) при следующих значениях параметров: , , , . Отметим, что при сравнении оценок использовались значения асимптотических стандартизованных дисперсий оценок, которые, как показали результаты моделирования для различных супермоделей, являются вполне удовлетворительной аппроксимацией стандартизованных дисперсий оценок при конечных объемах выборки . Исключением являются лишь некоторые распределения с очень «тяжелыми хвостами». Таким образом, адаптивная оценка стандартного отклонения может быть рекомендована к использованию на практике для оценивания масштабного параметра при умеренных объемах выборки и при возможных отклонениях от гауссовской модели наблюдений, вызванных наличием выбросов в выборке. Замечание. Приведем краткие выводы, полученные методом статистических испытаний в результате сравнения различных оценок масштабного параметра при конечных объемах выборки. В экспериментах, описанных в [5, 11], были включены следующие оценки: оценка стандартного отклонения, оценка среднего абсолютных отклонений, а также средняя разность Джини [5] и медиана абсолютных разностей [11]. В качестве модели наблюдений использовалось гауссовское распределение с масштабным засорением, т.е. . В проведенных экспериментах объем выборки менялся от 5 до 40, число экспериментов изменялось от 1000 до 10000. Результаты экспериментов показали, что асимптотика является вполне приемлемой аппроксимацией для объема выборки . Оценка медианы абсолютных разностей [11] обладает преимуществом перед другими оценками при масштабном засорении. Ее стандартизованная дисперсия меняется лишь незначительно, в отличие от других оценок, при изменении пропорции засорения и при увеличении параметра . Это объясняется ограниченной функцией влияния оценки . Для нормального распределения преимуществом обладает оценка стандартного отклонения . Для распределений «близких по затянутости хвостов» к нормальному распределению преимуществом обладает оценка среднего абсолютных отклонений . Заключение В работе изучены различные оценки масштабного параметра, характеризующего «разброс» случайной величины. Показано, что традиционно используемые на практике оценки масштабного параметра, такие как оценка стандартного отклонения и оценка среднего абсолютных отклонений , имеют неограниченные функции влияния, и они очень чувствительны к наличию выбросов в выборке. В работе предложены модифицированные (урезанные) варианты этих оценок и , , которые вычисляются не по исходной выборке , а на основе упорядоченной статистики , из которой предварительно удаляются наименьших и наибольших порядковых статистик. Эти оценки «защищены» от наличия выбросов в выборке, они имеют ограниченные функции влияния и их характеристики существенно зависят от параметра , что на практике приводит к дополнительным усилиям по выбору этого параметра. Для преодоления этого недостатка в работе предложены адаптивные варианты этих оценок, для которых параметр определяется на основе исходной выборки . Приведены результаты сравнения оценок в условиях различных моделей наблюдений, в частности в условиях гауссовской модели с масштабным засорением. Полученные результаты приводят к следующему выводу. В тех случаях, когда нет уверенности, что исходное распределение гауссовское, либо выборка может содержать грубые ошибки (выбросы), для оценки масштабного параметра целесообразнее использовать адаптивное стандартное отклонение либо оценку медианы абсолютных разностей. Эти оценки имеют ограниченные функции влияния и, следовательно, они «защищены» от наличия выбросов в выборке, и они предпочтительнее по эффективности перед другими рассмотренными оценками в условиях различных моделей наблюдений.

Ключевые слова

масштабный параметр, робастные оценки, выбросы, функция влияния, адаптивные оценки

Авторы

ФИООрганизацияДополнительноE-mail
Шуленин Валерий ПетровичНациональный исследовательский Томский государственный университетк.т.н., доцент НИ ТГУ
Всего: 1

Ссылки

Шуленин В.П. Робастные методы математической статистики. - Томск: Изд-во НТЛ, 2016. - 260 с.
Хампель Ф., Рончетти Э., Рауссей П., Штаэль В. Робастность в статистике. Подход на основе функций влияния. - М.: Мир, 1989. - 512 с.
Хьюбер П. Робастность в статистке. - М.: Мир, 1984. - 304 с.
Хеттсманспергер Т. Статистические выводы, основанные на рангах. - М.: Финансы и статистика, 1987. - 334 с.
Шуленин В.П. // Изв. вузов. Физика. - 2016. - Т. 59. - № 6. - С. 62-69.
Jureckova J. M-L-R-estimators. Handbook of Statistics. V. 4 / eds. P.R. Krishnaiah, P.K. Sen. - Elsevier Science Publishers, 1984. - P. 463-485.
Andrews D.F., Bickel P.J., Hampel F.R., et al. Robust Estimation of Location: Survey and Advances. - Princeton, N.Y.: Princeton Univ. Press, 1972. - 375 p.
Hampel F.R. //j. Amer. Statist. Assoc. - 1974. - V. 69. - No. 346. - P. 383-393.
Bickel P.J., Lehmann E.L. // Ann. Statist. - 1976. - V. 4. - No. 6. - P. 1139-1158.
Janssen P., Serfling R., Veraverbeke M. // Ann. Statist. - 1984. - V. 12. - No. 4. - P. 1369-1379.
Шуленин В.П. // Изв. вузов. Физика. - 2020. - Т. 63. - № 12. - С. 124-137.
Serfling R.J. Approximation Theorems of Mathematical Statistics. - N.Y.: Wiley, 1980. - 371 p.
Шуленин В.П. // Изв. вузов. Физика. - 2020. - Т. 63. - № 4. - С. 40-54.
Hogg R.V. //j. Amer. Statist. Assoc. - 1974. - V. 69. - P. 909-923.
 Сравнение робастных оценок модифицированных вариантов стандартного отклонения и среднего абсолютных отклонений | Известия вузов. Физика. 2022. № 2. DOI: 10.17223/00213411/65/2/171

Сравнение робастных оценок модифицированных вариантов стандартного отклонения и среднего абсолютных отклонений | Известия вузов. Физика. 2022. № 2. DOI: 10.17223/00213411/65/2/171