Асимтотические свойства и робастность оценок урезанных вариантов стандартного отклонения и среднего абсолютных отклонений
Изучаются свойства робастных оценок масштабного параметра, который характеризует «разброс» случайной величины. Предложенные оценки асимтотически нормально распределены, имеют ограниченные функции влияния и, следовательно, в отличие от оценки стандартного отклонения, «защищены» от наличия выбросов в выборке. Рассматриваемые оценки вычисляются на основе упорядоченной статистики, из которой предварительно удаляется часть наблюдений. Предложен адаптивный вариант оценок, основанный на использовании выборочных оценок функционалов, характеризующих степень «затянутости хвостов» распределений. Приводятся результаты сравнения оценок масштабного параметра в условиях различных моделей наблюдений, в частности в рамках гауссовской модели с масштабным засорением.
Asymptotic properties and robustness of trimmed versions estimates of standard deviation and mean absolute deviations.pdf При обработке результатов измерений ХхХп, полученных в эксперименте путем наблюдений за признаком X изучаемого объекта, традиционно вычисляются по статистическим данным XjХп оценки математического ожидания M(X) и дисперсии D(X) (или стандартного отклонения [ D (X )]1/2) и коэффициента корреляции, что вполне оправдано для гауссовской модели наблюдений. Однако оценки этих числовых характеристик изучаемой случайной величины X подвержены сильному влиянию грубых ошибок (выбросов), которые обычно присутствуют в реальных данных Хх,..., Хп эксперимента [1-5]. Для больших совокупностей данных, особенно при их автоматизированной обработке на ЭВМ, тщательный анализ данных с целью обнаружения «выпадающих» наблюдений и их корректировки трудно осуществим. В таких ситуациях используются робастные процедуры [5-8], которые, с одной стороны, оказываются нечувствительными к наличию умеренного засорения данных грубыми ошибками, а с другой стороны, ведут себя «достаточно хорошо» при идеальных условиях нормальности или какого-либо другого предположения о типе распределения данных. В настоящее время разработано большое количество робастных оценок параметра положения в качестве альтернативы оценке математического ожидания, которые имеют ограниченные функции влияния и «защищены» от наличия выбросов в выборке. Многие из этих оценок принадлежат к общим классам M-, L-, R- и MD-оценок, которые хорошо изучены и описаны в литературе (см., напр.: [6-12]. Менее изученными являются робастные оценки масштабного параметра, который используется в качестве «меры», характеризующей степень разброса случайной величины, и определяется в виде функционала S(F) от функции распределения F наблюдений. Общие требования, предъявляемые к таким функционалам, сформулированы в работах [2, 4]. Традиционно используемые на практике оценки масштабного параметра, такие как оценка S (0) стандартного отклонения S1(F), и оценка S2 (0) среднего абсолютных отклонений Si(F), имеют неограниченные функции влияния, и они очень чувствительны к наличию выбросов в выборке (см., напр.: [6-8]). В данной работе предложены урезанные варианты этих оценок S(а) и S2(а), 0 < а < 1/2, которые вычисляются не по исходной выборкеХ1,...,Хп, а на основе упорядоченной статистики Х(і),...,Х(п), из которой предварительно удаляются [ап] наименьших и наибольших поряд-91 В.П. Шуленин ковых статистик. Получены асимптотические формулы для вычисления характеристик качества оценок, основанные на «стадартизованных диспериях» оценок. Показано, что эти характеристики существенно зависят от параметра а . На практике это приводит к дополнительным усилиям по выбору данного параметра. По этой причине в работе предложены адаптивные варианты оценок, для которых параметр а (X1,..., Xn) доопределяется на основе информации, содержащейся в исходной выборке. Приводятся результаты сравнения оценок масштабного параметра в условиях различных моделей наблюдений. Полученные результаты, приводят к следующему выводу. Предложенная адаптивная оценка Sj (а) стандартного отклонения имеет ограниченную функцию влияния, она «защищена» от наличия выбросов в выборке, имеет высокую эффективность в условиях гауссовской модели и может быть рекомендована к использованию на практике для оценивания масштабного параметра при умеренных объемах выборки и при возможных отклонениях от модели, вызванных наличием выбросов в выборке. 1. Общий подход к построению оценок масштабного параметра Введем необходимые понятия и обозначения. Пусть X - изучаемая случайная величина с функцией распределения (ф.р.) F(x), x е R , которая абсолютно непрерывна, имеет плотность fx), x е R1, и симметрична относительно точки Ѳх, т.е. F е35|Ѳ , где 3^ѳ = {F: F(x) = 1 - F(2QX- x), Vx е R1}. Везде ниже обратную (квантильную) функцию для ф.р. F(x) будем обозначать через F -1 (t) = inf{x: F(x) > t}, 0 < t < 1. Масштабный параметр функции распределения F используется в качестве меры, характеризующей степень разброса случайной величины (с.в.) X с ф.р. F. Рассмотрим такие меры, которые могут быть представлены в виде функционала S(F), F еЗ, заданного на множестве допустимых распределений 3 в условиях эксперимента, связанного с изучением с.в. X по статистическим данным Xj,...,Xn, полученным в серии n независимых и повторных наблюдений над с.в. X. Выборочная оценка S(X1,...,Xn) функционала S(F), F еЗ, построенная методом подстановки, записывается в виде: S(X1,...,Xn) = S(Fn), где Fn(x) - эмпирическая функция распределения, построенная по выборке Xj,...,Xn. Везде ниже порядковые статистики исходной выборки Xj,...,Xn будем обозначать через X(j),...,X^n). Общие требования, которым должен удовлетворять функционал S(F), описывающий разброс случайной величины X, сформулированы в работах [2, 4]. Для формулировки этих требований отметим, что о случайных величинах Xi и X2 с функциями распределений Fi и F2 говорят, что с.в. X2 стохастически больше чем с.в. Xi (при этом используют обозначение в виде F1 x) < P(X2 > x), Vx е R1. Отметим также, что F1 F2 (x), Vx е R1 и F 1 (t) < F2-1 (t), 0 < t < 1. Далее, разброс с.в. X относительно Ѳx (масштабный параметр с.в. X) определяют в терминах «расстояния» X от Ѳх, т.е. с помощью величины | X - Ѳх |, при этом говорят, что с.в. Xi имеет больший разброс относительно Ѳ , чем с.в. X относительно Ѳх, если с.в. | X1 - ^ | стохастически больше с.в. | X - Ѳx |. Функционал S(F) определяет масштабный параметр ф.р. F, если он удовлетворяет следующим условиям. Условие 1. Монотонность функционала S(F) относительно стохастического возрастания распределений, т. е. выполняется выражение S(FJ) < S(F2) для Fy 0 . Например, если в (1) в качестве параметра положения выбрать среднее значение T1(F), и положить V(t) = t, 0 < t < 1, то при у = 1 получим среднее абсолютных отклонений S2(F) = M{| X -M(X)|}, оценка которого запишется в виде: S2(0) = n-1Z | X - X |. При у = 2 будем иметь стандартное отклонение S (F) = {M(X-M(X))2}12, оценка которого запишется в виде: Sj(0) = {n^hZ(Xj -X)2}12. Если же положить V(t) = t/(1 -а), 0
Ключевые слова
масштабный параметр,
робастные оценки,
выбросы,
функция влияния,
адаптивные оценкиАвторы
Шуленин Валерий Петрович | Томский государственный университет | доцент, кандидат технических наук, доцент Института прикладной математики и компьютерных наук | shulenin-vp@rambler.ru |
Всего: 1
Ссылки
Bickel P.J., Lehmann E.L. Measures of location and scale // Proc. Prague Symp. Asymptotic Statist. 1973. Prague Charles Univ. 1974. V. 1. P. 25-36.
Bickel P.J., Lehmann E.L. Descriptive Statistics for nonparametric models. I. Introduction. II. Location // Ann. Statist. 1975. V. 3. P. 1038-1044; 1045-1069.
Bickel P.J., Lehmann E.L. Descriptive statistics for nonparametric models. III. Dispersion // Ann. Statist. 1976. V. 4. № 6. P. 1139-1158.
Bickel P.J., Lehmann E.L. Descriptive statistics for nonparametric models. IV. Spread // Contributions to Statistics. Hajek Memo rial Volume / ed. by J. Jureckova. Prague : Academia, 1979. P. 33-40.
Шуленин В.П. Робастные альтернативы стандартному отклонению при обработке данных физических экспериментов // Известия вузов. Физика. 2016. Т. 59, № 6. С. 62-69.
Хампель Ф., Рончетти Э., Рауссей П., Штаэль В. Робастность в статистике. Подход на основе функций влияния. М. : Мир, 1989. 512 с.
Хьюбер П. Робастность в статистке. М. : Мир. 1984. 304 с.
Шуленин В.П. Робастные методы математической статистики. Томск : Изд-во НТЛ, 2016. 260 с.
Serfling R.J. Approximation Theorems of Mathematical Statistics. New York : Wiley, 1980. 371 p.
Serfling R.J. Generalized L-M-R-statistics // Ann. Statist. 1984. V. 12. P. 76-86.
Tarasenko F.P., Shulenin V.P. Connection of MD-estimates with classes of robust estimates of location parameter // 12th Prague Conf. Inf. Theory, Stat. Decision Functions, Random Processes. Prague,1994. P. 220-223.
Jureckova J. M-L-R-estimators // Handbook of Statistics / eds. P.R. Krishnaiah, P. Sen. Elsevier Science Publishers, 1984. V. 4. P. 463-485.
Hampel F.R. The influence curve and its role in robust estimation // J. Amer. Statist. Assoc. 1974. V. 69, № 346. P. 383-393.
Hampel F.R. Contribution to the theory of robust estimation : Ph. D. diss. Berkeley : Univ. California, 1968. 103 p.
Hampel F.R. A general qualitative definition of robustness // Ann. Math. Statist. 1971. V. 42. P. 1887-1896.
Janssen P., Serfling R., Veraverbeke M. Asymptotic normality for a general class of statistical functions and applications to measures of spread // Ann. Statist. 1984. V. 12, № 4. P. 1369-1379.
Janssen P., Serfling R., Veraverbeke M. Asymptotic normality of U-statistics based on trimmed samples // J. Statist. Planning and Inference. 1987. V. 16. P. 63-74.
Шуленин В.П. Асимптотические свойства GL и U- статистик // Вестник Томского государственного университета. 2004. Приложение № 9 (11). С. 184-190.
Shulenin V.P. Asymptotic Properties of the Trimmed GL-and U-Statistics // PRAGUE STOCHATICS’98 : Abstracts 6th Prague Symposium on Asymptotic Statistics, Prague, 1998, August 23-28. P. 84.
Hogg R.V. Adaptive robust procedures: a partial review and some suggestions for future applications an theory // J. Amer. Statist. Assoc. 1974. V. 69. P. 909-923.
Шуленин В.П. Свойства адаптивных оценок Ходжеса-Лемана в асимптотике и при конечных объемах выборки // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2010. № 2 (11). С. 96-112.
Bickel, P.J. & Lehmann, E.L. (1974) Measures of location and scale. In: Proc. Prague Symp. Asymptotic Statist. 1973. Vol. 1. Prague: Charles Univ. pp. 25-36.
Bickel, P.J. & Lehmann, E.L. (1975) Descriptive Statistics for nonparametric models. I. Introduction. II. Location. Ann. Statist. 3, pp. 1038-1044; pp. 1045-1069.
Bickel, P.J. & Lehmann, E.L. (1976) Descriptive statistics for nonparametric models. III. Dispersion. Ann. Statist. 4(6). pp. 1139 1158.
Bickel, P.J. & Lehmann, E.L. (1979) Descriptive statistics for nonparametric models. IV. Spread. In: Jureckova, J. (ed.) Contribu tions to Statistics. Hajek Memorial Volume. Prague: Academia. pp. 33-40.
Shulenin, V.P. (2016) Robust alternatives to standard deviation in physical data processing experiments. Izvestiya vuzov. Fizika - Russian Physics Journal. 59(6). pp. 62-69.
Hampel, F., Ronchetti, E., Raussey, P. & Stael, V. (1989) Robastnost' v statistike. Podkhod na osnove funktsiy vliyaniya [Robust ness in statistics. Function-based approach influence]. Translated from English. Moscow: Mir.
Huber, P. (1984) Robastnost' v statistke [Robustness in Statistics]. Translated from English. Moscow: Mir.
Shulenin, V.P. (2016) Robastnye metody matematicheskoy statistiki [Robust Methods of Mathematical Statistics]. Tomsk: NTL.
Serfling, R.J. (1980) Approximation Theorems of Mathematical Statistics. New York: Wiley.
Serfling, R.J. (1984) Generalized L-M-R-statistics. Ann. Statist. 12. pp. 76-86.
Tarasenko, F.P. & Shulenin, V.P. (1994) Connection of MD-estimates with classes of robust estimates of location parameter. 12th Prague Conf. Inf. Theory, Stat. Decision Functions, Random Processes. Prague. pp. 220-223.
Jureckova, J. (1984) M-L-R-estimators. In: Krishnaiah, P.R. & Sen, P. (eds) Handbook of Statistics. Vol. 4. Elsevier Science Publishers. pp. 463-485.
Hampel, F.R. (1974) The influence curve and its role in robust estimation. Journal of American Statist. Association. 69(346). pp. 383-393.
Hampel, F.R. (1968) Contribution to the Theory of Robust Estimation. Ph. D. Diss. Berkeley, Univ. California.
Hampel, F.R. (1971) A general qualitative definition of robustness. Annals of Mathematical Statistics. 42. pp. 1887-1896. DOI: 10.1214/aoms/1177693054
Janssen, P., Serfling, R. & Veraverbeke, M. (1984) Asymptotic normality for a general class of statistical functions and applications to measures of spread. Annals of Statistics. 12(4). pp. 1369-1379. DOI: 10.1214/aos/1176346797
Janssen, P., Serfling, R. & Veraverbeke, M. (1987) Asymptotic normality of U-statistics based on trimmed samples. Journal of Statist. Planning and Inference. 16. pp. 63-74. DOI: 10.1016/0378-3758(87)90056-5
Shulenin, V.P. (2004) Asymptotic properties of GL and U-statistics. Vestnik Tomskogo gosudarstvennogo universiteta - Tomsk State University Journal. 9(11). Application. pp. 184-190.
Shulenin, V.P. (1998) Asymptotic Properties of the Trimmed GL-and U-Statistics. 6th Prague Symposium on Asymptotic Statistics. Prague. August 23-28. “Prague Stochatics'98”. Abstracts. p. 84.
Hogg, R.V. (1974) Adaptive robust procedures: A partial review and some suggestions for future applications an theory. Journal of American Statist. Association. 69. pp. 909-923.
Shulenin, V.P. (2010) Asymptotic and nonasymptotic properties of Hodges - Lehmann adaptive estimators. Vestnik Tomskogo gosudarstvennogo universiteta. Upravlenie, vychislitel'naya tekhnika i informatika - Tomsk State University Journal of Control and Computer Science. 2(11). pp. 96-112.