Предложен взвешенный метод максимального правдоподобия (ВММП) для нахождения робастных оценок при обработке экспериментальных данных, содержащих выбросы. Метод позволяет получать робастные асимптотически несмещенные и эффективные оценки не только для удаленных, но и внутренних асимметричных и симметричных выбросов. Рассматриваются алгоритмы получения робастных оценок ВММП при параметрическом уровне априорной неопределенности. Показано, что данные оценки сходятся к оценкам максимального правдоподобия при неоднородной выборке для каждого распределения из супермодели Тьюки.
Robust parametric estimates of inhomogeneous experimental data.pdf Введение Исследователям известна проблема появления в экспериментальных данных аномальных наблюдений (выбросов), которые могут существенно исказить результат [1-5]. Стандартные методы обработки таких измерений приводят к значительным смещениям и низкой эффективности оценок параметров и процедур принятия решений. На практике давно и широко используется интуитивно понятная процедура цензурирования выборки, для применения которой требовались непараметрические критерии обнаружения и отбраковки выбросов [6, 7]. Изначально рассматривались процедуры цензурирования для удаления экстремальных наблюдений в выборке из нормального распределения. В этом случае был предложен ряд параметрических критериев типа критериев Граббса и их обобщений [3], но получить непараметрические критерии в общем случае не удавалось [4]. Появление робастной статистики переориентировало задачу поиска непараметрических критериев для обнаружения выбросов на задачу синтеза процедур обработки данных, устойчивых к появлению выбросов [5-9]. Робастная статистика активно развивается, возникают новые задачи, накапливаются внутренние проблемы, которые требуют осмысления; на некоторых из них остановимся ниже. В робастной статистике введен ряд критериев робастности, на основе которых и синтезируются робастные процедуры [5-9]. Перед пользователем возникает непростой вопрос о выборе лучшей робастной процедуры, когда критерии робастности и классической эффективности [10] оказались противоречивыми [5-8]. Дело в том, что робастная оценка на классе распределений может иметь поразительно низкую эффективность для отдельных распределений из этого класса, например, робастные медианные оценки на классе распределений с легкими хвостами [11]. Возникает вопрос об оптимальной робастной процедуре. В идеальном случае, оптимальная робастная процедура должна быть эффективной (классический вариант эффективности [10]) для каждой конкретной ситуации из некоторого множества ситуаций, поэтому необходима настройка на ситуацию и переход к адаптивным процедурам. Робастные ( ) - усеченные процедуры [7, 12] и их модификации позволяют снизить влияние выбросов, но возникают проблемы, связанные с определением параметров усечения. В результате появились различные робастные адаптивные оценки, основанные на алгоритмах адаптации параметров жесткого или мягкого усечения [2, 7, 11-13]. Несмотря на многочисленные исследования, возникают вопросы об эффективности таких адаптивных процедур для каждого распределения на классах локальных и глобальных супермоделей. Задачи такого типа относятся к классам семипараметрических и семинепараметрических задач математической статистики [7, 11]. С одной стороны, метод максимального правдоподобия (ММП) позволяет находить эффективные оценки для конкретной ситуации, но характеристики оценок ММП, как показывают многочисленные исследования, оказываются крайне неустойчивыми (не робастными) даже при небольших отклонениях от априорных предположений [5-9, 11]. С другой стороны, большой класс робастных оценок формируется взвешенными оценками максимального правдоподобия (ОМП), например, взвешенное выборочное среднее при соответствующем выборе весов является эффективной оценкой как для распределений с легкими, так и тяжелыми хвостами [11]. Возникают проблемы с выбором весовых функций и их адаптацией на конкретную ситуацию из класса ситуаций с учетом различной априорной информации в условиях априорной неопределенности [11, 13-17] и классификацией задач робастной статистики в зависимости от типа априорной информации. Необходимо также отметить, что основное внимание исследователей до сих пор было сосредоточено на борьбе с удаленными выбросами, в то же время асимметричные и внутренние невыделяющиеся выбросы на уровне (1-2) могут существенно изменить форму распределения и внести неконтролируемые смещения в оценки параметров [11, 18]. Более того, существующие многочисленные робастные методы и оценки плохо приспособлены для борьбы с такими выбросами. В данной работе рассматриваются робастные параметрические оценки параметров взвешенного метода максимального правдоподобия (ВММП) на параметрических классах распределений супермодели Тьюки. Оценки ВММП являются адаптивными робастными оценками по отношению к симметричным и асимметричным выбросам при параметрическом уровне априорной информации. Показано, что такие оценки сходятся к асимптотически несмещенным и эффективным оценкам максимального правдоподобия для каждого распределения на классе распределений Тьюки. Важным достоинством полученных алгоритмов является их адаптивность не только по распределению, но и по виду выбросов (удаленные, внутренние, симметричные, асимметричные). 1. Постановка задачи Пусть - выборка независимых одинаково распределенных случайных величин с функцией распределения (ф.р.) , где - класс распределений, удовлетворяющих условиям регулярности ММП [10, § 16]. В дальнейшем будем рассматривать , где и - класс распределений Тьюки (супермодель): , (1) - априорная модель ф.р.; - распределение выбросов; - доля выбросов; - информация о выбросах. Требуется по выборке оценить неизвестный параметр . Множество определяется множеством ситуаций , каждый элемент которого определяется через априорную информацию о и информацию о выбросах . Под робастной эффективной оценкой на классе будем понимать эффективную оценку [10] для каждого распределения , т.е. оценка должна быть адаптивной на классе . В дальнейшем предполагается, что все распределения удовлетворяют условиям регулярности ММП [10]. Обозначим через плотности распределений соответственно и - эмпирическую функцию распределения. Супермодель Тьюки используется в качестве удобной модели реальных распределений , которые можно считать приближенно совпадающими с априорным распределением [5-9, 11]. Рассмотрим следующие постановки задач для супермодели (1): 1. Параметрическая задача : - параметрический класс, т.е. , - параметрические классы, - известна, информация о известна. 2. Семипараметрическая задача : - семипараметрический класс, - параметрический класс, - непараметрический класс, - неизвестна, информация о неизвестна. 3. Семинепараметрическая задача : и - семинепараметрические классы, - непараметрический класс, - неизвестна, информация о неизвестна. Параметрические задачи в случае однородной выборки ( ) достаточно хорошо изучены, и ММП позволяет получить эффективные ОМП [10]. Отметим, что ОМП для распределений с затянутыми хвостами эвристически давно применяются в качестве робастных оценок для удаленных выбросов. Например, ОМП сдвига и масштаба для распределения Коши (не имеет моментов) в виде взвешенных выборочных среднего и дисперсии имеют конечные дисперсии и эффективны. Несомненный интерес представляет поведение эффективных ОМП в случае неоднородной выборки ( ). Семипараметрические задачи относятся к классу задач классической робастной статистики [5-7, 9]. По разным критериям робастности обычно на классе находится наихудшее распределение и для него синтезируется эффективная оценка (подход пессимиста). Такие оценки с жестким или мягким усечением являются робастными (устойчивыми) на классе распределений типа , но могут иметь низкую эффективность для отдельных ситуаций из класса [8, 11]. Переход к адаптивным оценкам с локальной подстройкой относительно информации о выбросах позволяет получить достаточно эффективные оценки [7, 11-13]. Несмотря на достижения в области адаптивных оценок для асимметричных выбросов (особенно внутренних), не удается решить проблему нахождения робастных асимптотически несмещенных (только при ) и эффективных оценок [8, 18]. Семинепараметрические задачи давно привлекают внимание исследователей [11, 13-17]. На основе непараметрических оценок плотности Розенблатта - Парзена получены робастные непараметрические оценки параметра сдвига с мягким и жестким усечением для удаленных выбросов, в которых весовые функции и параметры усечения подбираются эвристически. Высокую эффективность показывают робастные непараметрические усеченные оценки [7], оценки ВММП [11] из класса устойчивых оценок [8], оценки ВММП [14], в которых весовые функции адаптируются не только к информации о выбросах , но и к неизвестному виду . 2. Параметрические робастные оценки Параметрические задачи для однородной выборки достаточно хорошо изучены [10]. Рассмотрим ММП в случае неоднородной выборки ( ) для супермодели (1). Требуется построить робастную параметрическую оценку параметра при наличии в выборке аномальных наблюдений. Важно исследовать, как происходит обработка аномальных наблюдений в параметрических алгоритмах ОМП, позволяющая получать робастные несмещенные и эффективные оценки. В соответствии с ММП оценка максимального правдоподобия параметра для модели (1) определяется из оценочного уравнения , (2) где оценочная функция представлена в виде , (3) при этом необходимо, чтобы выполнялось условие несмещенности оценки . (4) Для решения уравнения (2) используются различные итерационные алгоритмы. Представим оценочную функцию в виде , (5) где - функция вклада ОМП для ; - весовая функция: . (6) Оценка параметра из (2) является М-оценкой. Можно показать [6, 10], что имеет асимптотически нормальное распределение со смещением (7) и дисперсией . (8) Проведем анализ алгоритма ОМП. Анализ выражения (5) показывает, что эффективная оценка представляет взвешенную ОМП априорного распределения с весами , которые зависят от информации о выбросах и определяют расхождение между и . В связи с тем, что при , весовые функции типа (6) автоматически производят цензурирование выборки при удаленных выбросах. Так как , то , и для усеченных получаем . Следовательно, при условиях регулярности ММП для распределения [10] для удаленных симметричных и асимметричных выбросов независимо от операция усечения выборки с приводит к эффективным оценкам. В условиях регулярности ММП рассмотрим выражение Из (7) в соответствии с данным выражением следует, что . На основании этого можно построить асимптотически несмещенные и эффективные ОМП при наличии любых выбросов. Если носители распределений и не пересекаются, то - усеченные ОМП для удаленных выбросов - позволяют получать асимптотически эффективные оценки при соответствующем выборе . Все существенно усложняется, если носители распределений и пересекаются. В этом случае весовая функция ОМП занижает вес «аномальных» наблюдений ( ) в соответствии с распределением выбросов и завышает вес основных наблюдений ( ) при , приводя выборку с распределением к выборке из априорного распределения . Действительно, весовая функция «подтягивает» к априорной плотности , т.е. , так как . Отсюда следует, что алгоритм (2) отрабатывает поиск ОМП для , завышая или занижая функцию вклада с учетом . Алгоритм (2) - (5) нахождения оценок на основе ВММП позволяет автоматически получать робастные эффективные оценки при любых выбросах, кроме стандартного случая однородной выборки ( ). Действительно, при , и стандартный алгоритм ОМП становится неустойчивым при любых . Для распределений с легкими хвостами стандартные ОМП становятся неустойчивыми. При распределениях с тяжелыми хвостами даже при небольшой доле выбросов . Этот факт приводит к потере робастности оценки, например при априорных распределениях типа распределения Коши. Желание получить устойчивость характеристик оценки даже при небольших отклонениях ( ) от априорных предположений типа требует модификации весовых функций (6). 1. Определим в следующем виде: , (9) где - функция Хэвисайда; определяется пользователем и задает вероятность практической невозможности появления выборочных значений. При появлении редких выбросов ОМП с весами (9) становятся адаптивными при неизвестной информации о доле и приводят к устойчивым алгоритмам нахождения робастных оценок. Алгоритм (9) определяет порог отсечки. При ограниченном носителе при порог отсечки определяется автоматически, при пользователь через b задаетет порог отсечки через вероятность практической невозможности появления выборочных значений. Например, для стандартного нормального распределения соответствует точке отсечки х = 3.46, т.е. выборочные значения > 3.46 будут считаться выбросами и отсекаться. 2. В случае неустойчивых задач в вычислительной математике используется прием небольшого смещения вычислительной процедуры, который приводит к устойчивому решению. В модель (1) добавим небольшое количество выбросов с известным распределением . В этом случае даже при в выражении (6) и оценочная функция от вида переходит к виду . Происходит переход от жесткой ( ) к мягкой ( ) математической модели, которая приводит к устойчивым оценкам [19]. Анализ оценочных функций ОМП с весами (6), (9) приводит к выводу, что они относятся к классу сниженных оценочных функций, которые вводились эвристически для получения робастных оценок с ограниченной дисперсией [5]. Идея получения робастных взвешенных ОМП вида с весами известна давно [5], например, ВММП с [11] из класса устойчивых оценок [8]. Более того, считается, что значительная часть робастных оценок относится к этому классу, но только весовые функции вида (6) в условиях неоднородной выборки позволяют получить несмещенные и эффективные оценки. 3. Робастные оценки параметра сдвига для смеси обобщенно-нормальных распределений Рассмотрим оценки ВММП для задачи оценивания параметра сдвига локальной супермодели Тьюки для смеси обобщенно-нормальных распределений , (10) где приближенно-нормальное распределение с параметром имеет вид , (11) , , - гамма-функция; при получаем распределение Лапласа Р1, при получаем нормальное распределение Р2, при получаем распределение Р4 с легкими хвостами. В соответствии с выражением (3) для данной супермодели получаем оценочную функцию вида . (12) Проводилось исследование поведения оценочной и весовой функций оценки параметра сдвига ОМП для модели (10), (11) с параметрами для распределений Р1, Р2, Р4 в зависимости от для различных выбросов: внешние - ; граничные - ; внутренние - . На рис. 1 приведены типовые графики плотности распределения и оценочной функции ОМП при внешних выбросах для распределения Р2. На графике для оценочной функции ОМП при внешних выбросах наглядно видно, что происходит симметричная отсечка всех значений для . Рис. 1. Распределение Р2 (внешний выброс): плотность распределения и оценочная функция : - кр. 1; - кр. 2 На рис. 2 представлены типовые графики плотности распределения, оценочной и весовой функций ОМП при внутренних выбросах для распределения Р2. Видно, что оценочная и весовая функции ОМП занижают вес «аномальных» наблюдений в соответствии с распределением выбросов и завышают вес основных наблюдений при , при этом происходит симметричная отсечка всех значений для . Рис. 2. Распределение Р2 (внутренний выброс): плотность распределения , оценочная и весовая функции: - кр. 1; - кр. 2 Рис. 3. Распределение P2 (граничный выброс): плотность распределения и оценочная функция (x, )): - кр. 1; - кр. 2 На рис. 3 приведены типовые графики плотности распределения и оценочной функции ОМП при граничных выбросах для распределения Р2. Видно, что происходит отсечка всех значений для , но отсечка с правого конца происходит по сложной кривой, учитывающей распределение выбросов . На рис. 4 приведены типовые графики плотности распределения и оценочной функции ОМП при внутренних выбросах для распределения Р4. Видно, что оценочная функция ОМП занижает вес аномальных наблюдений в соответствии с распределением выбросов и завышает вес основных наблюдений при . При этом происходит симметричная отсечка всех значений для . Рис. 4. Распределение Р4 (внутренний выброс): плотность распределения и оценочная функция : - кр. 1; - кр. 2 На рис. 5 представлены типовые графики оценочной и весовой функций ОМП для распределения Р4 и радикальных оценок ВММП (робастная MD-оценка с высокой эффективностью на расстоянии Хеллингера [7, 8, 11]). Из рис. 5, б наглядно видно, что весовая функция радикальной оценки сильно подрезает крайние наблюдения, в то же время для распределений с легкими хвостами, к которым относится распределение Р4, основную информацию несут крайние наблюдения (рис. 5, а). Это объясняет тот факт, что типовые робастные оценки, например выборочная медиана, имеют низкую эффективность для распределений с легкими хвостами. Рис. 5. Распределение Р4 (внутренний выброс): оценочные и весовые функции ОМП: - кр. 1; - кр. 2; радикальной оценки - кр. 3 Выводы 1. Получены и исследованы робастные оценки ВММП для модели неоднородных наблюдений. 2. Оценки ВММП являются несмещенными и асимптотически эффективными для симметричных, асимметричных, внешних и внутренних моделей выбросов. 3. Оценки ВММП с весами вида (9) являются устойчивыми и не зависят от доли выбросов в случае удаленных выбросов. 4. Получены робастные оценки ВММП для параметра сдвига в случае обобщенно-нормальных распределений в супермодели Тьюки.
Сызранцев В.Н., Невелев Я.П., Голофаст С.Л. Расчет прочностной надежности изделий на основе методов непараметрической статистики. - Новосибирск: Наука, 2008. - 218 с.
Симахин В.А., Черепанов О.С., Шаманаева Л.Г. // Изв. вузов. Физика. - 2015. - Т. 58. - № 12. - C. 176-181.
Muthukrishnan R. and Poonkuzhali G. // Am.-Eur. J. Sci. Res. - 2017. - V. 12. - No. 3. - P. 161-171.
Орлов А.И. // Зав. лаб. - 1992. - № 7. - C. 40-42.
Хампель Ф., Рончетти Э., Рауссеу П., Штаэль В. Робастность в статистике. - М.: Мир, 1989. - 512 с.
Хьюбер П. Робастность в статистике. - М.: Мир, 1984. - 303 с.
Шуленин В.П. Робастные методы математической статистики. - Томск: Изд-во НТЛ, 2016. - 260 с.
Шурыгин А.М. Прикладная статистика. Робастность. Оценивание. Прогноз. - М.: Финансы и статистика, 2000. - 223 с.
Цыпкин Я.З. Основы информационной теории идентификации. - М.: Наука, 1995. - 336 с.
Боровков А.А. Математическая статистика. - Новосибирск: Наука, 1997. - 772 с.
Симахин В.А. Робастные непараметрические оценки. - Saarbrücken: LAMBERT Academic Publishing, 2011. - 292 с.
Hogg R.V. // Comm. Statist. - 1982. - V. 11. - P. 2531-2542.
Lindsay B.G. // Ann. Statist. - 1994 - V. 22. - P. 1018-1114.
Markatou M., Basu A., and Lindsay B.G. // J. Am. Statist. Assoc. - 1998. - V. 93(442). - P. 740-750.
Field C. and Smith B. // Int. Statist. Rev. - 1995. - V. 62. - P. 405-424.
Hu F. and Zidek J.V. // Can. J. Statist. - 2002. - V. 30. - No. 3. - P. 347-371.
Agostinelli C. // Statist. Probab. Lett. - 2006. - V. 76. - P. 1930-1934.
Jaeckel L.A. // Ann. Math. Statist. - 1971. - V. 42. - P. 1020-1034.
Арнольд В.И. Жесткие и мягкие математические модели. - М.: МЦНМО, 2004. - 32 с.