Робастные семипараметрические и семинепараметрические оценки для неоднородных экспериментальных данных | Известия вузов. Физика. 2021. № 2. DOI: 10.17223/00213411/64/2/149

Робастные семипараметрические и семинепараметрические оценки для неоднородных экспериментальных данных

Предложен взвешенный метод максимального правдоподобия (ВММП) нахождения робастных оценок при обработке экспериментальных данных, содержащих выбросы. Метод позволяет получать робастные асимптотически несмещенные и эффективные оценки в условиях априорной неопределенности. Синтезированы адаптивные алгоритмы робастных оценок ВММП для семипараметрических и семинепараметрических задач обработки неоднородных данных. Показано, что данные оценки сходятся к оценкам максимального правдоподобия при неоднородной выборке для каждого распределения из супермодели Тьюки не только для удаленных, но и для внутренних асимметричных и симметричных выбросов.

Robust semiparametric and semi-nonparametric estimation of heterogeneous experimental data.pdf Введение Исследователям известна проблема появления в экспериментальных данных аномальных наблюдений (выбросов), которые могут существенно исказить результаты [1-5]. Стандартные методы обработки таких измерений приводят к значительным смещениям и низкой эффективности оценок параметров и процедур принятия решений. На практике давно и широко используется интуитивно понятная процедура цензурирования выборки, для применения которой требовались непараметрические критерии обнаружения и отбраковки удаленных выбросов [3]. Появление робастной статистики переориентировало задачу цензурирования выборки на задачу синтеза процедур обработки данных, устойчивых к появлению выбросов [4-9]. Основная проблема, возникающая при синтезе робастных оценок неизвестного параметра  на основе наблюдений с распределением , связана с наличием априорной информации о распределении основной массы наблюдений и с отсутствием априорной информации о выбросах в виде их доли и распределения , т.е. их типа (симметричные, асимметричные) и расположения (удаленные, пограничные, внутренние). В зависимости от априорной информации о виде математических моделей рассматриваются параметрические, семипараметрические, семинепараметрические и непараметрические задачи на локальных и глобальных супермоделях P [4-9]. Для получения робастных оценок при заданном критерии робастности (максимальное среднее, максимальная дисперсия [4], функция влияния [5], максимальная энтропия [8], максимальная неустойчивость [7]) обычно на супермодели P находится наихудшее распределение и для него находится эффективная робастная (минимаксная) оценка [4-9]. Робастная статистика активно развивается, возникают новые задачи, накапливаются внутренние проблемы, требующие осмысления. На некоторых из них остановимся ниже. Робастная оценка на классе распределений P может иметь поразительно низкую эффективность для отдельных распределений из этого класса [6, 9]. Перед пользователем возникает непростой вопрос выбора лучшей робастной процедуры. Метод максимального правдоподобия (ММП) позволяет находить эффективные оценки для конкретной ситуации, но характеристики оценок ММП (ОМП), как показывают многочисленные исследования, оказываются крайне неустойчивыми (не робастными) даже при небольших отклонениях от априорных предположений [4-6, 9]. Этот факт вызвал появление различных критериев робастности, которые входили в противоречие с классическим критерием эффективности [4-9]. Предложено много методов получения робастных оценок для локальных и глобальных супермоделей, но они, в конечном итоге, сводятся к процедуре жесткого или мягкого усечения. Вопрос, как обычно, заключается в деталях, где отсекать или по какой весовой функции производить усечение. Это потребовало перехода к адаптивным процедурам. В результате предложены различные робастные адаптивные оценки для семипараметрических задач, основанные на алгоритмах адаптации параметров жесткого или мягкого усечения [3, 6, 9-14]. Многочисленные исследования показали, что эффективность таких адаптивных оценок в среднем на множестве распределений из супермодели P выше, чем неадаптивных оценок. Внутренние и пограничные асимметричные выбросы, которые приводили к смещенным оценкам, обычно не рассматривались [15]. В литературе гораздо меньше внимания уделяется синтезу робастных семинепараметрических оценок, хотя задачи данного типа актуальны для практики. Необходимо отметить тот факт, что первые семинепараметрические оценки предложены в середине 70-х годов ХХ в. [16, 17] практически одновременно с классическими робастными оценками из класса семипараметрических оценок. Для синтеза таких оценок необходима адаптация по априорному распределению (глобальная адаптация) на непараметрическом классе и локальная адаптация по локальным выбросам на непараметрическом классе [6]. Для этого использовалась субъективная дополнительная априорная информация о непараметрических классах и , например, - класс симметричных относительно распределений и - класс удаленных выбросов [6, 16, 17]. Отметим, что основное внимание исследователей было сосредоточено на борьбе с удаленными выбросами. В то же время асимметричные и пограничные, внутренние «не выделяющиеся» выбросы на уровне (1-2) , которые могли существенно изменить форму распределения и внести неконтролируемые смещения в оценки параметров [6, 9, 15], не рассматривались. Более того, существующие многочисленные робастные методы и оценки недостаточно хорошо приспособлены для борьбы с такими выбросами. В данной работе рассматриваются робастные оценки параметров взвешенного метода максимального правдоподобия (ВММП) на семипараметрических и семинепараметрических классах распределений супермодели Тьюки. Оценки ВММП являются адаптивными робастными оценками как по априорному распределению, так и по отношению к симметричным и асимметричным выбросам при непараметрическом уровне априорной информации. Показано, что такие оценки сходятся к асимптотически несмещенным и эффективным оценкам максимального правдоподобия для каждого распределения на классе распределений Тьюки. Важным достоинством полученных алгоритмов является их адаптивность не только по априорному распределению, но и по виду выбросов (удаленные, внутренние, симметричные, асимметричные). 1. Постановка задачи Пусть - выборка независимых одинаково распределенных (н.о.р.) случайных величин с функцией распределения (ф.р.) , где - класс распределений, удовлетворяющих условиям регулярности ММП ([18], § 16). В дальнейшем будем рассматривать , где , - класс распределений Тьюки (супермодель): , (1) - априорная модель ф.р., - распределение выбросов, - доля выбросов, - информация о выбросах. Требуется по выборке оценить неизвестный параметр . Множество определяется множеством ситуаций , каждый элемент которого определяется через априорную информацию о и информацию о выбросах . Под робастной эффективной оценкой на классе будем понимать эффективную оценку [18] для каждого распределения , т.е. оценка должна быть адаптивной на классе . В дальнейшем предполагается, что все распределения удовлетворяют условиям регулярности ММП [18]. Обозначим через плотности распределений соответственно и - эмпирическую функцию распределения (э.ф.р.). Супермодель Тьюки используется в качестве удобной модели реальных распределений , которые можно считать приближенно совпадающими с априорным распределением [4-9]. Рассмотрим следующие постановки задач для супермодели (1): 1. Параметрическая задача - параметрический класс, т.е. - параметрические классы, - известна, информация о известна. 2. Семипараметрическая задача - семипараметрический класс, - параметрический класс, - непараметрический класс, - неизвестна, информация о неизвестна. 3. Семинепараметрическая задача - семинепараметрический класс, - семинепараметрический класс, - непараметрический класс, - неизвестна, информация о неизвестна. Параметрические задачи в случае однородной выборки ( ) достаточно хорошо изучены и ММП позволяет получить эффективные ОМП [18]. Случай неоднородной выборки рассмотрен в [19]. Семипараметрические задачи относятся к классу задач классической робастной статистики [4-9, 11-14, 17]. По различным критериям робастности, обычно на классе , находится наихудшее распределение и для него синтезируется эффективная оценка (подход пессимиста). Такие оценки с жестким или мягким усечением являются робастными (устойчивыми) на классе распределений , но могут иметь низкую эффективность для отдельных ситуаций из класса [3, 6, 7]. Переход к адаптивным оценкам с локальной подстройкой относительно информации о выбросах позволяет получить достаточно эффективные оценки [3, 6, 9, 11-14]. Несмотря на достижения в области адаптивных оценок для асимметричных выбросов, не удается решить проблему нахождения робастных асимптотически несмещенных (только при ) и эффективных оценок [7, 15]. Семинепараметрические задачи давно привлекают внимание исследователей [6, 16, 17]. На основе непараметрических оценок плотности Розенблатта - Парзена получены робастные непараметрические оценки параметра сдвига с мягким или жестким усечением для удаленных выбросов, в которых весовые функции и параметры усечения подбираются эвристически. Высокую эффективность для симметричных и удаленных выбросов показывают робастные непараметрические усеченные оценки [9], оценки ВММП [3, 6] из класса устойчивых оценок [7], в которых весовые функции адаптируются не только к информации о выбросах , но и к неизвестному виду . 2. Семипараметрические робастные оценки Рассмотрим задачи робастной статистики при неизвестной информации о выбросах - семипараметрические задачи [4-9]. Отсутствие информации о выбросах определяет основные проблемы при синтезе робастных оценок [4-9, 11-14]. В этом случае имеем, что - семипараметрический класс, - параметрический класс, - непараметрический класс, - неизвестна, информация неизвестна. В соответствии с ММП оценка максимального правдоподобия (ОМП) параметра для параметрической модели (1) определяется из оценочного уравнения , (2) где оценочная функция представима в виде ; (3) при этом необходимо, чтобы выполнялось условие несмещенности оценки . (4) Представим оценочную функцию в виде , (5) где - функция вклада ОМП для и - весовая функция: . (6) Оценка параметра из (2) является М-оценкой. Можно показать [5, 6], что имеет асимптотически нормальное распределение со смещением (7) и дисперсией . (8) Оценка представляет взвешенную ОМП априорного распределения с весами , которая при стандартных условиях ММП для распределения [18] приводит к эффективным и несмещенным оценкам для супермодели (1) [19]. Идея получения робастных взвешенных ОМП вида с весами известна давно [10, 11-14, 16, 17], например, ВММП с [3, 6] из класса устойчивых оценок [7]. Более того, считается, что большая часть робастных оценок относится к этому классу, но только весовые функции вида (6) в условиях неоднородной выборки позволяют получить несмещенные и эффективные оценки [19]. Для семипараметрической задачи информация о неизвестна, следовательно, неизвестна и плотность распределения . Для нахождения оценки ОМП запишем оценочное уравнение (2) в виде , (9) где оценочную функцию определим следующим образом: , (10) - функция вклада ОМП для ; - весовая функция в виде , (11) , (12) - непараметрическая оценка плотности Розенблатта - Парзена; - ядерная функция; - параметр размытости. Для состоятельности должны выполняться условия А: [6, 20, 21]. Выражения (9) - (12) определяют адаптивную оценку максимального правдоподобия (АОМП). При условиях А на и из теорем непрерывности [6, 18, 21] следует сходимость по вероятности , и , т.е. АОМП ОМП. Например, для нормального распределения с параметром сдвига оценочное уравнение (9) принимает следующий вид: . (13) Оценка АОМП находится итерациями , , (14) - оценка плотности Розенблатта - Парзена с нормальным ядром [6, 20]. Рассмотрим основные свойства адаптивных семипараметрических оценок (9) - (12). Так как , то . Следуя [18, 21], представим в виде . Тогда для выражения (9) получаем . Следовательно, можно записать . (15) Найдем среднее значение и дисперсию оценки . С учетом того, что , и, следуя [6, 21], получаем . Так как , то используя методику [6] и из теорем непрерывности [18, 21] получаем , Следовательно, адаптивная оценка является асимптотически несмещенной и состоятельной оценкой. Отметим, что порядок сходимости дисперсии оценки АОМП в отличие от ОМП из (8), где . 3. Моделирование Методом статистического моделирования исследовались свойства адаптивной оценки (9) для супермодели Тьюки в виде суперпозиции нормальных распределений с (16) для трех моделей: Модель 1 - без выбросов (БВ): . Модель 2 - асимметричные удаленные выбросы (АВ1): . Модель 3 - асимметричные внутренние выбросы (АВ2): Для всех моделей находились средние квадратические ошибки (СКО) ( ) эффективных оценок максимального правдоподобия и СКО ( ) адаптивных оценок при N = 100, M = 1000 - число итераций моделирования, и определялась потенциальная эффективность адаптивной оценки : . Результаты моделирования представлены в таблице. На рис. 1 приводятся результаты моделирования по одной реализации для модели 2 (АВ1): - а; - б. Потенциальная эффективность Е* адаптивной оценки Модель БВ АВ1 АВ2 Е* 1 0.98 0.97 Рис. 1. Модель 2 (АВ1): а) кр. 1 - оценка с нормальным ядром (14), кр. 2 - плотность распределения ; б) весовая функция кр. 1 - адаптивная оценка, кр. 2 - оптимальная оценка На рис. 2 приводятся результаты моделирования по одной реализации для модели 3 (АВ2): - а; - б. Рис. 1, б и 2, б наглядно подтверждают результаты п. 3. Рис. 2. Модель 3 (АВ2): а) кр. 1 - оценка с нормальным ядром (14), кр. 2 - плотность распределения ; б) весовая функция кр. 1 - адаптивная оценка, кр. 2 - оптимальная оценка 4. Семинепараметрические робастные оценки Рассмотрим задачи, представляющие класс задач робастной статистики при неизвестной информации как об априорном распределении , так и о выбросах - семинепараметрические задачи [6, 9, 16, 17]. Традиционно в качестве неизвестных параметров в этом случае выступают параметры сдвига и масштаба. В реальной практике исследователь, исходя из физической сущности задачи и предварительного статистического анализа, выдвигает априорные гипотезы общего характера о виде модели распределения (непрерывность, унимодальность, симметрия, ограниченность и так далее). Учет такой дополнительной априорной информации позволяет синтезировать непараметрические оценки функционалов с улучшенными свойствами [22-25]. Пусть априори известно, что - непрерывная функция, удовлетворяющая условиям (17) где функции известны. Обозначим , и допустим, что образуемая ими матрица не вырождена. Задание априорной информации в виде (17) позволяет учесть широкий спектр информации о как количественного, так и качественного характера [23]. Для построения непараметрической оценки плотности с учетом априорной информации (17) рассмотрим сглаженную модифицированную эмпирическую функцию распределения [23, 24]. Она оценивает распределение на непараметрическом классе распределений с учетом (17) по выборке из распределения . Продифференцируем ее по х, в результате получим модифицированную оценку плотности Розенблатта - Парзена . (18) Оценка является асимптотически несмещенной, состоятельной и имеет асимптотически нормальное распределение [23-25]. Для нахождения адаптивной оценки ОМП определим оценочное уравнение (2) в виде , (19) где оценочная функция равна , (20) - функция вклада ОМП для , - весовая функция: , (21) и - непараметрическая оценка плотности Розенблатта - Парзена (12). Выражения (19) - (21) определяют адаптивную непараметрическую оценку (АНО) ВММП. Учитывая ряд условий [23-25], из теорем непрерывности [18, 21] следует сходимость по вероятности и . Математический анализ адаптивных оценок АНО выходит за рамки данной работы, отметим только, что порядок сходимости дисперсии оценки АНО в отличие от оценки АОМП и от ОМП из (8), где . Рассмотрим задачу оценивания параметра сдвига при условии, что - симметричная функция относительно параметра сдвига . Модифицированная оценка плотности примет вид [6] . Оценочное уравнение (19) при нормальной ядерной функции принимает следующий вид: , где - полусуммы Уолша. Оценка АНО находится итерациями. 5. Обработка результатов мини-содарных измерений компонент скорости ветра в АПС Полученные оценки (13), (14) использовались для обработки данных доплеровского мини-содара AV4000. Рабочая частота содара 4900 Гц, длительность импульса излучения 60 мс, период повторения импульсов 4 с. Излучение последовательно посылалось в трех направлениях - вертикально вверх и под углами 18 к вертикали в двух взаимно ортогональных плоскостях. Анализировались данные измерений трех компонентов скорости ветра в 43 высотных стробах вертикальной протяженностью 5 м в диапазоне высот 5-200 м. Обрабатывались серии из N = 150 профилей, что обеспечивало усреднение за 10-минутный период измерения [26]. На рис. 3 приведены классические оценки (пунктирные кривые) и семипараметрические оценки (сплошные кривые) высотного профиля у-компоненты скорости ветра и ее дисперсии, построенные по результатам мини-содарных измерений в утренние часы с 08:00 до 08:10 местного времени, которые подтверждают эффективность предложенного алгоритма. Видно, что предложенный алгоритм обеспечивает существенно меньшие значения дисперсии оценки на больших высотах. Предложенный метод был использован для анализа суточных вариаций средних значений и дисперсий высотных профилей х-, у-, z-компонент скорости ветра в АПС по результатам мини-содарных измерений в утренние (с 08:00 до 08:10 местного времени), дневные (с 14:00 до 14:10), вечерние (с 19:00 до 19:10) и ночные часы (с 00:00 до 00:10). На рис. 4 представлены семипараметрические оценки суточных вариаций вертикальных профилей у-компоненты скорости ветра и ее дисперсии. Рис. 3. Высотные профили у-компоненты скорости ветра (а) и ее дисперсии (б) - вечер (с 19:00 до 19:10): пунктирные кривые - классические оценки; сплошные кривые - семипараметрические оценки (13), (14) Рис. 4. Полупараметрические оценки суточных вариаций вертикальных профилей у-компоненты скорости ветра (а) и ее дисперсий (б) Выводы В работе предложен взвешенный метод максимального правдоподобия, который позволяет синтезировать адаптивные асимптотически несмещенные и эффективные оценки параметров для неоднородной выборки в условиях непараметрической неопределенности. Показана сходимость полученных оценок к ОМП для супермодели Тьюки. Моделирование на ЭВМ показало высокую эффективность оценок ВММП. Семипараметрические оценки ВММП были использованы для обработки данных доплеровского мини-содара AV4000 для нахождения средних и дисперсий вертикальных профилей компонент скорости ветра. На рис. 3 представлены результаты сравнения оценок ВММП и традиционных оценок средних и дисперсий вертикального профиля y-компоненты скорости ветра, которые демонстрируют эффективность предложенного алгоритма.

Ключевые слова

статистическая обработка данных физического эксперимента, неоднородные экспериментальные данные, робастные семипараметрические и семинепараметрические оценки

Авторы

ФИООрганизацияДополнительноE-mail
Симахин Валерий АнаньевичКурганский государственный университетк.ф.-м.н., профессор КГУsva_full@mail.ru
Шаманаева Людмила ГригорьевнаИнститут оптики атмосферы им. В.Е. Зуева СО РАН; Национальный исследовательский Томский государственный университетк.ф.-м.н., ст. науч. сотр. ИОА им. В.Е. Зуева СО РАН, доцент НИ ТГУsima@iao.ru
Авдюшина Анна ЕвгеньевнаНациональный исследовательский государственный университет «ИТМО»магистрантка ИТМОavdushina98@gmail.com
Всего: 3

Ссылки

Федоров В.А. // Оптика атмосферы и океана. - 2003. - Т. 16. - № 02. - С. 151-155.
Muthukrishnan R. and Poonkuzhali G. // Am.-Eur. J. Sci. Res. - 2017. - V. 12. - No. 3. - P. 161-171.
Cимахин В.А., Черепанов О.С., Шаманаева Л.Г. // Изв. вузов. Физика. - 2015. - Т. 58. - № 12. - C. 176-181.
Хьюбер П. Робастность в статистике. - М.: Мир, 1984. - 303 с.
Хампель Ф., Рончетти Э., Рауссеу П., Штаэль В. Робастность в статистике. - М.: Мир, 1989. - 512 с.
Симахин В.А. Робастные непараметрические оценки. - LAMBERT Academic Publishing, 2011. - 292 с.
Шурыгин А.М. Прикладная статистика. Робастность. Оценивание. Прогноз. - М.: Финансы и статистика, 2000. - 223 с.
Цыпкин Я.З. Основы информационной теории идентификации. - М.: Наука, 1995. - 336 с.
Шуленин В.П. Робастные методы математической статистики. - Томск: Изд-во НТЛ, 2016. - 260 с.
Hogg R.V. // Comm. Statist. - 1982. - V. 11. - P. 2531-2542.
Markatou M., Basu A., and Lindsay B.G. // J. Am. Statist. Ass. - 1998. - V. 57. - P. 740-750.
Agostinelli C. // Stat. Probab. Lett. - 2006. - V. 76. - P. 1930-1934
Lindsay B.G. // Ann. Statist. - 1994. - V. 22. - P. 1018-1114.
Park C., Basu A., and Lindsay B.G. // Comput. Statist. Data Anal. - 2002. - V. 39. - P. 21-33.
Jaeckel L.A. // Ann. Math. Statist. - 1971. - V. 42. - P. 1020-1034.
Stone C.J. // Ann. Statist. - 1975. - V. 3. - No. 2. - P. 267-284.
Beran R. // Ann. Statist. - 1978. - V. 6. - P. 292-313.
Боровков А.А. Математическая статистика. - Новосибирск: Наука, 1997. - 772 с.
Симахин В.А., Шаманаева Л.Г., Авдюшина А.Е. // Изв. вузов. Физика. - 2020. - Т. 62. - № 9. - C. 176-181.
Деврой Л., Дьёрфи Л. Непараметрическое оценивание плотности. L1-подход. - М.: Мир, 1988. - 407 с.
Добровидов А.В., Кошкин Г.М. Непараметрическое оценивание сигналов. - М.: Наука, 1997. - 334 с.
Тюрин Ю.Н. // Ученые записки по статистике. - М.: Наука, 1974. - Т. 26. - С. 7-24.
Дмитриев Ю.Г. // Математическая статистика и ее приложения. - Томск: Изд-во ТГУ, 1987. - Вып. 11. - С. 39-46.
Дмитриев Ю.Г., Кошкин Г.М. // Автомат и телемех. - 1987 - № 10. - С. 47-59.
Dmitriev Y.G. and Koshkin G.M. // Statist. Papers. - 2018. - V. 59. - No. 4. - P. 1559-1575.
Bradley S. Atmospheric Acoustic Remote Sensing. - Boca Raton; London; New York: CRC Press. Taylor & Fransis Group, 2008. - 256 p.
 Робастные семипараметрические и семинепараметрические оценки для неоднородных экспериментальных данных | Известия вузов. Физика. 2021. № 2. DOI: 10.17223/00213411/64/2/149

Робастные семипараметрические и семинепараметрические оценки для неоднородных экспериментальных данных | Известия вузов. Физика. 2021. № 2. DOI: 10.17223/00213411/64/2/149