Рассмотрен метод построения состоятельных и эффективных алгоритмов робастных параметрических датчиков случайных величин для задач статистического моделирования и бутстреп-процедур. Проведено исследование состоятельности и эффективности стандартных и робастных датчиков в условиях асимметричных и симметричных выбросов. На примерах показано, что в условиях неоднородных выборок стандартные параметрические датчики случайных величин не состоятельны, их использование может существенно и непредсказуемо исказить результаты моделирования и процедур принятия решений. Показано, что при наличии выбросов робастные датчики по эффективности могут значительно превосходить стандартные параметрические датчики случайных величин, особенно в ситуациях с асимметричными выбросами.
Robust parametrical generators of random variables.pdf Введение С появлением высокопроизводительных и доступных средств вычислительной техники появилась возможность моделирования методами Монте-Карло сложных систем и решения задач, недоступных для аналитического рассмотрения [1-7]. В них важнейшим элементом математической модели системы являются программы-генераторы (датчики) псевдослучайных чисел (процессов) [1]. В настоящее время любая программная среда, претендующая на роль популярной, обязательно содержит развитое программное обеспечение датчиков (ПОД) случайных чисел. В системе ПОД широко представлены параметрические датчики при условии, что вид распределения случайной величины Х известен с точностью до параметра . Если неизвестен, то по выборке производится его оценка и настройка датчика путем подстановки вместо неизвестного оценки . Потребность знать свойства статистических процедур при конечных объемах выборки с помощью методов Монте-Карло породила бутстреп, основой которого являются параметрические, а при неизвестном распределении - непараметрические датчики случайных величин [4, 5]. При их создании широко применяются параметрические и непараметрические методы математической статистики для нахождения несмещенных, состоятельных и эффективных оценок параметров на основе экспериментальных данных. В то же время исследователям известна проблема появления в экспериментальных данных аномальных наблюдений (выбросов). Стандартные методы обработки неоднородных выборок могут приводить к значительным смещениям и низкой эффективности оценок параметров. Это существенно искажает результаты процедур принятия решений [6-9]. Многовековой подход, выработанный экспериментаторами, связан с «очисткой» выборки от выбросов, но для его объективного применения требуются непараметрические критерии обнаружения выбросов, при создании которых возникают существенные проблемы [10]. Появление робастной статистики переориентировало задачу цензурирования выборки в задачу синтеза процедур, устойчивых к появлению выбросов [8, 9, 11]. Робастные параметрические и непараметрические датчики незначительно представлены в системе ПОД, хотя практика моделирования реальных задач говорит об обратном. Действительно, пусть наблюдается случайная величина Х с распределением Интерес представляет датчик для априорного распределения с неизвестным параметром на фоне выбросов с неизвестной долей и распределением . Оценка максимального правдоподобия (ОМП) для по выборке из распределения приводит к смещенной и несостоятельной оценке параметра для распределения В непараметрическом случае эмпирическая функция распределения (ЭФР) является несмещенной и состоятельной оценкой , но смещенной и несостоятельной оценкой для . Использование датчиков из системы ПОД на таких оценках будет приводить к непредсказуемым результатам и выводам при моделировании сложных систем, которые характеризуются наличием большого числа датчиков и сложными взаимосвязями между элементами моделируемой системы. Например, при моделировании на надежность и долговечность системы газопроводов даже простой визуальный анализ многочисленных распределений температуры и давления показывает наличие многочисленных и разнообразных выбросов [3]. Учет влияния выбросов возможно проследить на примере обработки экспериментальных данных доплеровского акустического локатора (содара) для пространственно-временной динамики скорости ветра в атмосферном пограничном слое атмосферы. Распределения компонент скорости ветра на различных высотах характеризуются наличием разнообразных выбросов [7]. Обработка данных традиционными и робастными непараметрическими методами продемонстрировала, что эффективность классических непараметрических методов обработки по сравнению с робастными может быть чрезвычайно низкой (в ряде случаев ≈ 5 %) [7]. Данные примеры показывают важность и актуальность введения робастных датчиков с распределениями, зависящими от различной априорной статистической неопределенности задачи. В данной работе рассматриваются алгоритмы построения робастных параметрических датчиков случайных чисел для априорного распределения при наличии выбросов. По уровню априорной статистической неопределенности данный класс задач относится к семипараметрическим задачам математической статистики [10]. Для построения робастных датчиков используются оценки параметров на основе взвешенного метода максимального правдоподобия (ВММП) для неоднородных экспериментальных данных [12]. Робастные оценки на основе ВММП позволяют построить несмещенные, состоятельные и эффективные алгоритмы для параметрических датчиков случайных величин в условиях неоднородных экспериментальных данных. Рассмотрены примеры построения робастных датчиков случайных чисел. Несомненный интерес представляют также вопросы исследования эффективности стандартных параметрических датчиков из системы ПОД в условиях неоднородных выборок. В связи с этим проведено исследование состоятельности и эффективности стандартных и робастных датчиков в условиях асимметричных и симметричных выбросов. На примерах доказано, что в условиях неоднородных выборок, стандартные параметрические датчики случайных величин несостоятельны и могут непредсказуемо исказить результаты моделирования. Показано, что робастные датчики по эффективности значительно превосходят стандартные параметрические датчики случайных величин, особенно в ситуациях с асимметричными выбросами. 1. Постановка задачи. Алгоритм датчика Пусть - выборка независимых и одинаково распределенных (НОР) случайных величин с функцией распределения (ф.р.) , где - класс распределений, удовлетворяющих условиям регулярности метода максимального правдоподобия (ММП) [13, 14]. В дальнейшем будем рассматривать , где , - класс распределений Тьюки (супермодель) , (1.1) - априорная модель ф.р.; - распределение выбросов; - доля выбросов; - информация о выбросах; - соответствующие плотности распределений; - вектор неизвестных параметров распределения. Супермодель Тьюки используется в качестве удобной модели реальных распределений , которые можно считать приближенно совпадающими с априорным распределением [8-10]. Рассмотрим задачу построения датчика случайных чисел для априорного распределения по неоднородной выборке из распределения . Для этого воспользуемся классическим методом генерирования случайных величин с помощью обратного преобразования в виде , где , - реализация равномерных на [0, 1] случайных величин [1]. Следовательно, генерация выборочного значения из распределения сводится к нахождению квантиля уровня распределения . В качестве состоятельной оценки квантиля уровня p (0 < p < 1) ф.р. возьмем решение эмпирического уравнения : , (1.2) где - состоятельная, несмещенная (асимптотически несмещенная) оценка . Для нахождения оценки из (1.2) используются различные рекуррентные алгоритмы стохастической аппроксимации. В дальнейшем ограничимся достаточно общим классом асимптотически нормальных оценок , т.е. предположим, что случайная величина имеет асимптотически нормальное распределение с нулевым средним и дисперсией . (1.3) Используя приращение Лагранжа, представим (1.2) в виде . (1.4) Теорема 1.1. Если и из (1.3) - непрерывная функция от , то , где . (1.5) Доказательство следует из представления (1.4) и теорем непрерывности ([13], § 1.5; [14], § 3.5). В дальнейшем ссылка на параграфы не указывается. Пусть - робастная, несмещенная, состоятельная оценка и квантиль распределения имеет единственное решение. На основе метода подстановки [10, 13] в качестве возьмем , а робастную оценку для квантиля ф.р. определим в виде . В результате получаем следующий алгоритм робастного датчика: . (1.6) Задачи и методы нахождения оценки и соответственно оценки квантиля зависят от априорной информации о множестве , каждый элемент которого определяется через априорную информацию о и информацию о выбросах . В математической модели (1.1) могут участвовать как параметрические, так и непараметрические модели ф.р., а также их суперпозиции - семипараметрические и семинепараметрические модели. В параметрических моделях вид ф.р. известен с точностью до конечного числа неизвестных параметров, в непараметрических моделях вид ф.р. неизвестен. На основе априорной информации о множестве выделим следующие постановки задач для супермодели (1.1). 1. Параметрическая задача - параметрический класс, т.е. , - параметрические классы, информация относительно известна. 2. Семипараметрическая задача - семипараметрический класс, - параметрический класс, - непараметрический класс, информация относительно неизвестна. 3. Непараметрическая задача - непараметрический класс, - непараметрический класс при некоторой дополнительной информации относительно . 4. Семинепараметрическая задача - семинепараметрический класс ф.р., - непараметрический класс ф.р. при некоторой дополнительной информации относительно , - непараметрический класс, информация относительно неизвестна. 2. Робастные параметрические датчики Рассмотрим задачу построения робастного параметрического датчика для в супермодели (1.1) ( ) при параметрическом уровне априорной неопределенности. Пусть - выборка НОР случайных величин с ф.р. , , , ( , , ) - параметрические классы, информация относительно известна. Параметрические задачи в случае однородной выборки ( ) достаточно изучены. Именно такие датчики в основном присутствуют в системе ПОД. В качестве робастной оценки квантиля распределения возьмем решение эмпирического уравнения вида или , (2.1) где - несмещенная (асимптотически несмещенная) и состоятельная оценка по распределению и выборке из распределения . Теорема 2.1. Пусть - непрерывная функция по и имеет асимптотически нормальное распределение , где B - ковариационная матрица , тогда , (2.2) где ; (2.3) . (2.4) Доказательство. Применяя теорему о конечных приращениях, представим в виде . (2.5) Доказательство следует из теорем непрерывности [13, 14]. Обозначим через оператор усреднения по распределению . Теорема 2.2. Если , , - ОМП при , то 1) ; 2) состоятельная оценка для распределения ; 3) имеет асимптотически нормальное распределение с нулевым вектором средних и ковариационной матрицей , где , (2.6) , . Доказательство. Применяя многомерный аналог ММП по выборке из , находим ОМП для из системы оценочных уравнений [13, 14] . (2.7) При этом имеет асимптотически нормальное распределение с нулевым вектором средних и ковариационной матрицей , где . (2.8) Из доказательства по ММП и представления для ОМП [13, 14] следует , при этом условие несмещенности ОМП сводится к . (2.9) Рассмотрим уравнения (2.7) и выражения (2.8), (2.9) при условиях, что определяется супермоделью (1.1), , . Система оценочных уравнений (2.7) в этом случае преобразуется к виду , (2.10) где - функция вклада для и - весовая функция, . (2.11) Так как выполняются условия регулярности ММП, то условие несмещенности оценок (2.9) можно преобразовать к виду В результате получаем . Следовательно, ОМП является несмещенной оценкой для распределения . Рассмотрим выражения (2.8): . В результате получаем . В соответствии с выражениями (2.6), (2.10), (2.11) имеет место взвешенный метод максимального правдоподобия относительно априорного распределения . Теорема доказана. В вычислительном плане, особенно для ф.р. с неограниченным носителем и U-образных распределений, более удобными являются весовые функции вида [14] , (2.12) где - константа, определяемая пользователем и Алгоритм (2.1), (2.10) - (2.12) получения датчиков на основе ВММП позволяет находить робастные эффективные оценки квантилей распределения параметрической супермодели Тьюки (1.1) при выбросах с известной параметрической ф.р. Окончательно получаем следующий алгоритм робастного эффективного параметрического датчика случайных чисел для распределения по неоднородной выборке из распределения : , (2.13) где - равномерные на [0, 1] случайные величины, причем робастные эффективные оценки находятся из системы оценочных уравнений ; (2.14) ; (2.15) . (2.16) 3. Примеры робастных параметрических датчиков Рассмотрим алгоритмы робастных параметрических датчиков для ряда типовых распределений . Несомненный интерес представляют вопросы исследования эффективности стандартных параметрических датчиков из системы ПОД в условиях неоднородной выборки из распределения . Исследование датчиков сводится к рассмотрению различных оценок квантиля распределения, так как алгоритмы датчиков определяются через оценки квантилей. Обозначим через и значения квантилей уровня p ф.р. и - истинные параметры. Пусть имеется две оценки квантиля: стандартная , синтезированная при , и робастная . Сравнение оценок проводится по критерию асимптотической относительной эффективности [9, 13] (3.1) где - средняя квадратическая ошибка (СКО) оценки квантиля , - смещение и - дисперсия оценки по распределению L. При стандартная, , и робастная, , оценки совпадают, и . В дальнейшем в основном рассматривается вариант . Пример 3.1. Требуется построить датчик случайных чисел для экспоненциальной случайной величины Х с распределением (3.2) где - неизвестный параметр. Стандартный алгоритм ( ) для датчика экспоненциальной случайной величины [1] (3.3) где ОМП равно . (3.4) Для робастного датчика в соответствии с (2.13) - (2.16) получаем алгоритм ; (3.5) (3.6) Обозначим . При для распределения (3.2) последовательно получаем При для распределения последовательно получаем , , , , , . Рассмотрим робастную оценку квантиля . Из уравнения (3.6) находим робастную оценку параметра Из теоремы 2.2 следует . Следовательно, , , . Рассмотрим пример супермодели для : . Результаты исследования приведены в табл. 3.1-3.4. Таблица 3.1 Значения квантилей , и оценок , в зависимости от р для p = 0.55 0.80 0.80 1.28 0.94 p = 0.75 1.39 1.39 2.23 1.79 p = 0.95 3.00 3.00 4.81 4.92 Таблица 3.2 Эффективность в зависимости от р и для / 0.90 0.66 0.31 0.16 0.08 1.39 0.66 0.31 0.16 0.09 3.00 0.66 0.31 0.16 0.09 Таблица 3.3 Значения , смещения и СКО оценки квантиля в зависимости от для = 3 = 5 = 7 = 10 1.84 2.23 2.62 3.21 0.45 0.84 1.23 1.82 СКО 2.86 2.90 11.74 24.11 Таблица 3.4 Значения , смещения и СКО оценки квантиля в зависимости от для = 0 = 0.05 = 0.1 = 0.2 1.39 2. 30 3.21 5.03 0 0.91 1.82 3.64 СКО 1.92 12.91 24.11 45.54 Пример 3.2. Пусть Х - случайная величина с распределением Вейбулла: , (3.7) , где - неизвестный параметр. Стандартный алгоритм ( ) для датчика с распределением Вейбулла [1, 2] имеет вид (3.8) где и ОМП определена как . (3.9) Для робастного датчика ( ) в соответствии с (2.13) - (2.16) (3.10) (3.11) . (3.12) Обозначим При распределении L статистика - состоятельная, асимптотически нормальная непараметрическая оценка начального момента -порядка c нулевым средним и дисперсией [14] . Исходя из теоремы непрерывности [13, 14], для статистики получаем , (3.13) где . При с учетом (3.13) и того, что для распределения Вейбулла , где - гамма-функция, получаем , . При для распределения с учетом (3.13) получаем , . При . Для робастной оценки квантиля из уравнения (3.11) находится робастная оценка параметра , а из теоремы 2.2 с учетом (3.13) следует , , , , . Рассмотрим пример супермодели для . Результаты исследования приведены в табл. 3.5-3.7. Таблица 3.5 Эффективность в зависимости от р и для / 0.33 0.44 0.16 0.07 0.03 0.60 0.44 0.16 0.07 0.03 0.83 0.44 0.16 0.07 0.03 1.18 0.44 0.16 0.07 0.03 Таблица 3.6 Значения для , смещения и СКО оценки квантиля в зависимости от для 0.80 1.10 1.44 1.97 0.21 0.51 0.84 1.38 СКО 0.20 0.17 1.23 2.86 Таблица 3.7 Значения , смещения и СКО оценки квантиля в зависимости от для 0.60 1. 46 1.97 2.72 0 0.86 1.38 2.13 СКО 0.09 1.27 2.86 6.38 Пример 3.3. Пусть Х - случайная величина с нормальным распределением и . (3.14) Стандартный алгоритм ( ) для датчика с нормальным распределением , (3.15) где - случайные числа из стандартного нормального распределения и , , . (3.16) Для робастного датчика ( ) в соответствии с (2.13) - (2.16) получаем алгоритм (3.17) (3.18) (3.19) Пусть - оценка квантиля для распределения и - квантиль уровня р стандартного нормального распределения . Рассмотрим пример супермодели для : . Результаты исследования приведены в табл. 3.8-3.10. Таблица 3.8 Эффективность в зависимости от р и при асимметричных выбросах для / -0.84 0.58 0.32 0.18 0.09 0.00 0.55 0.29 0.17 0.09 1.28 0.51 0.23 0.12 0.09 Таблица 3.9 Эффективность в зависимости от р и при симметричных выбросах для / -0.84 0.54 0.24 0.17 0.00 0.56 0.27 0.19 1,28 0,53 0,22 0,14 Таблица 3.10 Значения для , смещения и СКО оценки квантиля в зависимости от для -0.80 -1.00 -1.24 -1.65 0.04 -0.15 -0.40 -0.81 СКО 2.32 4.29 7.40 14.06 Заключение 1. В работе на основе ВММП синтезированы робастные эффективные параметрические датчики случайных величин (алгоритм (2.13) - (2.16)). 2. Эффективность робастных и стандартных датчиков из системы ПОД в случае отсутствия выбросов совпадает. 3. Робастные датчики являются эффективными, состоятельными и асимптотически несмещёнными для априорного распределения в случае присутствия выбросов. 4. В случае присутствия выбросов, алгоритмы стандартных датчиков из системы ПОД применять нельзя, так как они генерируют случайные числа из неопределенного распределения. Случайные числа не совпадают ни с из априорного распределения ни с из реального распределения при любых р (см. табл. 3.1). 5. При наличии выбросов эффективность стандартных датчиков из системы ПОД по отношению к робастным не зависит от р, но существенно зависит от параметров сдвига при асимметричных выбросах (см. табл. 3.2, 3.5, 3.8) и масштаба при симметричных выбросах (табл. 3.9). 6. При асимметричных и симметричных выбросах эффективность стандартных датчиков по отношению к робастным не зависит от р и стремится к нулю при увеличении параметров сдвига (табл. 3.2, 3.5, 3.8) и масштаба (табл. 3.9). 7. При асимметричных и симметричных выбросах стандартные датчики при любых р становятся несостоятельными по отношению к априорному распределению , возрастает смещение и СКО (табл. 3.3, 3.4, 3.6, 3.7, 3.10) при увеличении параметров сдвига (табл. 3.3, 3.4, 3.6, 3.7) и масштаба (табл. 3.10).
Ермаков С.М., Михайлов Г.А. Статистическое моделирование. - М.: Наука, 1982. - 296 с.
Павлов И.В. Статистические методы оценки надежности сложных систем по результатам испытаний. - М.: Сов. радио, 1982. - 168 с.
Сызранцев В.Н., Невелев Я.П., Голофаст С.Л. Расчет прочностной надежности изделий на основе методов непараметрической статистики. - Новосибирск: Наука, 2008. - 218 с.
Эфрон Б. Нетрадиционные методы многомерного статистического анализа. - М.: Финансы и статистика, 1998. - 263 с.
Davison A.C. and Hinkley D.V. Bootstrap Methods and Their Application. - Cambridge: Cambridge University Press, 1997. - 582 p.
Сызранцев В.Н., Голофаст С.Л., Маер А.В. // Изв. вузов. Нефть и газ. - 2012. - № 5. - С. 87- 92.
Симахин В.А., Черепанов О.С., Шаманаева Л.Г. // Изв. вузов. Физика. - 2015. - Т. 58. - № 12. - С. 176-181.
Хампель Ф., Рончетти Э., Рауссеу П., Штаэль В. Робастность в статистике. - М.: Мир, 1989. - 512 с.
Шуленин В.П., Робастные методы математической статистики. - Томск: Изд-во НТЛ, 2016. - 260 с.
Орлов А.И. // Зав. лаб. - 1992. - № 7. - С. 40-42.
Симахин В.А. Адаптивные оценки. - Курган: КГУ, 2019. - 240 с.
Симахин В.А., Шаманаева Л.Г., Авдюшина А.Е. // Изв. вузов. Физика. - 2020. - Т. 63. - № 9. - С. 55-62.
Боровков А.А. Математическая статистика. - Новосибирск: Наука, 1997. - 772 с.
Ивченко Г.И., Медведев Ю.И. Введение в математическую статистику. - М.: Изд-во ЛКИ, 2010. - 600 с.