Исследование метода выбора оптимального параметра сглаживания при непараметрическом оценивании регрессионных моделей надежности | Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2014. № 2(27).

Исследование метода выбора оптимального параметра сглаживания при непараметрическом оценивании регрессионных моделей надежности

Рассматривается один из популярных подходов к непараметрическому оцениванию регрессионной модели надежности, предложенный Р. Бераном, позволяющий оценить условную функцию надёжности при заданном значении объясняющей переменной. Представлены результаты исследования статистических свойств оценки Берана на основе предложенного метода выбора оптимального параметра сглаживания. Выявлены факторы, влияющие на точность оценки Берана, и сформулированы рекомендации по применению предложенного метода выбора оптимального параметра сглаживания.

The research of optimal choice method of bandwidth parameter for nonparametric estimation of reliability regression models.pdf Одной из важнейших задач в теории надежности является построение модели зависимости функции надежности от объясняющих переменных (ковариат), в качестве которых обычно выступают воздействия различного типа, такие как температура, давление, напряжение, механические нагрузки и др. На сегодняшний день существует широкий спектр методов, позволяющих решать данную задачу, отличающихся друг от друга спецификой используемых данных, видом привлекаемой априорной информации и степенью точности получаемых результатов. В последнее время большую популярность завоевали непараметрические методы, которые не требуют знания априорной информации о виде регрессионной функции и законе распределения результатов измерений. Однако в большинстве пакетов прикладных программ статистического анализа данных для решения задачи непараметрического оценивания функции надежности привлекаются лишь оценки Каплана - Мейера, которые не позволяются учесть влияние объясняющих переменных на изменение функции надежности. В этом смысле представляются актуальными разработка и развитие более широкого класса методов, учитывающих влияние ковариат. К таким методам относится предложенное в 1981 г. Р. Бераном обобщение оценки Каплана - Мейера на случай построения регрессионных моделей надежности [1]. Несмотря на преимущества оценки Берана как непараметрического метода [8], до сих пор существует весьма ограниченное число публикаций, посвященных исследованию статистических свойств данной оценки, среди которых можно выделить работы [2-5], в которых эти свойства изучаются для случайного плана эксперимента, когда значение ковариаты не фиксировано, а в [6] рассматриваются свойства оценки для неслучайного плана, когда значения ковариаты определяются заранее. Важнейшую роль при построении непараметрических оценок играет выбор параметра сглаживания, от которого существенно зависит точность получаемых оценок. В случае оценивания классических регрессионных моделей разработано множество методов определения оптимальных значений параметра сглаживания, таких как метод кросс-валидации, метод минимума интегральной средне-квадратической ошибки, методы асимптотической оценки и др. [7, 8]. Применяя тот или иной метод выбора оптимального параметра сглаживания, важно понимать, что смысловая интерпретация этого параметра в оценке Берана существенно отличается от его интерпретации для классических моделей регрессии, поскольку на его основе могут быть получены лишь весовые коэффициенты, которые впоследствии используются при построении оценки. Среди публикаций на эту тему можно отметить [9], где предлагается решение данной задачи при помощи бутстреп-метода в предположении, что ковари-ата является случайной величиной и определяется некоторым законом распределения. Однако для теории надёжности такой вариант совершенно не характерен, поскольку трудно представить ситуацию, в которой объясняющие переменные имеют стохастическую природу. Преодоление этой проблемы представляет собой отдельную тему исследований, некоторые направления которых были упомянуты в предыдущих работах авторов [5, 9]. В частности, в [10] предложен метод выбора оптимального параметра сглаживания для оценки Берана, основанный на минимизации среднеквадрати-ческого отклонения времен отказов от непараметрической оценки обратной функции надежности. Выяснено, что оценки Берана, построенные с использованием оптимального параметра сглаживания, оказались точнее, чем для фиксированного значения параметра сглаживания. Тем не менее вопросы о выборе вида ядерной функции, метода определения параметра размытости для непараметрической оценки обратной функции надёжности и типа весовых коэффициентов требуют проведения дополнительных исследований. Целью данной работы являются изучение статистических свойств оценки Берана и разработка практических рекомендаций по применению предложенного метода выбора оптимального параметра сглаживания. 1. Непараметрическая оценка Берана и выбор оптимального параметра сглаживания Обозначим через Tx время безотказной работы исследуемых технических изделий, которое зависит от скалярной ковариаты x , диапазон значений которой определяется условиями эксперимента и представляет собой отрезок числовой прямой. Без потери общности будем считать этот отрезок равным [0;1]. Функция надежности определяется соотношением S(t|x) = P(TX > t) = 1 - F (t | x), (1) где F(t \ x) - условная функция распределения случайной величины Tx . Главной особенностью данных типа времени жизни является наличие цензурированных справа наблюдений, которые можно представить в виде (У^Д),^, x2A),...,(Yn, xn ,8 n ), где п - объем выборки, x t - значение ковариаты для /-го объекта, Y, - время наработки до момента отказа или цензурирования, 8 t - индикатор цензурирования, который принимает значение 1, если наблюдение полное, и 0, если цензурированное. Оценка Берана, согласно [1], имеет следующий вид: W (x; hn) (2) У(/) и 1-T~=W1 (x; hn) \ (\x)= П^1 ---т где x - значение ковариаты, для которой оценивается функция надёжности; Wn (x;hn),/ = 1,...,n, - веса Надарая - Уотсона, которые [5, 8] определяются как Wn (x;hn ) = K V где K ( ) - ядерная функция, удовлетворяющая условиям регулярности да K(y) = K(-y), 0 < K(y) < да , J K(y)dy = 1 , -да hn > 0 - параметр сглаживания такой, что lim hn = 0, lim nhn = да . (^ / n ( v - vA x-xj x - xi V hn J V hn J (3) В [10] предложен алгоритм выбора оптимального параметра сглаживания hn для оценки Бера-на, основанный на минимизации среднеквадратического отклонения времен отказов Yi,Y2,...,Yn от непараметрической оценки обратной функции надежности S-1 (p) . В данной работе будем определять значения оптимального параметра как решение следующей оптимизационной задачи: hT = argmin£5,-\g(p^x,)-Y,\ , (4) hn i=1 где g(pilx)=£юJ (p,)• Yj . (5) j=1 Вероятности p, вычисляются с использованием оценки Берана, веса юj (p,) можно рассчитать, используя различные весовые функции. Далее будем рассматривать веса первого порядка Надарая -Уотсона «J1} (p)=W (р, b) =K {^ 1/ £ K (pi - pk 1 V bn k=1 v bn и веса второго порядка Пристли - Чао [1]: 1 ю(2) (p, ) = n (( - Pic )K [PL-* V bn У где bn - параметр размытости. Таким образом, для вычисления оптимального параметра сглаживания для оценки Берана необходимы непараметрические оценки вида (5), для которых, в свою очередь, нужно выбирать параметр bn. 2. Выбор весовой функции, способа вычисления параметра bn и ядерных функций Исследуем статистические свойства оценки Берана при использовании оптимального параметра сглаживания (4). Очевидно, что то, насколько хорошо будет подобран оптимальный параметр сглаживания hOpt, напрямую зависит от качества получаемых оценок (5). Сравним различные веса ю j (p,) для ядерной оценки g(pt | xt), а также различные методы выбора параметра размытости bn с точки зрения точности получаемых оценок Берана. Поскольку рассматривается задача, предполагающая использование ядерного сглаживания, можно воспользоваться уже разработанными подходами для выбора оптимального параметра сглаживания ядерной оценки регрессии. Рассмотрим следующие методы: 1. Метод кросс-валидации, который чаще всего рассматривается как наиболее точный, однако требующий значительных вычислительных затрат [8]. 2. Метод минимума средней интегральной ошибки, в соответствии с которым параметр размытости вычисляется по формуле [8]: 15 (6) bNS = 8л1/2 R( K) 3ц2( K )2 n где M2(K) = {y2K(y)dy, R(K) = JK2(y)dy. Величина a - оценка среднеквадратического отклонения, которую можно вычислять различными способами, чаще всего для этого применяется несмещенная выборочная дисперсия --г Z (Л - р )2. n -1/=1V ' а2 =- (7) Однако оценка (7), во-первых, не является робастной, а во-вторых, обладает «хорошими» статистическими свойствами лишь в случае законов распределения, близких к нормальному. Поэтому в данной работе будем также рассматривать робастную оценку среднеквадратического отклонения вида [11]: ( pj + pk Л ^robust = 1,4826med i=1...n med j=1...n, k=j+1...n (8) p, Такая оценка представляет собой комбинацию известной робастной оценки Ходжеса - Леманна (Hodges - Lehmann) для параметра сдвига и робастной оценки Русьё (Rousseeuw), называемой медианой абсолютных отклонений, для параметра масштаба. Исследование свойств получаемых оценок проводилось с помощью методов статического моделирования. В качестве отклонения оценки Берана от истинной условной функции надёжности использовалась статистика: SK (t | x.) - SXt (t) (9) D = sup j=1...k, t

Ключевые слова

функция надёжности, регрессионная модель, непараметрическая оценка Берана, параметр сглаживания, параметр размытости, робастное оценивание, reliability function, regression model, nonparametric Beran estimator, bandwidth parameter, smoothing parameter, robust estimation

Авторы

ФИООрганизацияДополнительноE-mail
Дёмин Виктор АндреевичНовосибирский государственный технический университетаспирант кафедры прикладной математикиvicdemin@gmail.com
Чимитова Екатерина ВладимировнаНовосибирский государственный технический университеткандидат технических наук, доцент кафедры прикладной математикиekaterina.chimitova@gmail.com
Щеколдин Владислав ЮрьевичНовосибирский государственный технический университеткандидат технических наук, доцент кафедры теории рынкаraix@mail.ru
Всего: 3

Ссылки

Beran R. Nonparametic regression with randomly censored survival data // Technical report. Department of Statistics. Berkeley : University of California, 1981.
Dabrowska D.M. Nonparametric quantile regression with censored data // Sankhya Ser. A. 1992. V. 54. P. 252-259.
Gonzalez M.W., Cadarso S.C. Asymptotic properties of a generalized Kaplan-Meier estimator with some application // J. Nonparametric Statistics. 1994. No. 4. P. 65-78.
McKeague I. W., Utikal K.J. Inference for a nonlinear counting process regression model // Ann. Statist. 1990. V. 18. P. 1172-1187.
Van Keilegom I., AkritasM.G., Veraverbeke N. Estimation of the conditional distribution in regression with censored data: a comparative study // Computational Statistics & Data Analysis. 2001. V. 35. P. 487-500.
Akritas M.G. Nearest neighbor estimation of a bivariate distribution under random censoring// Ann. Statist. 1994. V. 22. P. 1299-1327.
Расин Д. Непараметрическая эконометрика: вводный курс // Квантиль. 2008. № 4. С. 7-26.
Хардле В. Прикладная непараметрическая регрессия. М. : Мир, 1993. 349 с.
Gang L., Somnath D. A bootstrap approach to nonparametric regression for right censored data // Technical report #99-8. 1999. P. 6-10.
Демин В.А., Чимитова Е.В. Выбор оптимального параметра сглаживания для непараметрической оценки регрессионной модели надежности // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2013. № 1(22). С. 59-65.
Rousseeuw P.J., Verboven S. Robust estimation in very small samples // Journal Computational Statistics & Data Analysis. 2002. V. 40(4). P. 741-758.
Кошкин Г.А. Основы страховой математики : учеб. пособие. Томск : Томский государственный университет, 2002. 116 с.
 Исследование метода выбора оптимального параметра сглаживания при непараметрическом оценивании регрессионных моделей надежности | Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2014. № 2(27).

Исследование метода выбора оптимального параметра сглаживания при непараметрическом оценивании регрессионных моделей надежности | Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2014. № 2(27).