Непараметрические критерии согласия в задачах проверки адекватности моделей надежности по цензурированным данным
В работе рассматриваются вопросы применения непараметрических критериев согласия типа Колмогорова, Крамера - Мизеса - Смирнова и Андерсона - Дарлинга при проверке адекватности моделей пропорциональных ин-тенсивностей Кокса и ускоренных испытаний на основе анализа выборок остатков. Предложен алгоритм корректного применения рассматриваемых непараметрических критериев в случае цензурированных данных, в том числе случайно цензурированных данных.
Nonparametric goodness-of-fit tests in testing adequacy of reliability models for right censored data.pdf Задачи, связанные с исследованием надежности, анализом выживаемости, в которых оперируют данными типа времени жизни, рассматриваются во многих областях науки и техники, в медицине, биологии, в актуарных расчетах и т.п. В инженерных расчетах это могут быть времена отказов некоторых приборов или технических систем. В медицине такие данные могут представлять собой время до изменения некоторых биохимических показателей, время до ремиссии после определенного вида лечения или время жизни пациентов. Целью подобных исследований является установление взаимосвязи между значениями факторов (ко-вариат) и вероятностью наступления исследуемого события в течение некоторого периода времени. Наиболее популярными моделями в теории надежности являются модель ускоренных испытаний (AFT-модель) [1, 2] и модель пропорциональных интенсивностей Кокса [3]. Несмотря на рост числа серьезных публикаций, имеется множество подводных камней, связанных с построением таких моделей, с вычислением оценок параметров моделей по цензурированным данным в условиях, как правило, небольших объемов выборок, а главное, существуют проблемы с проверкой адекватности построенных моделей. Основным подходом к проверке согласия с регрессионными моделями надежности является подход, основанный на анализе распределения так называемых остатков. Гипотезу о согласии остатков с предполагаемым законом распределения можно проверить с помощью непараметрических критериев согласия, таких как критерий Колмогорова, критерий Крамера - Мизеса - Смирнова и критерий Андерсона - Дарлинга. В случае полных данных без объясняющих переменных данные критерии подробно исследовались в работах Б.Ю. Лемешко [4-12]. В [4-7, 10] построены вероятностные модели, аппроксимирующие распределения статистик непараметрических критериев относительно широкого спектра законов распределения, с которыми проверяется согласие. В теории надежности и анализе выживаемости полученные в ходе эксперимента данные, как правило, оказываются цензурированными, например, в связи с ограниченностью эксперимента по времени. Задачи проверки простых гипотез о согласии по цензурированным I и II типа данным рассмотрены в работах [13, 14]. Распределения статистик и мощность критериев типа Колмогорова, Крамера -Мизеса - Смирнова и Андерсона - Дарлинга при проверке сложной гипотезы исследованы в работе [15]. Для случайно цензурированных данных в литературе обсуждается возможность модификации непараметрических критериев, основанной на использовании вместо эмпирического распределения непараметрической оценки Каплана - Мейера [16-20]. Однако определенных результатов относительно распределений статистик модифицированных критериев не получено. Основной сложностью является то, что распределение моментов цензурирования на практике, как правило, неизвестно. Кроме того, в случае регрессионных моделей распределение моментов цензурирования может зависеть от факторов, представленных в выборке. Единственный выход видится в применении методов компьютерного моделирования и анализа статистических закономерностей. Таким образом, целью данной работы является разработка алгоритма корректного применения критериев типа Колмогорова, Крамера - Мизеса - Смирнова и Андерсона - Дарлинга по цензурированным данным для проверки адекватности AFT-модели и модели пропорциональных интенсивностей Кокса. 1. Модель пропорциональных интенсивностей Кокса и AFT-модель Пусть TX - неотрицательная случайная величина, определяющая системное событие (время работы до отказа объекта или время жизни пациента), которое зависит от вектора ковариат x = ( x1, x2,..., Xm )T . Функция выживаемости (надежности) определяется соотношением Sx (t) = P (Tx > t) = 1 - Fx (t), а кумулятивная функция риска - выражением Лx (t) = } ^x (u) du = - ln (Sx (t)). 0 Главной особенностью данных типа времени жизни является наличие цензу-рированных справа наблюдений, которые можно представить в виде (t1, X1,51), (t2, X2,52),..., (tn, xn, Sn) , где n - объем выборки, x' - вектор ковариат i-го объекта, ti - время жизни до наступления системного события или момента цензурирования, S, - индикатор цензурирования, который принимает значение 1, если наблюдение полное, и 0, если цензурированное. Существует три основных типа цензурирования. Цензурирование первого типа возникает в ситуации, когда заранее фиксируется время наблюдения за объектами. При цензурировании второго типа наблюдение за объектами прекращается по наступлению заранее определенного количества системных событий. При цензурировании третьего типа, или случайном цензурировании, времена жизни T и моменты цензурирования C принадлежат законам распределения вероятностей F (t) и FC (t) соответственно и являются независимыми. Наблюдение, соответствующее i-му объекту определяется следующим образом: ti = min(T,C), Si = 1{T < C}, i = 1,...,n . Модель пропорциональных интенсивностей, предложенная Коксом [3], определяется следующим соотношением: Лх (t;Р) = г (х;Р)-Л0 (t), (1) где р - вектор параметров регрессии, г (х; р) - неотрицательная функция от кова-риат, Л0 (t) - базовая кумулятивная функция риска. В данной работе будем рассматривать логарифмически линейную форму функции от ковариат вида г (х; Р) = exp (Р'- х). Если в (1) не вводится предположение относительно закона распределения времен жизни, модель называется полупараметрической. Если же вводится параметризация как для функции воздействий, так и для базовой кумулятивной функции риска Л0 (t;6), модель считается параметрической. Оценки неизвестных параметров модели пропорциональных интенсивностей находятся методом максимального правдоподобия. В случае полупараметрической модели максимизируют логарифм функции частичного правдоподобия [3]: ( „ Y ln (((х; Р)) = £8г ln (г (; р))- ln £ г (хj; р) В случае параметрической модели логарифмическая функция правдоподобия имеет вид ln(L(х;p,6)) = £[5, (lnг(х;p) + lnXo (t,;6))-г(х-;р)ло (t,;6)]. i=1 Модель ускоренных испытаний (Accelerated Failure Time model) или AFT-модель надежности может быть задана следующим образом: (2) ' ds ^ Ях(.) (t ) = S,lf V о г (х (s)) где S0 (t) = 1 - F0 (t) - базовая функция надежности, г (х;Р) - неотрицательная функция от воздействий. В данной работе будем рассматривать логлинейную модель вида г(х;р) = exp(Р0 +р:х). В случае, когда мы обладаем некоторой априорной информацией о законе распределения отказов, то базовая функция S0 (t) выбирается из некоторого параметрического семейства распределений, и в данном случае мы получаем параметрическую AFT-модель. Оценки параметров модели находят, максимизируя логарифм функции правдоподобия: ln L( х; р, 6) = £ (5, ln fx (ti ) + (1 -5, )Sх (t,)). i=1 Если информация о виде S0 (t) неизвестна, то мы получаем полупараметрическую модель ускоренных испытаний. Оценки параметров данной модели получают, минимизируя функцию вклада U(Р) = £5 { (t,)-х(( (ti;Р);р)}, i=1 где х (и;р) = £xj ( (и;р)) ( (и;р)} Yj ( (и;Р)) , t f (t; Р) = I г- (xj (и); р) , Y} (t) = 1{t. > t}, 0 а gj (и; p) - обратная к fj (и; p) функция по первому аргументу. 2. Проверка гипотезы о согласии по выборкам остатков После вычисления оценок неизвестных параметров необходимо проверить адекватность полученной модели. Универсальным подходом к проверке адекватности регрессионных моделей является анализ распределения остатков. Для модели пропорциональных интенсивностей Кокса рассчитывают остатки Кокса - Снелла вида [21] Z =Ло (tt )• г (хг; р). Если модель верна, остатки распределены по стандартному экспоненциальному закону. Таким образом, можно сформулировать сложную гипотезу о согласии H0 : zt ^ Exp (0,1). Для параметрической модели ускоренных испытаний остатки имеют следующий вид: Z = til г (хг; р). Если данные хорошо описываются построенной моделью, остатки должны принадлежать базовому закону распределения отказов F0 (t; 0), стандартизованному по параметру масштаба (параметр масштаба равен 1), то есть проверяемая гипотеза имеет вид H0: Zt у F0 (t; 0). Для проверки данных гипотез о принадлежности выборки остатков предполагаемому закону распределения при наличии цензурированных наблюдений можно воспользоваться модифицированными критериями согласия типа Колмогорова, Крамера - Мизеса - Смирнова и Андерсона - Дарлинга, в которых вместо эмпирической функции распределения используется непараметрическая оценка Ка-плана - Мейера [22]. Статистика критерия согласия типа Колмогорова с поправкой Большева [23] имеет вид SCK =(6nDn + 1)Wn , где Dn = sup IFn (t)- F (t)|, t t где pC - ОМП параметров, полученные по исходным данным, в которых цензурированные наблюдения рассматриваются как полные и наоборот. При проверке согласия с AFT-моделью для моделирования цензурированных наблюдений будем строить полупараметрическую AFT-модель, и непараметрическая оценка функции риска для некоторого значения ковариаты х запишется как ( /„Г 5 c\ 1Л лc (t)= z (1 -8,)mi- у zi\t, >t, -^С) V / j=1 r (х;в c Разработанный алгоритм моделирования случайно цензурированной выборки имеет следующий вид: 1 ( Vr(;в 1. Моделируются значения Ti = F0 I д/ I для модели Кокса и T = F0-1 )• r (х1;в) для AFT-модели, ^ Uniform(0,1), i = 1,...,n ; /n (n ■ ) 2. Моделируются значения Л0 =— ^Сч для модели Кокса и Л1, =-ln(n,) r (x1 ;вс) X для AFT-модели, n, ^ Uniform(0,1), i = 1,...,n ; 3. Далее вычисляются значения C,: 3.1. Для модели Кокса: обозначим через c1 < c2
Ключевые слова
непараметрические критерии,
модифицированный критерий Колмогорова,
Крамера - Мизеса - Смирнова,
Андерсона - Дарлинга,
модель пропорциональных интенсивностей Кокса,
модель ускоренных испытаний,
цензурированные данные,
nonparametric goodness-of-fit tests,
Kolmogorov,
Cramer-von Mises-Smirnov and Anderson-Darling tests,
Cox proportional hazards model,
accelerated failure time model,
right censored dataАвторы
Чимитова Екатерина Владимировна | Новосибирский государственный технический университет | кандидат технических наук, доцент кафедры прикладной математики | ekaterina.chimitova@gmail.com |
Ведерникова Мария Александровна | Новосибирский государственный технический университет | аспирантка кафедры прикладной математики | vedernikova.m.a@gmail.com |
Галанова Наталья Сергеевна | Новосибирский государственный технический университет | аспирантка кафедры прикладной математики | natalia.galanova@gmail.com |
Всего: 3
Ссылки
Чимитова Е.В., Ведерникова М.А. Проверка адекватности модели пропорциональных интенсивностей Кокса по случайно цензурированным выборкам // Сборник научных трудов НГТУ. Новосибирск: Изд-во НГТУ, 2010. № 4(62). С. 103-108.
Chimitova E., Galanova N. Application of the computer simulation technique for investigating problems of parametric AFT-model construction // Stochastic Modeling Techniques and Data Analysis Int. Conf.: Proc. Chania, Crete, Greece, 2010. P. 177-185.
Chimitova E., Chuyanova E., Galanova N., Vedernikova M. Computer approach to the choice of parametric ALT-models // Proc. of the Third Int. Conf. «Accelerated Life Testing, Reliability-Based Analysis and Design». Clermont-Ferrand, 2010. P. 111-116.
Kaplan E.L., Meier P. Nonparametric estimation from incomplete observations // J. American Statistical Association. 1958. V. 53. P. 457-481.
Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. М.: Наука. 1983. 416 с.
Lawless J.F. Statistical Models and Methods for Lifetime Data. New Jersey: John Wiley and Sons, Inc., Hoboken. 2003. 630 p.
Reineke D., Crown J. Estimation of Hazard, Density and Survival Functions for Randomly Censored Data // J. Applied Statistics. 2004. V. 31. No. 10. P. 1211-1225.
Nikulin M., Lemeshko B., Chimitova E., Tsivinskaya A. Nonparametric goodness-of-fit tests for censored data // Proc. of the 7th Int. Conf. «Mathematical Methods in Reliability: Theory. Methods. Applications». Beijing, China, 2011. P. 817-823.
Hjort N.L. On Inference in Parametric Survival Data // International Statistical Review. 1992. V. 60. No. 3. P. 355-387.
Nair V. Plots and tests for goodness of fit with randomly censored data // Biometrika. 1981. V. 68. P. 99-103.
Kac M., Kiefer J., Wolfowitz J. On tests of normality and other tests of goodness of fit based on distance methods // Annals of Mathematical Statistics. 1955. V. 26. P. 189-211.
Лемешко Б.Ю., Чимитова Е.В., Плешкова Т.А. Проверка простых и сложных гипотез о согласии по цензурированным выборкам // Научный вестник НГТУ. 2010. № 4(41). С. 13-28.
Barr D.M., Davidson T. A Kolmogorov - Smirnov test for censored samples // Tech-nometrics. 1973. V. 15. No. 4.
Koziol J.A., Green S.B. A Cramer - von Mises statistic for randomly censored data // Biome-trika. 1976. V. 63. No. 3. P. 465-474.
Лемешко Б.Ю., Постовалов С.Н. Применение непараметрических критериев согласия при проверке сложных гипотез // Автометрия. 2001. № 2. С. 88-102.
Лемешко Б.Ю., Постовалов С.Н. О зависимости распределений статистик непараметрических критериев и их мощности от метода оценивания параметров // Заводская лаборатория. 2001. Т. 67. № 7. С. 62-71.
Лемешко Б.Ю., Маклаков А.А. Непараметрические критерии при проверке сложных гипотез о согласии с распределениями экспоненциального семейства // Автометрия. 2004. № 3. С. 3-20.
Лемешко Б.Ю., Лемешко С.Б., Постовалов С.Н. Мощность критериев согласия при близких альтернативах // Измерительная техника. 2007. № 2. С. 22-27.
Лемешко Б.Ю., Лемешко С.Б., Постовалов С.Н. Сравнительный анализ мощности критериев согласия при близких альтернативах. II. Проверка сложных гипотез // Сибирский журнал индустриальной математики. 2008. Т. 11. № 4(36). С. 78-93.
Лемешко Б.Ю., Лемешко С.Б. Модели распределений статистик непараметрических критериев согласия при проверке сложных гипотез с использованием оценок максимального правдоподобия. Ч. II // Измерительная техника. 2009. № 8. С. 17-26.
Лемешко Б.Ю., Лемешко С.Б. Модели распределений статистик непараметрических критериев согласия при проверке сложных гипотез с использованием оценок максимального правдоподобия. Ч. I // Измерительная техника. 2009. № 6. С. 3-11.
Лемешко Б.Ю., Лемешко С.Б., Никулин М.С., Сааидиа Н. Моделирование распределений статистик непараметрических критериев согласия при проверке сложных гипотез относительно обратного гауссовского закона // Автоматика и телемеханика. 2010. № 7. С. 83-102.
Сох D.R., Roy J. Regression models and life tables (with Discussion) // J. Royal Statistical Society. 1972. Series B. V. 34. P. 187-220.
Лемешко Б.Ю., Лемешко С.Б., Постовалов С.Н., Чимитова Е.В. Статистический анализ данных, моделирование и исследование вероятностных закономерностей. Компьютерный подход: монография. Новосибирск: Изд-во НГТУ, 2011. 888 с.
Meeker W.Q., Escobar L. Statistical Methods for Reliability Data. New York: John Wiley and Sons. - 1998.
Bagdonavicius V., Nikulin M. Accelerated life models: modeling and statistical analysis // Boca Raton, Florida: Chapman & Hall/CRC. 2002. 334 p.