Выбор регрессионной модели зависимости массы тела от роста с помощью эмпирического моста
Рассмотрен ряд регрессионных моделей зависимости массы тела от роста. Проведено сравнение моделей между собой с помощью конструкции эмпирического моста. В качестве исходных использованы данные Волжского государственного медицинского университета о росте и массе тела студенток первого курса.
The choice of a regression model of the body weight on the height via an empirical bridge.pdf 1. Введение и предварительные сведения Для исследования зависимости массы тела человека Wt от роста Hi в [1] предложена модель пропорциональности массы тела квадрату роста. Отметим, что пропорциональность предполагается для лиц одной возрастной группы и одного пола. В [2] на основании масштабных исследований показано, что эта зависимость является наилучшей в классе степенных зависимостей. Эту пропорциональность можно проинтерпретировать в виде двух различных регрессионных моделей: ln Wi = ln(aH2) + в, и Wi = a + bH2 + b,. Отметим, что рост и массу тела индивидуума можно считать случайными величинами и предполагать независимость роста Hi и корректирующего фактора е,-. Первая из этих моделей после замены переменных Y = ln(W / H2), 6=ln a приводит к модели выборки Y, =6 + 8;, а вторая является моделью двухпараметри-ческой линейной регрессии. Для того чтобы проверить соответствие каждой модели реальным данным, предлагается упорядочить наблюдения по неубыванию Hi. Если модель неправильно описывает данные, то значения Yi будут систематически уклоняться от регрессионной кривой, и это уклонение можно выявить суммированием регрессионных остатков (разностей между наблюдаемыми и прогнозируемыми значениями). Для изучения значимости этих уклонений необходимо знать предельное распределение процесса центрированных и самонормированных частичных сумм регрессионных остатков. Этот процесс называется эмпирическим мостом [3]. Нормировка, как и вообще в разных версиях центральной предельной теоремы, необходима для сходимости процесса сумм остатков к предельному. Эмпирический мост - это процесс самонормированных сумм: вместо неизвестной дисперсии регрессионных ошибок используется выборочная дисперсия регрессионных остатков. Отметим, что в случае равенства суммы регрессионных остатков нулю п.н. (как в изучаемых ниже моделях) центрирования не требуется. Однако общее определение оставлено в статье для использования в других моделях. Если для описания данных предложено несколько моделей, то вычисление достигнутых уровней значимости позволяет выбрать модель, наилучшим образом описывающую данные. Подход к анализу соответствия данных вероятностным моделям, основанный на функционалах от эмпирического моста, разрабатывался в [3-5] и применялся к анализу текстов в [3], тестированию моделей цен на недвижимость и автомобили в [6, 7], поиску неоднородностей строительных конструкций в [8]. Предлагаемый авторами подход (в отличие от использования коэффициента детерминации) позволяет сравнивать модели с разным числом параметров. В работе [5] рассмотрен пример, для которого выбором констант коэффициент детерминации может быть сделан сколь угодно близким к 1, а реально достигаемый уровень значимости (для критерия, использующего конструкцию эмпиричекого моста) с ростом объема выборки стремится к нулю п.н. Этот пример показывает, что модель линейной регрессии может объяснять сколь угодно большую долю выборочной дисперсии, но не удовлетворять строгим требованиям на суммы остатков регрессии, предъявляемых критерием эмпирического моста, и количество параметров, а также характер зависимости от них влияют только на распределение предельного процесса, на основании которого вычисляется реально достигаемый уровень значимости. Таким образом, F-тест может принимать неправильную модель, а критерий эмпирического моста отвергать ее. Эмпирический мост для модели выборки слабо сходится к стандартному броуновскому мосту, а сходимость эмпирического моста в модели двухпараметриче-ской линейной регрессии требует доказательства. При этом предельный гауссов-ский процесс отличается от стандартного броуновского моста. Рассмотрим две вероятностные модели (одно- и двухпараметрическую): у. =9 + 6,, i = 1,...,n, n >1, Y, = a + bX, +6,, i = 1,.,n, n > 1, где 9,a,b e R - неизвестные параметры регрессии, 6j,...,6n (регрессионные ошибки) - независимые одинаково распределенные случайные величины с нулевым математическим ожиданием и конечной ненулевой дисперсией с2. Также предполагается, что X, = |in, i = 1,...,n, - порядковые статистики, где случайные величины независимы, одинаково распределены с функцией распреде ления F и не зависят от случайных величин 61,..., 6n . Неизвестные параметры регрессии обычно оценивают по методу наименьших квадратов, получая оценки 9, a, b . На основании регрессионной модели строятся прогнозные значения Y, =9, Y, = a + bX,. Остатками линейной регрессии называют случайные величины 6, = Yi - Y,. Приведем определение эмпирического моста. Эмпирический мост - это кусочно-линейная случайная ломаная Z° = (Z° (t), 0 < t < 1} с узлами в точках ( A k А , Ak--A n k n n J 2 v Vct n где Ak = 61 + . + 6k, k = 1,.,n, Aq = 0, ст2 =6 - (б)2. ^2 р 2 При условии сходимости < ^ < при n ^го слабые пределы в пространстве непрерывных на [0,1] функций C(0,1) эмпирического моста и случайной ломаной, построенной по точкам ( - k - ^ k Ak--А, kn V n 0 найдутся 0
Ключевые слова
dependence of weight on height,
empirical bridge,
linear regression,
зависимость массы тела от роста,
эмпирический мост,
линейная регрессияАвторы
| Ковалевский Артем Павлович | Новосибирский государственный технический университет | кандидат физико-математических наук, доцент, доцент | pandorra@ngs.ru |
| Шаталин Евгений Викторович | СО РАН им. С.Л. Соболева | аспирант Института математики | sh_e_v_89@list.ru |
Всего: 2
Ссылки
Феллер В. Введение в теорию вероятностей и ее приложения. Т. 1. М.: Мир, 1984.
Goldie C.M. Convergence theorems for empirical Lorenz curves and their inverses // Advances in Applied Probability. 1977. V. 9. P. 765-791.
Hoeffding W. On the distribution of the expected values of the order statistics // Ann. Math. Statist. 1953. V. 24. No. 1. P. 93-100.
Davydov Y., Zitikis R. Convex rearrangements of random elements // Fields Institute Communications. 2004. V.44. P. 141-171.
Bischoff W. A functional central limit theorem for regression models // Ann. Stat. 1998. V. 26. P. 1398-1410.
MacNeill I.B. Limit processes for sequences of partial sums of regression residuals // Ann. Prob. 1978. V. 6. No. 4. P. 695-698.
Stute W. Nonparametric model checks for regression // Ann. Statist. 1997. V. 25. P. 613-641.
Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. М.: Наука, 1983.
Мартынов Г.В. Критерии омега-квадрат. М.: Наука, 1978.
Gastwirth J.L. A general definition of the Lorenz curve // Econometrica. 1971. V. 39. P. 1037-1039.
Биллингсли П. Сходимость вероятностных мер. М.: Наука, 1977.
Ковалевский А.П., Шахраманьян А.М. Анализ дефектов строительных конструкций методом эмпирического моста // Научный вестник НГТУ. 2014. Т. 56. № 3. с. 171-180.
Аркашов Н.С., Ковалевский А.П. Вероятностная модель цен на квартиры // Сиб. журн. индустр. матем. 2012. Т. 15. № 2. C. 11-20.
Kovalevskii A. A regression model for prices of second-hand cars // Applied methods of statistical analysis. Applications in Survival Analysis, Reliability and Quality Control. Novosibirsk, 2013. P. 124-128.
Ковалевский А.П. Статистические критерии обнаружения разладки регрессии с циклическим трендом // Научный вестник НГТУ. 2013. № 3 (52). С. 55-62.
Ковалевский А.П., Шаталин Е.В. Асимптотика сумм остатков однопараметрической линейной регрессии, построенной по порядковым статистикам // Теория вероятностей и ее применения. 2014. Т. 59. № 3. С. 452-467.
Гусарова Г. В., Ковалевский А. П., Макаренко А. Г. Критерии наличия разладки // Сиб. журн. индустр. матем. 2005. Т. 8. № 4. С. 18-33.
Quetelet A. Recherches sur le poids de l'homme aux different a ges // Nouveaux Memoire de l'Academie Royale des Sciences et Belles-Lettres de Bruxelles. 1832. V. 7. P. 1-83.
Keys A., Fidanza F., Karvonen M. J., Kimura N., Taylor H. L. Indices of relative weight and obesity // Journal of Chronic Diseases. 1972. V. 25. No. 6-7. P. 329-343.