Одним из привлекательных свойств знаковых статистических процедур является возможность строить точные тесты для проверки простых гипотез о параметрах регрессионных моделей. В данной работе этот подход распространяется на случай нелинейной модели с зависимыми шумами. Рассматривается модель многоквантильной регрессии, что позволяет совместно проверять гипотезы как о параметрах регрессии, так и о параметрах масштаба шума.
Finite-sample and asymptotic sign-based tests for parameters of non-linear quantile regression with Markov noise.pdf Знаковые статистические процедуры позволяют строить тесты для проверки простых гипотез о параметрах линейных моделей в непараметрической постановке задачи. Это объясняется тем, что при гипотезе распределение знаков невязок известно, поэтому такие тесты позволяют точно контролировать уровень значимости. Знаковые методы сначала были разработаны для меданной регрессии [1], т.е. для частного случая квантильной регрессии, для которой намного раньше были развиты методы, основанные на минимизации взвешенных модулей невязок (см. основополагающую работу [2]). В частности, на основе метода наименьших модулей в [3] были предложены методы анализа симметричной двухкван-тильной регрессии. Позднее были предложены знаковые процедуры для квантильной регрессии [4, 5], в том числе для зависимых шумов [6]. В данной работе рассматривается ряд обобщений знакового подхода к проверке простых гипотез для параметров квантильной регрессии. Во-первых, мы рассматриваем случай нелинейной модели. Во-вторых, рассматривается многоквантильная регрессия, поэтому от знаков невязок мы переходим к индикаторам их попадания в межквантильные интервалы, как это предлагается в [7]. В-третьих, рассматриваются зависимые наблюдения, когда ошибки образуют стационарный Марковский процесс с дискретным временем. Рассмотрение методов проверки простых гипотез является первым шагом для построения процедур оценивания параметров на основе подхода, который, как принято считать, впервые был использован в статье [8], а также для построения процедур проверки линейных гипотез, которые более интересны для практических приложений. 1. Постановка задачи Рассмотрим нелинейную модель регрессии с зависимыми случайными ошибками вида У = gt (9) + ef, t = ~n, (1) где gt (9) - заданная при каждом t непрерывно дифференцируемая функция от параметров 9 = (91,...,9Г) е Rr . Случайные отклонения st образуют стационарный Марковский процесс (r - 1)-го порядка. Одномерные функции распределения P{st < x} неизвестны и не обязательно совпадают при разных t, но имеют несколько совпадающих квантилей заданных уровней. Подробнее: пусть конечный набор смежных интервалов С1 (ц),...,CK (ц) образует разбиение R1, при этом P{st е Ck (ц)} = рк, к = 1,K, где вероятности рк заданы. Параметры ц определяют масштаб одномерного распределения шумов, так как влияют на ширину межквантильных интервалов. Границы интервалов Ck (ц) = (ck_ (ц), ck (ц(угловая скобка может означать либо открытую, либо закрытую границу) зависят от неизвестных параметров ц линейно ск (ц) = ak + dkц, k = 1, K _ 1, c0 (ц) = -, cK (ц) = +со. При этом ак и dk заданы, а допустимые параметры образуют множество {ц: (dk _ dk_i) ц + (ak _ ak_i )> 0, к = 2 K _1} . Наиболее интересными являются самые простые случаи симметричной двухквантильной и трех-квантильной регрессии, когда единственный параметр ц равен половине интерквантильного размаха. Для двухквантильной регрессии K = 3, с1 (ц) = -ц, с2 (ц) = ц, p1 = p3 = p, p2 = 1-2p. Для трехквантильной регрессии K = 4, с1 (ц)=-ц, с2 (ц) = 0, с3 (ц)= ц, p1 = p4 = p, p2 = p3 = (1-2p)/2. В эту же модель укладывается одноквантильная регрессия, при этом параметры ц отсутствуют, K = 2, с1(ц) = 0, p1 = p, p2 = 1-p. Во всех трех моделях вероятность p задана. Введем обозначения для совместных вероятностей: Р(г)(k1,...,k) = р{в,_г+1 е Ck1 (ц),...,е, е Cki (ц)}, l = й, k1,...,kr = U, (2) P(l) ={P(1 )(k1,...,ki):k1,...,к, = 1K}, l = 17. В частности, P(1) = {p1,...,pK} = {P(1)(1),...,P(1)(K)} . ~(r) ~(r) Неизвестными параметрами являются параметры 0, ц и набор Pv ', причем в составе Pv ' есть линейно зависимые вероятности. Обозначим через Q вектор, образованный некоторым набором линей- 5(r) но независимых вероятностей из состава P 7. Рассмотрим структурные преобразования j (i1,...,il) = 1 + Zj=1(?j- _ 1)Kl_J , l = 1,r, которые осуществляют развертку r-мерного набора вероятностей P(l) в одномерный вектор P(l) по правилу [P(l)]j^ {) = P(l)(/1,...,ii). Здесь и далее [A]j означает j-ю строку матрицы или j-й элемент вектора. С помощью структурной матрицы G и вектора D можно осуществить переход от свободных вероятно- (r) стей Q к P - D + GQ . Это преобразование может учитывать не только условие нормировки, заданные одномерные вероятности, условия стационарности, но и симметрию конечномерных распределений, если это необходимо. Кроме того, далее будем использовать структурные матрицы Fi , i = 1, r -1, которые обеспечивают переходы к вероятностям меньшего порядка P(i) = FP(i+1). В этих условиях, обозначив истинные параметры через и = (0 , ц ,Q ) , а гипотетические через и0 = (00,^,Q0) , сформулируем задачу проверки простой гипотезы H0 о параметрах моделей (1) и (2) против сложной альтернативы H1: H0 : и = U0, H1: и ф U0 • (3) В качестве признаков для построения статистических процедур будем использовать индикаторы S = (s1,...,sn) - номера интервалов, в которые попадают невязки yt _ gt (00), т.е. st = st (^ ц0 ) = s (yt _ gt (00 ), ц0 ), где s (u, ц0 ) = k для u е Ck ( ц0 ) . Тест для проверки гипотез (3) построим по принципу максимума отношения правдоподобия, отбирая в критическую область те параметры, которые доставляют наибольшие значения нормы его градиента в гипотетической точке: (4) . V „P (S и ) P (( U0 ) Здесь L (S |и, и0 ) = P (S| и) /P( S| и0 ) - функция отношения правдоподобия индикаторных признаков^ 2. Градиент правдоподобия индикаторных признаков При поиске выражений для правой части в равенстве (4) воспользуемся представлением P (-1, ■■ • •, Sn IU) = P (S11U) P(s2 Is1, и).. P(sr-1 Is1, ., Sr-2, и) Пn=r P (St Ist-r+1St-1 , U) , (5) чтобы получить разложение Тейлора P(J | и) = P(J | u0) + VUP(S | и0) (и - и0 ) + о (||и - и0||). Для данного разложения требуется непрерывно дифференцируемая параметризация семейства конечномерных распределений по ц и Q. Для любой такой параметризации имеем P(-1 |и) = P(-1 |и0 ) + V'uP(-1 |U0 )(u - Ц,) + о(| |и - U0 ||), P(-2 1-1, и) = P(-2 1-1, U0) + V'uP(-2 1-1, U))(U - U0) + о(||и - U0 ||), ... (6) ... P(st |St-r+1,...,St-1,u) = P(st |St-r+1,...,St-1,U0) + VuP(st |St-r+1,...,St-1,U0) X X (u - U0) + о(||и - U0 ||), t = r,n. Подставив (6) в (5), после перегруппировки получим P(s| U) = 1 + f V'u P( -1 |U0) + VuP(s2 К V , + V'u P(Sr-1 1-1,..., Sr-2, U + Л P(-| U0) [ P(-1 |U0) P(-2 1-1, U0) P(-r -1 1-1,.., -r-2, U0) VUP(-t |-t-r+1,...,-t-1,U0) x (u -U0) + о(|и -U0 ||). P(-t |-t-r+1,...,St-1,U0) Отсюда V L(-I = VuP(-1K) + VuP(-2 1,U 0) + + VuP(-r-1 |-r-2,...,-1,U0) + VP^JfLlIlIifi-Ll^) U ' 0 1 U=U0 P(-1^0) P(-2 |-1, U0) P(-r-1 |-r-2,...,- 1,U0) t=r P(-t 1,. .,-t-1,U 0) Последнее выражение можно преобразовать таким образом, чтобы градиент отношения правдоподобия был выражен через совместные вероятности порядков r и r-1: . VUP (-t +1,..., -t Iи 0 ) VUP (я, +1,..., я,-1|u 0 ) v„ь(-|u,u 0) = 2П-r v ." 7 -2n-r+1 rtr+1 , (7) 0 P (r+l,■, -t|U 0 ) P (r+l,■, V 1P 0 ) Перейдем к задаче определения градиентов V„ P(-t_r+1,...,-Jи ) и V„ P(-t_r+1,...,5t_Jи ) . Для V I U0 ^ U0 этого необходимо получить производные по каждому из входящих в и параметров. Несмотря на то что заданным значениям и соответствует целое множество распределений на P (Щ и ), следующая теорема показывает, что для произвольной непрерывно дифференцируемой параметризации распределения P (Щ и ) по параметрам ц и Q вид градиентов не зависит от способа параметризации. Поэтому они могут использоваться для дальнейших суждений о локальных изменениях функции правдоподобия. Теорема 1. Пусть существует r-мерная непрерывная плотность распределения ft (x1,..., xr) случайных величин st-r+l,..., st, t = r, n . Тогда для произвольной непрерывно дифференцируемой параметризации распределения P (Щ и ) по параметрам ц и Q имеет место V9 P(-t-r+1,..., -t|u)| и=и = 2 [Pr ,' (Cs, r+1,..., CS,\CS, r+i -1) ft-r+г (cS, r+i -1)lU=U0 i=1 'I (8) - Pr,i(C ,,_r+1 ,..., Ct\cs0 ) ct_r+1(st_r+1 |ц0,00 >0) P( st _r+l,..., St |u) = J ... J f (xl,..., xr )dx1...dxr . ct (st _1| ц0,00 >0 ) ct _r+ 1( st _r +1 _1| ц0,00 >0) Из этого следует (8). Аналогично получаем (9). Для получения градиентов по параметрам ц воспользуемся тем, что совместные вероятности полностью определяются параметрами Q. Поэтому если рассмотреть произвольную непрерывно дифференцируемую параметризацию конечномерных распределений по ц, то при любых и выполняется V(st_r+1(0ц),..st (0ц)u) = 7цPSr_)r+l(0,ц),...,St(0,ц)= (14) С другой стороны, Vц P (V r+1(0, ц),..., st (0, ц)| и)| = Pf;( st_r+1(0, ц),..., st (0, ц)| и)| ^ _ IU-U0 ^ '-'0 ^ P(st_r+1 (00 , St (0O, ц 0) I U)| и=и = X Pr ,i (Csi_r+1,..., Csi Kt_r+1 _1) ft_r+i r _1 ^ P(st _r+1 (00 , ц 0),..., St _1(0O, ц 0)| U)| u=u = X Pr_1,i (Cs(_r+1,..., Ct _1 |cst_ r+1 _1) ft_r+, (cS,_ r+t _1)dst _ r+( _1 (11) (12) (13) (15) Xr=1 Pr,i (Cst -r+1,..., Cst\cst_r+l_1) ft_r+i (cs,_r+i_1)dst_r+i_1 Pr ,i (Cst _r +1,..., Cst Cst _ r+1) ft-r+i (cs, 't_ r +i Jt _ r+i где Pfl - градиент по параметризации самого распределения без учета зависимости аргументов от ц. Нас интересует градиент при гипотетических параметрах VцP(st_r+1 (00,ц0),...,st (00,ц0)))| = = Pj! (st_r+1 (00,ц0),...,st (00,ц0)))| , который благодаря непрерывной дифференцируемости параметризации семейства распределений равен Pfl (st_r+1 (0,ц),...,st (0,ц)| . Поэтому из (14) и (15) получаем (10). Аналогично можно получить (11) для градиента правдоподобия меньшего порядка. Нас интересует градиент VqP(st_r+1 (00,ц0),...,st (00,ц0)))| , который совпадает с (16), поскольку параметризация непрерывно дифференцируема. Отсюда имеем (12) и аналогично получаем (13). Теорема доказана. Воспользуемся теперь произвольной параметризацией семейства распределений по Q: 3. Знаковые тесты Формально искомый тест для проверки гипотез (3) может иметь вид VuЩU,U0)|^J > const, (17) где || - некоторая подходящая норма вектора, а формулы (7)-(13) дают выражение для тестовой статистики. Нетрудно убедиться, что если выбрать р1 =.. . = pK = 1/ K и гипотетические параметры Q0 определяют равномерное r-мерное распределение (т.е. [Q0]' = K-r и гипотеза состоит в том, что зависимость отсутствует), то тест (17) будет локально наиболее мощным против любой линейной одномерной односторонней альтернативы, поскольку знаменатель отношения правдоподобия P (f |и 0 ) превращается в константу. В остальных случаях приходится опираться на логическую обоснованность принципа максимума отношения правдоподобия. В качестве альтернативы для (17) можно рассматривать тест вида 22 VuP(- |u)|^0 = P(- |и0)•VuL(-1u,u 0)^0 >const, (18) который является локально наиболее мощным против любой линейной одномерной односторонней альтернативы. Относительно тестов (17) и (18) остаются вопросы, на которые необходимо дать ответ. Во-первых, в (8)-(11) присутствуют неизвестные величины, которые требуют обоснованной замены. Во-вторых, необходимо указать, каким образом можно определять критические значения и какие нормы вектора при этом использовать. Начнем с ответа на первый вопрос. Чтобы избавиться от неизвестных величин, входящих в состав (17), используем метод, аналогичный [7], - заменим их доступными нам величинами. Так, игнорируя некоторые эффекты зависимости, можно заменить Pr,i (C-'-r+1,..., Cst | Ск ) на P( ,) (к1,..., kr ) = 2K=1P( ) (к1,...,ki-1, -, к'+1,...,kr ) . После этого неизвестными останутся величины ( ft (Ск-1) - ft (Ск )) / Рк и ( ft (Ск-1) dk-l - ft (Ск ) ) / Рк, замена которых специальными весами B1 (к) и B2 (к) подробно обсуждается в [7]. Например, для K = 2 (квантильная регрессия) Bi={-1/p, 1/(1-р)}. При K = 3 (симметричная двухквантильная регрессия) Bi = {-1, 0, 1}, B2 = {1, -2р/(1-2р), 1}. Для K = 3 (симметричная трехквантильная регрессия) Bi = {-A, -а, а, A}, B2 = {A, -1, -1, A}, где А=(1-2р)/2р, а - априорная догадка о величине (ft (0) - ft (ц)) / ft (ц) . Заметим, что похожие «разумные» замены часто встречаются при конструировании непараметрических процедур. В ранговом анализе полученные похожим образом веса рангов называют метками (scores). Важными свойствами меток являются их нулевые средние 2 К=1 B1 (к) рк = 0, 2 К=1 B2 (к) рк = 0 и нулевая ковариация 2К=1 B1 (к) B2 (к ) рк = 0 . В результате замен из (17) и (18) получаем тесты вида ||4„(-|U 0)|2 >const, (19) llPC-|и0)• (-|U 0)|2 >const, (20) где ^n (f | и 0) - векторная статистика, которая является модифицированным и нормированным градиентом отношения правдоподобия и задается выражениями (-|U) = n 1/2 2n= r (-|U), Ve gt _ r+i (0) R^ )(u) R? )(u) [G] J (st +1 ( u),..., st (U)) _ _ (1 _ g ) _[Fr _1G]j _l ( st +l( U),...,st _l (U)) R P(r)(sf_r+l(U),..., st (U)) ,r P( r _1)(sf _r+l(U),..., st_l1))_ r'') (U) = B, (_r+i) (') (u)_ (1 _ 5t,r) (1 _ 5i,r )4-U) (,)), L(r,i)(U) P(r')(st_r+1 (U),...,st (U))P(l)(st_r +i (U)) P(r)(st_r+1 (U),..., st (U)) ■ Заметим, что тест (20), даже после замены неизвестных величин весами, остается локально наиболее мощным против линейных односторонних одномерных альтернатив, если [Q0] = K _r, но при дополнительном условии, что эти альтернативы отличаются от гипотезы только по параметрам 0, только по ц или только по Q. Однако имитационные эксперименты показывают, что поведение этого теста при альтернативах не всегда удовлетворительно. Кроме того, возникают трудности с поиском его асимптотических критических значений. Поэтому для использования мы рекомендуем тест (19) Перейдем к ответу на второй из поставленных выше вопросов - о выборе критических значений и способов определения нормы векторных статистик. Как и для случая независимых наблюдений [1, 7], для проверки гипотез (3) можно построить тесты вида (19) и (20) с точным уровнем значимости, поскольку при гипотезе распределение статистик ||£n (s | U0 )||2 и ||P(s" | U0) • £n (s | U0 )||2 совпадает с распределением случайных величин ||£n (n | U0 )||2 и ||P(n | U0) • £n (n | U0 )||2 соответственно, где случайный вектор П = ( Пп )' составлен из последовательности случайных величин, образующих стационарный Марковский процесс (r _ 1)-го прядка с конечным числом состояний (nt е{1,2,...,K}) и известными конечномерными вероятностями P(k1,...,kr|U0) . В результате процентные точки распределения статистики тестов (19) и (20) можно определить с любой точностью, используя метод Монте-Карло. Заметим, что в вычислении £n (n | U0) не участвуют параметры ц0 , параметры 00 используются только при вычислении градиентов V0gt (00) в (21), а параметры Q0 влияют только на величины вероятностей Р(r^, P(r 1), p(r,i) p(_1,i) При больших объемах наблюдений n лучше воспользоваться асимптотическими критическими значениями. Для теста (19) их можно вычислять на основе асимптотической нормальности распределения статистики £n (s | U0) при гипотезе. Используем для этого обобщение теоремы 7.7.9 из [9] на случай последовательности случайных векторов, которое легко получить, применяя теорему 7.7.7 из [9]. Лемма 1. Пусть числовая последовательность {at : t > 1} и последовательность случайных векторов { : t > 1} удовлетворяют следующим условиям: 1. Существует целое число m>0 такое, что для любых n и t1,...,tn (0 < t1 0. 5. Существует предельная матрица Е = lim T_1 XT=1 XT=1 atasMztzs . T ^да Тогда случайный вектор T_12 XT=1 atzt сходится по распределению к N(0, Е). Теорема 2. Пусть выполняется гипотеза (3) и следующие условия: (21) Wi(u) = 1. ||Vegt (9)| < L для всех t и некоторого L > 0. 2. Существует предельная матрица V = lim Vn, где Vn = M2n(-1 u)2n (-1 и). 3. P(r)(к1,...,кг)>0 при всех k1,...,kr. Тогда случайный вектор 2n (- |v) сходится по распределению к N(0,V), а случайная величина Z n = 2 п (-1 и )V~n (-1 и ) сходится по распределению к % 2, где q = dimu. Доказательство. Если в лемме 1 положить atzt = 2Г-l+ r-1;-(-|u 0), m = 2r, то доказательство сводится к проверке равномерной (по t) ограниченности элементов вектора (21), а также проверке свойства M2n (-1 и ) = 0 . Последнее сразу следует из того, что 2kf B1(k)pk = 0 , 2f^ B1(k)pk = 0 , если применить эти равенства к вычислению M^r''^(v), l е{1,2}, в первом и втором блоке вектора (21). Для третьего блока вопрос сводится к проверке равенства 2kl,...,k [G]y (kl k) = 0 и 2kl,...,k l[F,-1G]'/- l(k1 k l) = 0. Мы проверяли эти условия численно в большом количестве частных случаев при r е{2,...,5}, K е {2,3,4}, при выполнении условий центральной симметрии k-мерных вероятностей и к е{2,...,r} без них. Теорема доказана. Таким образом, для ограниченных сходящихся планов в асимптотическом тесте можно использовать статистику Z2 =2n (- |и0)Vn"*2n (- |u0) с критическими значениями распределения хи-квадрат. Для элементов матрицы Vn можно получить аналитические выражения, однако мы не приводим их в силу громоздкости. Отметим только, что матрица Vn зависит от параметров 9 и Q, но не от ц, а для линейной модели регрессии остается зависимость только от Q. Заключение В данной работе получены точные и асимптотические знаковые тесты для проверки простой гипотезы (3) H0 : и = и0 о параметрах модели многоквантильной регрессии (1) с Марковскими ошибками (1) порядка r-1. Рассмотрены наиболее интересные случаи одно-, двух- и трехквантильной регрессии. В теореме 1 показано, что несмотря на непараметрическую постановку задачи, можно получить выражения для градиента правдоподобия знаковых признаков VP( 11и), вид которого не зависит от способа параметризации распределения P( 11 и) . Этот факт позволяет получить тесты (19) и (20), основанные на векторной статистике 2n(-1 и0), см. (21). Эти тесты являются локально наиболее мощными против линейных односторонних одномерных альтернатив при условии равномерного r-мерного распределения процесса знаковых признаков. В работе рассмотрены вопрос о вычислении критических значений, обеспечивающих заданный уровень значимости с любой точностью при конечных выборках, а также критические значения, основанные на асимптотическом распределении тестовой статистики (теорема 2) для ограниченных сходящихся планов. В результате рекомендуется тест, интерпретируемый как тест, построенный по принципу максимального отношения правдоподобия, с критической областью вида Z2 =2'n (- | U 0 ) Vn"\ (- | U 0) > const , где Vn =Vn (9,Q) = M2n (-1 и )2n (-1 и), для которого асимптотическое распределение тестовой статистики является распределением хи-квадрат и не зависит от гипотезы. Полученный тест представляет интерес как основа для оценивания параметров и по принципу максимального асимптотического р-значения (см. основополагающую работу [8]), т.е. U n = argmin Z n(U 0). Заметим, что на практике, особенно для линейных моделей, представляет интерес проверка гипотез вида H0 :[0]j = [00] j , когда остальные параметры являются мешающими. Такие гипотезы можно рассматривать как линейные и применять для их проверки двухэтапные процедуры. Этот подход подробно описан в [1, 7] применительно к знаковым процедурам.
Болдин М.В., Симонова Г.И., Тюрин Ю.Н. Знаковый статистический анализ линейных моделей. М. : Наука. Физматлит, 1997. 285 с.
Koenker R., Bassett G. Regression quantiles // Econometrica. 1978. V. 46. P. 349-359.
Chen L.A., Tran L.T., Lin L.C. Symmetric regression quantile and its application to robust estimation for the nonlinear regression model // J. Statist. Plann. And Infer. 2004. V. 126. P. 423-440.
Coudin E., Dufour J. Finite-sample distribution-free inference in linear median regressions under heteroscedasticity and non-linear dependence of unknown form // Econometrics Journal. 2009. V. 12. P. 19-49.
Tarassenko P.F., Tarima S.S., Zhuravlev A. V., Singh S. On sign-based regression quantiles // J. of Statist. Comput. and Simul. 2015. V. 85, Ыо. 7. P. 1420-1441.
Dufour J., Kiviet J. Exact inference methods for first-order autoregressive distributed lag models // Econometrica. 1998. V. 82. P. 79 104.
Тарасенко П.Ф. Индикаторный статистический анализ. Томск : Изд-во Том. ун-та, 2005. 350 с.
Hodges J.L.Jr., Lehmann E.L. Estimates of location based on rank tests // Ann. Math. Statist. 1963. V. 34, No. 2. P. 528-611.
Андерсон Т. Статистический анализ временных рядов. М. : МИР, 1976. 756 с.