Рассматривается задача статистического оценивания вероятности произведения двух событий на основе комплектных и некомплектных наблюдений.Предлагаются оценки с привлечением дополнительной информации, содержащейся в некомплектных наблюдениях, и исследуются их свойства.
The estimators of a probability events by incomplete observations.pdf В социологических [1] и маркетинговых исследованиях [2], при наблюденииобъектов, характеризуемых многомерным вектором признаков, случаются пропуски в компонентах вектора, что приводит к некомплектным наблюдениям. Статистическое оценивание долей объектов с заданными значениями признаковпредставляет в такой ситуации важную научную и практическую задачу. В статистической практике известны следующие методы статистического анализа данных с пропусками [3,4]: - исключение некомплектных наблюдений из рассмотрения и построение статистических выводов на основе полных (комплектных) данных; - методы, основанные на моделировании (строится модель порождения пропусков, параметры модели оцениваются с помощью функции правдоподобия); - восстановление пропусков; - методы взвешивания (суть заключается в том, что каждое наблюдение выбирается в выборку с некоторой вероятностью); Представляет интерес разработка методов статистического анализа данных с одновременным использованием как комплектных, так и некомплектных наблюдении с целью увеличения качества оценивания за счет привлечения дополнительной информации, содержащейся в некомплектных наблюдениях. Рассмотрение этой проблемы на примере оценивания вероятности событий по наблюдениямдвумерного вектора признаков приводится в данной работе.1. Постановка задачиПусть X и Y - случайные величины, заданные на вероятностном пространстве(ҐШ, ℑ, ҐС) и осуществляющие измеримое отображение (ҐШ, ℑ) на пространство(R2 , ҐО2 ) . Среди всех наблюдений над парой (X, Y) имеется n пар (X1, Y1), (X2, Y2),,(Xn, Yn), для которых получены значения по обеим компонентам (далеебудем именовать такие наблюдения комплектными), и имеются m наблюдений, в которых известны значения только второй компоненты, обозначим их Yn-1, Yn-2, Yn-m и назовем некомплектными. Предполагается, что все наблюдения Y1, Y2, Yn, Yn-1, Yn-2, Yn-m. независимы между собой. На основе этих данных требуетсяпостроить оценку вероятности P(AB), где событие AЎш R, BЎшR. Как известно, несмещенной и наилучшей в смысле минимума дисперсии оценкой вероятности44 Ю.Г. Дмитриев, А.А. КнязеваP(AB), построенной по комплектным наблюдениям, является эмпирическое распределение1( ) 1 ( ) ( )nn A i B i i P A B I X I Y n Ўї = ҐТ , (1)где1, , ( )0, , i A i i X A I X X A ⎧ Ўф = ⎨ ∉ ⎩1, , ( )0, , i B i i Y B I Y Y B ⎧ Ўф = ⎨ ∉ ⎩являются индикаторными функциями соответствующих событий. Эмпирическоераспределение (1) имеет математическое ожидание EPn(AB)=PXY(AB) и дисперсию DPn(AB)=(1/n) PXY(AB)(1 - PXY(AB)). Рассмотрим задачу оцениванияP(AB), используя наряду с комплектными и некомплектные наблюдения с цельюповышения точности оценки.2. Построение оценок2 . 1 . О ц е н к а с и с п о л ь з о в а н и е м ф о р м у л ы у с л о в н о й в е р о я т н о с т и Воспользуемся формулой умножения вероятностей P(AB) = P(A|B)P(B)и запишем аналогичную формулу для эмпирических вероятностей: Pn -(AB) = Pn(A|B)Pn-m(B) = (Pn(AB)/Pn(B))⋅Pn-m(B), где Pn-m(B) = (n/(n-m))Pn(B) - (m/(n-m))Pm(B), а 0, ( ) 0, ( )( )( ) , ( ) 0.( )nnnn n n P B P A B P A B P B P B P B ⎧ Ўї ⎪ = ⎨ Ўї ЎБ ⎪⎩(2)С учетом (2) и того, что при Pn(B) = 0 и Pn(AB) = 0, имеем0, ( ) 0, ( ) ( )( ) ( ), ( ) 0.( )nXY n n m n n P B P A B n m P A B P A B P B P B n m n m P B = ⎧⎪Ўї = ⎨ Ўї - Ўї ЎБ ⎩⎪ - (3)2 . 2 . О ц е н к а п о м е т о д у к о р р е л и р о в а н н ы х п р о ц е с с о в В соответствии с методом коррелированных процессов, рассмотрим классоценок видаPXҐлY (AB) = Pn(AB) - (Pn(B) − Pn-m(B)), (4)где параметр выбирается из условия минимума дисперсии оценки и имеет вид 2{ ( )( ( ) ( ))} ( ){( ( ) ( )) } ( )n n n m XY n n m Y E P A B P B P B P A B E P B P B P B Ўї − ЎїҐл = −. (5)Поскольку вероятности PXY(AB) и PY(B) неизвестны, то заменив их на эмпирические вероятности Pn(AB) и Pn(B), получим -. Подставив это значение в (5), получим адаптивную оценку по методу коррелированных процессов- ( )( ) ( ) ( )( )nXY n m n n m m m P A B P A B P A B P B n m n m P B Ґл - − ЎїЎї = Ўї - .Эта оценка совпадает с (3) при выполнении условия (2). Отметим также, что если взять в выражении (4) вместо (Pn(B) - Pn-m(B)) разность (Pn(B) - Pm(B)), то также придем к адаптивной оценке, совпадающей с (3).Оценки вероятностей событий при наличии данных с пропусками 453. Свойства оценкиИсследуем свойства оценки (3) в рамках схемы Бернулли. Найдем математическое ожидание- ( )( ) ( ) ( )( )nXY n m n n m P A B EP A B E P A B P B n m n m P B ⎧ Ўї ⎫Ўї = ⎨ Ўї - ⎬ ⎩ - - ⎭( )( ) ( ) .( )nXY Y n n m P A B P A B P BE n m n m P B ⎛ Ўї ⎞= Ўї - ⎜ ⎟ - - ⎝ ⎠С учетом (2)1( ) ( )0 ( ) | ( )( ) ( )nn n n n n j n P A B j P A B j E PP B E P B P B = n P B n ⎛ Ўї ⎞ ⎛ ⎞ ⎛ Ўї ⎞ ⎜ ⎟ = - ⎜ = ⎟ ⎜ = ⎟ = ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ҐТ1( | ) ( ) ( | )(1 ( ( ) 0)).nXY n XY n j P A B P P B j P A B P P B = n = ⎛ = ⎞ = − = ⎜ ⎟⎝ ⎠ ҐТ Следовательно, -( ) ( ) ( ) ( | )(1 ( ( ) 0)) XY XY Y XY n EP A B n P A B m P B P A B P P B n m n m Ўї = Ўї - − = - ( ) ( ) ( | ) ( ( ) 0)( ) ( ) ( ), XY Y XY n n XY XY P A B m P B P A B P P B n m P A B m P A B P B n m = Ўї − = = Ўї − Ўїгде B − противоположное -----событие. Как видно, оценка (3) имеет смещение, равное - ( ) ( ) ( /( )) ( ) n ( )ҐД = EPXY AЎї B − PXY AЎї B = − m n - m PXY AЎї B P B .Найдем среднеквадратическое отклонение (СКО) оценкиSPXY (AB) = E(P-XY(AB) - P XY (AB))2.Имеем- ( ) -2 ( ) 2 ( ) 2 ( ) SPXY AЎї B = EPXY AЎї B − PXY AЎї B − ҐД⋅ PXY AЎї B 222 2( )( ) 2 ( ) ( )( ) ( ) ( )nn n m n n nm P A B EP A B E P A B P B n m n m P B ⎛ Ўї ⎞= Ўї - ⎜ Ўї ⎟ - - ⎝ ⎠2 222( )( ) ( ) 2 ( ).( ) ( )nm XY XY n m E P A B P B P A B P A B n m P B ⎛ Ўї ⎞- ⎜ ⎟ − Ўї − ҐД⋅ Ўї- ⎝ ⎠Заметим, что E(Pn-2(AB)) = P2XY(AB) - (1/n)PXY(AB)(1 - PXY(AB)), ( ) 2 ( )( ) ( ) ( )( ) ( )n n n m Y n n P A B P A B E P AB P B P B E P B P B ⎛ Ўї ⎞ ⎛ Ўї ⎞⎜ ⎟ = ⎜ ⎟ ⎝ ⎠ ⎝ ⎠21( )0 ( ) | ( ) / ( ( ) / ).( )nnY n n j n P A B P B E P B j n P P B j n = P B ⎛ Ўї ⎞= - ⎜ = ⎟ ⎝ ⎠ҐТ46 Ю.Г. Дмитриев, А.А. КнязеваДля каждого j = 1,,n2221(1 ) ( , )( )| ( ) | ( )( )nAB i i n i n n n n I XY P A B j j E PB E P B P B n j n n ⎛ ⎛ ⎞ ⎞⎜ ⎜ ⎟ ⎟ ⎛ Ўї ⎞ ⎜ ⎝ ⎠ ⎟ ⎜ = ⎟ = ⎜ = ⎟ ⎝ ⎠ ⎝ ⎠ҐТ1 ( | ) 1 2 ( | ) 1 ( | )(1 ( | )) 2 ( | ). XY XY XY XY XY P A B j P A B P A B P A B j P A B n n n n −= - = − С учетом этого21( ) 1 ( ) 1 ( ) ( ( ) )( ) ( ) ( )nn XY XY n n Y Y j P A B P A B P A B E PP B j n P B n P B P B ⎛ Ўї ⎞ Ўї ⎛ Ўї ⎞⎜ ⎟ = ⎜ − ⎟ = ⎝ ⎠ ⎝ ⎠ҐТ2211 ( ) ( ( ) ).( )nXYnY j P A B jP P B j n n P B Ўї- ҐТ Поскольку1( ( ) ) ( )nn Y j jP P B j n nP B ҐТ = = , то ( )( ) ( )( )nn m n P A B E P A B P B P B ⎛ Ўї ⎞⎜ Ўї ⎟ ⎝ ⎠1 ( ) 1 ( ) (1 ( ( ) 0)) 2 ( ).( )XYXY n XY Y P A B P A B P P B P A B n PB ⎛ Ўї ⎞= Ўї ⎜ − ⎟ − = - Ўї⎝ ⎠Аналогично получаем2 21( ) ( )( ) 0 ( ) | ( ) ( ( ) ).( ) ( )nn n m m n n n j n P A B P A B j j E P B E P B P B P P B P B = P B n n ⎛ Ўї ⎞ ⎛ ⎛ Ўї ⎞ ⎞⎜ ⎟ = - ⎜⎜ ⎜ ⎟ = ⎟⎟ = ⎝ ⎠ ⎝ ⎝ ⎠ ⎠ҐТДалее, при j = 1,,n2 ( )( ) | ( )( )nm n n P A B j E P B P B P B n ⎛ ⎛ Ўї ⎞ ⎞⎜⎜ ⎜ ⎟ = ⎟⎟ = ⎝ ⎝ ⎠ ⎠22212 2 21(1/ ) ( , )( ) 1 ( )nAB i i n m i n Bi i n n I XY E P B j E I Y j n n m = ⎛ ⎛ ⎞ ⎞⎜ ⎜ ⎟ ⎟ ⎛ ⎞ ⎜ ⎝ ⎠ ⎟ ⎜ ⎛ ⎞ ⎟ = ⎜ = ⎟ ⎜ ⎜ ⎟ ⎟ = ⎝ ⎠ ⎝ ⎝ ⎠ ⎠ҐТҐТ2 22 2PXY (A | B) j PXY (A | B) j( j 1) mPY (B) m(m 1)PY (B)j m - − - −= ⋅ 1 XY ( | )(1 XY ( | )) 1 Y ( ) 1 Y2 ( )P A B P A B P B m P B j m m ⎛ − ⎞ = − ⎜ - ⎟ ⎝ ⎠-P2Y (A | B)((1/m)PY (B) - ((m−1) /m)PY2 (B)).Оценки вероятностей событий при наличии данных с пропусками 47С учетом этого получим21( )( ) ( ) | ( )( )nnn m n j n j P A B j P P B E P B P B = n P B n ⎛ ⎞ ⎛ ⎛ Ўї ⎞ ⎞ ⎜ = ⎟ ⎜⎜ ⎜ ⎟ = ⎟⎟ = ⎝ ⎠ ⎝ ⎝ ⎠ ⎠ҐТ11 ( | )(1 ( | )) ( )(1 ( )) 1 ( )nXY XY Y Y n j P A B P A B P B P B P P B j m = j n = − − ⎛ = ⎞ - ⎜ ⎟⎝ ⎠ ҐТ 21( )( ( ) ( )) 1 ( ) ( )nXY Y XY n XY j P A B P B P A B P P B j P A B = j n - Ўї − Ўї ⎛ = ⎞ - Ўї - ⎜ ⎟⎝ ⎠ ҐТ 1 2 ( | ) ( )(1 ( )) 2 ( ) ( ( ) 0) PXY A B PY B PY B PXY A B P Pn B m - − − Ўї = −1 ( )(1 ( )) 2 ( | ) ( ( ) 0). PY B PY B PXY A B P Pn B m − − Введем обозначение1( , ) ( )nnjX B n n P P B j = j n = ⋅ ⎛ = ⎞ ⎜ ⎟⎝ ⎠ ҐТ .Рассмотрим-2 ( ) 2 ( ) (1/( )) ( )(1 ( )) EPXY AЎї B = PXY AЎї B - n - m PXY AЎї B − PXY AЎї B 2( )( )1( ) ( )XYXYYm P A B P A B n m P B ⎛ Ўї ⎞- Ўї ⎜ − ⎟ - - ⎝ ⎠22( )( )1 ( ) ( , )( ) ( )XYXY Y Y m P A B P A B P B X B n n n m P B ⎛ Ўї ⎞- Ўї ⎜ − ⎟ - - ⎝ ⎠(1 ) ( , ) ( , ) ( ( ) 0), ( )( )( ) 1( )2 = - − ⎟⎟⎠⎞⎜ ⎜⎝⎛ ЎїЎї −- b X B n G n m P P B P B P A B P A B n n m m nYXYXYгде G(n,m) = (m2/(n - m)2)P2XY(AB) -- (m/(n - m)2)PXY(AB)[2 - PXY(AB) - (PXY (AB)/P(B))].Отсюда получим окончательное выражение для СКО: 2 ( ) 1 ( )(1 ( )) ( )(1 ( ))XY XY XY ( ) XY XY SP A B P A B P A B m P A B P A B n nn m Ўї = Ўї − Ўї − Ўї − Ўї 2( )( )1( ) ( )XYXYYm P A B P A B n m P B ⎛ Ўї ⎞- Ўї ⎜ − ⎟ - - ⎝ ⎠2( )( )1 ( ) ( , )( ) ( )XYXY Y Y m P A B P A B P B X B n n n m P B ⎛ Ўї ⎞- Ўї ⎜ − ⎟ - - ⎝ ⎠2( )( )1 (1 ( )) ( , )( ) ( )XYXY Y Y m P A B P A B P B X B n n n m P B ⎛ Ўї ⎞- Ўї ⎜ − ⎟ − - - ⎝ ⎠-G(n,m)P(Pn (B) = 0). (6)48 Ю.Г. Дмитриев, А.А. КнязеваПолученное выражение позволяет вычислить СКО оценки (3) при конечныхобъемах комплектной и некомплектной выборок. Кроме того, представляет интерес случай, когда n и m возрастают.4. Асимптотическое поведение оценкиРассмотрим асимптотическое поведение СКО оценки (3) в условиях схемыБернулли, полагая m = kn, k ≥ 0.Как было показано в [5]lim ( , ) 1/ Y ( ) n X B n P B ЎжЎД= . (7)Рассмотрим предельный переход в выражении (6). С учетом условия (7), получимlim - ( ) (1/( 1)) ( )(1 ( )) n XY XY XY nSP A B k P A B P A B ЎжЎДЎї = - Ўї − Ўї 22 2( ) ( )( )1 ( )1( 1) ( ) ( 1) ( )XY XY XY XY Y Y k P A B P A B k P A B P A B k P B k P B ⎛ Ўї ⎞ ⎛ Ўї ⎞- Ўї ⎜ − ⎟ - Ўї ⎜ − ⎟ = - ⎝ ⎠ - ⎝ ⎠2 1 ( )( )(1 ( )) ( ) .1 ()YXY XY XY Y P A B P A B k P A B P B k PB −= Ўї − Ўї − Ўї(8)Таким образом, lim X-Y ( ) lim n ( ) n n nSP A B nDP A B ЎжЎД ЎжЎДЎї ЎВ Ўї на величину( ( 1)) 2 ( ) ((1 ( )) ( )). k k - PXY AЎї B ⋅ − PY B PY B 5. Иллюстрации асимптотического поведения оценкиЧтобы понять, как соотносятся дисперсия оценки (1) и среднеквадратическоеотклонение оценки (3), произведем замену m=k⋅n и рассмотрим следующий показатель: lim 2 ( ) ( )(1 ( ))1lim ( ) 1 ( )(1 ( ))n XY XY Y n n Y XY nSP A B k P A B P B W nDP AB k P B P A B ЎжЎДЎжЎДЎї Ўї −= = −- − Ўї. (9)Рассмотрим влияние величины k (соотношение объема некомплектных наблюдений к объему комплектных) на показатель W. Отметим, что коэффициентk Ўф [0,ЎД). Рассмотрим поведение оценки на границах этого промежутка. Значение-----k = 0 означает, что объем некомплектных наблюдений равен нулю. Это равносильно отсутствию дополнительной информации и в этом случае W = 1. При k Ўж ЎД показатель W примет вид 11 ( )/ ( )1 ( )XY Y XY W W P A B P B P A B − Ўї= − Ўї. (10)Заметим, что наименьшее значение величина W1 принимает в случае, когдаPXY(AB) = PY(B) (легко видеть, что тогда W1 = 0). Чтобы проиллюстрировать соотношение между оценками вида (1) и (3), зафиксируем в выражениях (9) и (10)вероятность PY(B) = 0,8 и рассмотрим значения вероятности PXY(AB) из интервала [0,1; 0,8] (рис. 1).Оценки вероятностей событий при наличии данных с пропусками 4900,20,40,60,80,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 P(AB)Wk = 0 k = 0,5k = 1 k = 2k = 50 kЎжЎДРис. 1. Параметр W при фиксированной PY(B) = 0,8и PXY(AB)Ўф[0,1; 0,8]Результаты расчетов приведены в табл. 1.Т а б л и ц а 1Значения показателя W при PY(B) = 0,8 и PXY(AB)Ўф[0,1; 0,8]PXY(AB) k = 0,5 k = 1 k = 2 k = 50 k = 0,1 0,99 0,99 0,98 0,97 0,970,2 0,98 0,97 0,96 0,94 0,940,3 0,96 0,95 0,93 0,90 0,890,4 0,94 0,92 0,89 0,84 0,830,5 0,92 0,88 0,83 0,76 0,750,6 0,88 0,81 0,75 0,63 0,630,7 0,81 0,71 0,61 0,43 0,420,8 0,67 0,50 0,33 0,02 0,00Аналогично зафиксируем PXY(AB)=0,2 и рассмотрим значения вероятностиPY(B) из промежутка [0,2; 1] (рис. 2). Результаты расчетов приведены в табл. 2.00,20,40,60,80,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 P B ( )Wk = 0 k = 0,5k = 1 k = 2k = 50 kЎжЎДРис. 2. Параметр W при фиксированной PXY(AB) = 0,2и PY(B)Ўф[0,2; 1]50 Ю.Г. Дмитриев, А.А. КнязеваТ а б л и ц а 2Значения показателя W при PXY(AB) = 0,2 и PY(B)Ўф[0,2; 1]PY(B) k = 0,5 k = 1 k = 2 k = 50 k = 0,2 0,67 0,50 0,33 0,02 0,000,3 0,81 0,71 0,61 0,43 0,420,4 0,88 0,81 0,75 0,63 0,630,5 0,92 0,88 0,83 0,76 0,750,6 0,94 0,92 0,89 0,84 0,830,7 0,96 0,95 0,93 0,90 0,890,8 0,98 0,97 0,96 0,94 0,940,9 0,99 0,99 0,98 0,97 0,971 1,00 1,00 1,00 1,00 1,00Заметим, что случай k = ЎД эквивалентен ситуации, когда значение вероятностиPY(B) известно, и это соответствует самому большому выигрышу в СКО.6. Иллюстрации поведения оценкипри конечных объемах выборкиПо аналогии с исследованием асимптотического поведения оценки рассмотрим величину-( )( )XYnV SP A B DP A B ЎїЎї, (11)зафиксировав конкретные значения вероятностей PXY(AB) и PY(B) и изменяя объемы комплектной и некомплектной выборок. Для начала рассмотрим, как влияетна поведение оценки привлечение небольшого количества некомплектных наблюдений. В табл. 3 приведены значения выигрыша в СКО, полученные для разных объемов комплектных выборок.Т а б л и ц а 3Значения показателя V при PXY(AB) = 0,2 и PY(B) = 0,4M n = 4 n = 10 n = 20 n = 500 1 1 1 11 0,951 0,976 0,985 0,9932 0,919 0,956 0,971 0,9863 0,895 0,939 0,958 0,9804 0,878 0,926 0,946 0,9745 0,864 0,914 0,936 0,9686 0,854 0,904 0,926 0,9627 0,845 0,895 0,917 0,9568 0,837 0,887 0,908 0,951Из табл. 3 видно, что привлечение даже одного дополнительного наблюденияуменьшает СКО оценки, при этом чем меньше размерность комплектной выборки, тем значительнее эффект привлечения информации из некомплектной. Далеерассмотрим обратную ситуацию: некомплектная выборка более многочисленна, чем комплектная (табл. 4).Оценки вероятностей событий при наличии данных с пропусками 51Т а б л и ц а 4Значения показателя V при PXY(AB) = 0,2 и PY(B) = 0,4m n = 5 n = 10 n = 20 n = 5010 0,7765 0,8016 0,7738 0,822520 0,7684 0,7864 0,7370 0,763430 0,7656 0,7808 0,7220 0,733940 0,7641 0,7779 0,7138 0,716250 0,7633 0,7761 0,7086 0,704460 0,7627 0,7749 0,7051 0,696070 0,7623 0,7740 0,7025 0,689780 0,7620 0,7734 0,7005 0,684890 0,7617 0,7729 0,6990 0,6808Таким образом, и при конечных объемах выборки привлечение дополнительной информации позволяет уменьшить СКО оценки вероятности PXY(AB).ЗаключениеПостроены оценка с использованием формулы условной вероятности и адаптивная оценка по методу коррелированных процессов (вид оценок совпадает). Исследованы свойства оценок и асимптотическое поведение. Приведены примерывыигрыша в СКО для конечных объемов комплектной и некомплектной выборок.Проведенное исследование учета дополнительной информации позволяет утверждать, что выигрыш в СКО оценки вероятности PXY(AB) вида (3) по сравнению с эмпирической вероятностью (1) зависит от соотношения между комплектной и некомплектной выборками, а также значений вероятностей PXY(AB) и PY(B).ЛИТЕРАТУРА
Тарима С.С. Использование дополнительной информации при оценке вероятностей и интерпретации натурного эксперимента: дис. ... канд. техн. наук. Томск: ТГУ, 2001.
Чурилова А.А. Корректировка неответов // Материалы матем. семинара «Несплошные статистические исследования». Нижний Новгород, 2000. С. 27.
Литтл Дж.А., Рубин Д.Б. Статистический анализ данных с пропусками. М.: Финансы и статистика, 1991. 430 с.
Котлер Ф. Основы маркетинга: пер. с англ. М.: РосИнтер, 1996. 698 с.
Ядов В.А. Стратегия социологического исследования. М.: Омега-Л, 2007. 567 с.