Об использовании дополнительной информации встатистическом оценивании параметров детерминационного анализа | Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2012. № 3(20).

Об использовании дополнительной информации встатистическом оценивании параметров детерминационного анализа

Рассматривается задача оценивания параметров детерминационного анализав предположении, что имеется некоторая дополнительная информация ораспределении признаков. Строятся различные оценки с использованиемэтой информации и изучаются их свойства. Анализируется влияние учетаинформации на качество оценивания, приводятся примеры применения оценок в анализе реальных данных.

On the use of an additionalinformation in statistical estimate parameter of determinate analysis.pdf Одним из методов анализа социально-экономических данных является детер-минационный анализ (ДА), предложенный С.В. Чесноковым [1]. Этот метод слу-жит для поиска и интерпретации взаимосвязей между переменными (признаками)или группами переменных на основе эмпирических материалов обследований ипредставляет собой вариант исчисления эмпирических условных частот (долей),которые содержатся в таблицах сопряженности. При этом устанавливаются си-туации, в которых по конкретным значениям одних индикаторов можно с извест-ной определенностью предсказывать значения других. Важными характеристика-ми ДА являются интенсивность и емкость, вычисляемые по данным таблицы со-пряженности выделенных признаков и представляющие собой оценки условныхдолей. Точность вычислений этих характеристик можно повысить, если наряду сисходными данными использовать имеющуюся дополнительную информацию обисследуемой генеральной совокупности. В данной работе дополнительная ин-формация выступает в виде знания долей (или числа) объектов генеральной сово-купности с заданными значениями, как изучаемых, так и других признаков. Пред-лагается подход к учету такого вида информации при построении статистическихоценок долей, интенсивности и емкости, анализируется выигрыш в точности оце-нивания, приводятся примеры практического применения.1. Оценки интенсивности и емкостис учетом дополнительной информацииПриведем основные понятия ДА. Пусть у объектов некоторой совокупностивыделены два признаками X и Y. Среди множества значений признака Х имеетсязначение a , а у признака Y - значение b. Согласно [1], правило как детерминация- это условное суждение вида: «Если а, то b» (или сокращенно ab) вместе сдвумя своими характеристиками - точностью и полнотой, которые характеризу-ются соответственно интенсивностью и ёмкостью детерминации, являющимисяусловными долями:( ) ( , )( )I a b N a bN a = , ( ) ( , )( )C a b N a bN b = . (1)Здесь N(a,b) - количество объектов генеральной совокупности, у которых одно-временно X = a и Y = b, N(a) - количество объектов с X = a, N(b) - количествообъектов с Y = b. Интенсивность выражает точность детерминации, а ёмкость - ееполноту. Интенсивность и ёмкость обычно подсчитываются по таблице сопря-женности выделенных признаков, построенной на основании случайной выборкиобъема n.Рассмотрим задачу статистического оценивания характеристик (1) в терминахсобытий А = {X = a}, B = {Y = b}, AВ = {X = a, Y = b} и соответствующих вероят-ностей P(A), P(В) и P(AB). Тогда интенсивность и емкость детерминации ab,которую обозначим как A  B , примут вид( ) ( ) ( )( )I A B P B A P ABP A = = , ( ) ( ) ( )( )С A B P А В P ABP В = = . (2)Пусть случайной выборке объема n соответствуют эмпирические вероятности1( ) 1 ( )nn iiP A I An == ƒ ,1( ) 1 ( )nn iiP В I Вn == ƒ ,1( ) 1 ( )== ƒnn iiP AВ I AВn,где I(⋅) − индикаторная функция соответствующего события. Подставив эти эм-пирические вероятности в (2), получим статистические оценки функции интен-сивности и емкости в виде( )( )= nnnP ABJP A,( )( )= nnnP ABGP В. (3)В объектах, попавших в выборку, могут быть и другие наблюдаемые признаки.Пусть признак Z один из них. Рассмотрим событие С = {Z = c}, для которого из-вестна вероятность Р(С). Другими словами, известна доля объектов генеральнойсовокупности, у которых Z имеет заданное значение c. Используем эту информа-цию для построения оценок вероятностей других событий и характеристик (2).Рассмотрим оценки, основанные на использовании формулы полной вероятности[2]:ˆ ( ) ( | ) ( ) ( | ) ( ) ( ) ( ) ( ) ( )( ) ( )= + =n +nn n nn nP BС P BСP B P B C PС P B C P С PС РСP С Р С, (4)где C - событие противоположное событию С. Применив формулу (4) для оце-нивания вероятности P(A), методом подстановки получим оценки характеристик(2), с учетом имеющейся информации. Анализ свойств получающихся оценок иих сравнение с оценками (3) проведем на примере оценивания интенсивности де-терминации. Далее предполагается, что объем генеральной совокупности доста-точно большой по сравнению с объемом выборки, так что поправкой на беспо-вторность можно пренебречь, и асимптотические соотношения выполняются.Метод подстановки приводит к следующей оценке интенсивности с учетомдополнительной информации:( )( ) ( )ˆ ˆ( ),ˆ( ) ˆˆ(( )) (( )) ( ) (( )) ( )( ) ( )( ) ( )n nn n nn n nn n nn nP ABC P C P ABC P CP AB P C P CJ J P AB P AP A P AC P C P AC P CP C P C+= = =+. (5)Исследуем асимптотическое поведение данной оценки. Поскольку при увеличе-нии n оценки вероятностей сходятся по вероятности к истинным значениям, томожно провести разложение Jˆn в окрестности истинных вероятностей по форму-ле Тейлора с остатком в форме Лагранжа. Имеем( ) ( 2ˆ ( ) 1 ( ) ( ) ( ) ( ) ( ) ( )( ) ( ) ( ) n n n nJ P AB P ABC P ABC P ABC P ABC P AB P ACP A P A P A= + − + − − −)( )( ) ( ) ( ) 1 ( ) ( )()( ( ) ( ))n ( ) ( ) 1 ( ) nP AC P AC P AC P ABC P AB P C P C P CP A P C P C⎡ − ⎤− + − + ⎢⎣− − ⎥⎦ − +( )( ) 2( ) ( ) ( ) ( ) ( ) ( )( ) ( ) 1 ( ) n nP AB P AC P A P C P C P C RP A P C P C⎡ − ⎤+ ⎢⎣ − ⎥⎦ − +. (6)Обозначим главную часть в (6) через ˆJg . Анализ показывает, что математическоеожидание и дисперсия главной части удовлетворяют соотношениямM{Jˆg}=J, nD{Jˆg}= ƒ2 =( )( )222( ) 1 ( ) 1 ( ) ( ) ( )( ) ( ) ( ) 1 ( ) ( )( ) ( ) ( ) ( ) .( )P AB P AB P ABC P AB P CP A P A P C P C P AP AB P AC P A P CP A= ⎛⎜⎝ − ⎞⎟⎠− − ⎡⎣⎢ − −⎤− − ⎥⎦(7)Рассмотрим выражениеn(Jˆn −J)= n(Jˆg −J)+ nRn .В силу центральной предельной теоремы последовательность( ) ( ) 22n Jˆg−J ~N 0,ƒ ,т.е. имеет асимптотически нормальное распределение с нулевым математическиможиданием и дисперсией, определяемыми формулой (7).Последовательность n ⋅ Rn слабо сходится к нулю в силу теоремы непрерыв-ности (см. [3, гл. 6]). Следовательно, последовательность n(Jˆn −J) имеет асим-птотически нормальное распределение с нулевым математическим ожиданием идисперсией 22ƒ . Аналогично показывается, что оценка интенсивности без учетаинформации (см. (3)) является асимптотически нормальной, т.е.( ) ( ) 2n⋅ Jn −J ~N 0,ƒ1 с дисперсией21 2( ) 1 ( )( ) ( )ƒ = ⎛⎜ − ⎞⎟⎝ ⎠P AB P ABP A P A. (8)Сравнение двух выражений (7) и (8) показывает, что учет дополнительной ин-формации в оценивании приводит к уменьшению асимптотической дисперсииоценки на величину( ) 21 ( ) ( ) ( ) ( )( ) 1 ( ) ( ) ( )P ABC P AB P C P ABP C P C P A P Aƒ = ⋅ − ⎡⎢⎣ − −( )2( ) ( ) ( ) P AC P A P C ⎤ − ⎥⎦. (9)Из (9) следует, что при независимости событий А, В и С уменьшения асимптоти-ческой дисперсии нет, так как ƒ = 0 .Выигрыш в точности можно характеризоватьотношением асимптотических дисперсий, т.е. величиной2 211 221 [ ( )( ( ) ( ) ( )) ( )( ( ) ( ) ( )]( ) ( ) ( ) ( )( ( ) ( ))ƒ − − −= = −ƒ −W P A P ABC P AB P C P AB P AC P A P CP A P C P C P AB P A P AB. (10)Формула (10) показывает, что чем W1 ближе к нулю, тем сильнее влияние учетадополнительной информации на точность оценивания интенсивности, и чем бли-же к единице, тем слабее это влияние. При независимости событий А и С величи-на W1 = 1 и выигрыша в точности оценивания нет.Из формул (7) - (10), в частности, следуют выражения для асимптотическойдисперсии и характеристик выигрышей в точности для оценки (4). Для этого нуж-но предположить, что событие A всегда наступает (является достоверным событи-ем). В этом случае, полагая P(A) = 1, P(AB) = P(B), P(AC) = P(C), P(ABC) = P(BC),получим[ ]( )222( ) ( ) ( )( )(1 ( ))( ) 1 ( )P BC P B P CP B P BP C P C−ƒ = − −−,[ ]( )21( ) ( ) ( )( ) 1 ( )P BC P B P CP C P C−ƒ =−; (11)[ ]( ) ( )21( ) ( ) ( )1( ) 1 ( ) ( ) 1 ( )−= −− −P BC P B P CVP C P C P B P B. (12)Данные соотношения применяются для анализа точности оценок вероятностей идругих событий.Аналогичным образом анализируются свойства статистической оценки дляёмкости детерминации( ) ( ) ( )( )G C A B P AB P ABP B=  = = .Статистическая оценка без учета дополнительной информации дается формулой(3), а с учетом информации формулой( )( ) ( )ˆ ˆ( ),ˆ( ) ˆˆ(( )) (( )) ( ) (( )) ( )( ) ( )( ) ( )+= = =+n nn n nn n n nn n nn nP ABC P C P ABC P CP AB P C P CG G P AB P BP B P BC P C P BC P CP C P C. (13)Рассуждениями, аналогичными вышеприведенным, можно показать, что асимпто-тические свойства оценок (3) и (13) следующие:( ) ( ) 2n Gn−G ~N 0,ƒ1 , (* ) ( 2)n⋅ Gn −G ~N 0,ƒ2 ,где асимптотические дисперсии имеют вид21 2( )1 ( ) ,( ) ( )P AB P ABP B P Bƒ = ⎛⎜ − ⎞⎟⎝ ⎠(14)22 22 1 21 ( ) ( )() ( )(( ) ()())( ) ( ) ( ) ( )P ABC P AB P C P AB P BC P B P CP C P C P B P B⎡ − − ⎤ƒ = ƒ − ⎢ − ⎥⎣ ⎦. (15)Второе слагаемое в (15) характеризует величину, на которую уменьшается асимп-тотическая дисперсия при учете имеющейся информации по сравнению с (14).Отношение асимптотических дисперсий оценок ёмкости с учетом дополнитель-ной информации и без её учета характеризуется величиной2 212 22[ ( )( ( ) ( ) ( )) ( )( ( ) ( ) ( 1 ))]( ) ( ) ( ) ( )( ( ) ( ))ƒ − − −= = −ƒ −W P B P ABC P AB P C P AB P BC P B P CP B P C P C P AB P B P AB. (16)Формула (16) показывает, что чем W2 ближе к нулю, тем сильнее влияние учетадополнительной информации на точность оценивания ёмкости, а чем ближе кединице, тем слабее это влияние. В случае независимости событий В и С, а такженезависимости А, В, С, величина W2 = 1 и выигрыша в точности оценивания нет.2. Анализ данных социологического опросаПусть исследователя интересует предпочтение населения к тому или иномукандидату перед предстоящими выборами. Производится опрос населения, и порезультатам опроса делаются выводы и заключения. Респондент - это объект на-блюдения. Выделим два признака: Х - пол респондента (значение X = a - рес-пондент мужчина, X = a - респондент женщина), Y - фамилия кандидата. Пустьинтерес представляет кандидат b. Детерминация ab - это высказывание «еслиреспондент мужчина, то он проголосует за кандидата b»; данному высказываниюприписывается интенсивность I(ab), отражающая его точность, или истин-ность. Емкость С(ab)измеряет долю случаев реализации голосования за b, ко-торая объясняется высказыванием «из a следует b», тем самым она отражает пол-ноту этой детерминации. Интенсивность и емкость выражаются через вероятно-сти P(A) = P{X = a}, P(B) = P{Y = b}, P(AB) = P{X = a,Y = b} по формуле (2).Приведем пример расчетов для реальных данных. В поселении №1 опрошено319 респондентов и по результатам опроса составлена таблица сопряженности двухпризнаков (табл. 1). Кроме того, априори известно общее число избирателей посе-ления − 6380 человек, среди них мужчин - 3780, а женщин - 2600 человек. Такимобразом, доля избирателей мужчин составляет 3780/6380 = 0,5925, а женщин соот-ветственно 0,4075. Это знание используем далее в обработке данных.Т а б л и ц а 1Таблица сопряженности 2  2 по переменным X и Y(объем выборки - 319 человек)Yy = b 38 152y=b 90 39x = a x = a XИз табл. 1 следует, что( ) 129 0,4044319Pn B = ≈ , ( ) 190319Pn B = ,( ) 128 0, 4013319Pn A = ≈ , ( ) 191319Pn A = ,( ) 90 0, 2821319Pn AB = ≈ ; (17)JP A,( ) 90 0,6977( ) 129= n = ≈nnP ABGP В. (18)Таким образом, за кандидата b проголосовало 40,44 % от общего числа опро-шенных респондентов. Эту величину можно уточнить, если учесть имеющуюсяинформацию о долях избирателей мужчин и женщин в поселении. Если исходитьиз общих формул, то в нашем случае это означает, что признак Z совпадает спризнаком X (C = A), P(A) = 0,5925, поэтому P(С) = P(А) = 0,5925. Данную инфор-мацию учтем с помощью формулы (4), полагая в ней С = А и принимая вовнимание вычисленные выше оценки вероятностей. Получим уточненную оценкуPˆn (B)≈0,4998=49,98%, которая отличается от значенияPn(B)на 9,54 % вбольшую сторону. Заметим, что для оценивания интенсивности знание о доляхизбирателей по полу ничего не дает, поскольку при С = А из (5) следует, чтоˆJn= Jn и W1 = 1.Для вычисления показателей выигрыша в точности нужно воспользоваться со-отношениями (11) и (12). Однако в них не все вероятности известны, что делаетневозможным вычисление характеристик точности на практике. В реальности этихарактеристики можно оценить по имеющимся данным. Рассмотрим два способаоценивания и сравним их результаты. Первый способ основан на использованиизначений (17), что приводит к оценкам характеристикƒn1 = 0,0597 и Vn1 = 0,7517. (19)Второй способ основан на оценках вероятностей, построенных с учетом инфор-мации. Вычисления по имеющимся данным приводят к следующим значениям:ˆ ( ) ( ) ( ) 0,4166( )nnnP ABP AB P AP A= ≈ , Pˆn(A)=P(A)≈0,5925, Gˆn ≈ 0,8335. (20)1ƒˆ n = 0.0601, 1 Vˆn = 0,7595 , 2 Wˆn = 0,7264. (21)Сравнение результатов (17)−(21) показывает, что значения оценок вероятностей иемкости без учета информации заметно отличаются от значений оценок вероятно-стей и емкости с учетом информации. Однако при этом значения оценок характе-ристик точности практически совпадают. Значения величин Vn1 , 1 ˆVn , 2 ˆWn говорято том, что учет знания долей избирателей по полу при оценивании вероятностейпозволяет уменьшить объем выборки на 24−25 % для достижения одинаковойточности с обычными оценками, а при оценивании емкости − на 27 %.Пусть признак Z означает возраст респондента и значение с есть возрастнойинтервал (18-34) лет. Известно, что доля избирателей рассматриваемого поселе-ния в таком возрастом интервале равна 0,35, т.е. число таких избирателей равно2233 и P(С) = P{Z = c} = 0,35. Рассмотрим таблицу сопряженности для трех при-знаков X, Y, Z в следующем виде:Т а б л и ц а 2Таблица сопряженности 2  2 по переменным X, Y, Z (n = 319)Zc 34 26 16 13c 56 12 23 139ab ab ab ab XYПрименим приведенные выше формулы для расчета оценок вероятностей, ем-кости и интенсивности с учетом информации о доли избирателей по возрасту(пометим их волной и рядом с оценкой дадим ее точность). Имеем( ) 0,4199 41,99 P

Ключевые слова

contingency table, statistical estimate, additional information, capacity, intensity, determinate analysis, таблица сопряженности, статистические оценки, дополнительная информация, емкость, интенсивность, детерминационный анализ

Авторы

ФИООрганизацияДополнительноE-mail
Дмитриев Юрий ГлебовичНациональный исследовательский Томский государственный университетпрофессор, доктор физико-математических наук, заведующий кафедрой теоретической кибернетикиdmit@mail.tsu.ru
Курицина Светлана ВалерьевнаНациональный исследовательский Томский государственный университетстудентка 5-го курса факультета прикладной математики и кибернетикиsniksa1174@vtomske.ru
Всего: 2

Ссылки

Боровков A.A. Математическая статистика. М: Наука, 2007. 704 с.
Тарима С.С. Использование дополнительной информации при оценке вероятностей и интерпретации натурного эксперимента: дис. … канд. техн. наук, Томск: TГУ, 2002. 149 с.
Чесноков С.В. Детерминационный анализ социально-экономических данных. М: Наука, 1982. 214 с.
 Об использовании дополнительной информации встатистическом оценивании параметров детерминационного анализа | Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2012. № 3(20).

Об использовании дополнительной информации встатистическом оценивании параметров детерминационного анализа | Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2012. № 3(20).

Полнотекстовая версия