Рассматривается задача статистической вероятностей событий на основекомплектных и некомплектных наблюдений. Предлагаются оценки с привлечением дополнительной информации, содержащейся в некомплектныхнаблюдениях, а также имеющейся априори, исследуются свойства оценок.
On estimates of the probabilities with missingdata.pdf Объекты наблюдений в социологических [1], экономических и маркетинговыхисследованиях [2] характеризуются многомерным вектором признаков, которыемогут быть как непрерывными, так и дискретными переменными. В процессе на-блюдения объектов случаются пропуски в компонентах вектора признаков, чтоприводит к некомплектным наблюдениям и ставит вопрос об их использовании ванализе данных. Довольно часто их просто исключают из рассмотрения. В другихслучаях пытаются заполнить пропуски, используя различные приемы, и увели-чить число комплектных наблюдений. Главной задачей выборочного метода явля-ется статистическое оценивание долей объектов с заданными значениями призна-ков и анализ соотношения этих долей в соответствии с целями исследования.В этой связи проблема оценки долей при наличии пропусков представляет важ-ную научную и практическую задачу. В статистической практике известны мето-ды статистического анализа данных с пропусками [3,4]. Кроме некомплектныхнаблюдений исследователь дополнительно может располагать априорной инфор-мацией о долях объектов в генеральной совокупности с заданными значениямипризнаков.В связи с этим представляет интерес разработка методов статистического ана-лиза данных и построения оценок с одновременным использованием всей имею-щейся информации, как априорной, так и эмпирической, содержащейся в неком-плектных наблюдениях. Рассмотрение этой задачи на примере оценивания веро-ятности событий по наблюдениям многомерного вектора категориальных призна-ков приводится в данной работе.Практическое применение указанных оценок возникает в выборочных обсле-дованиях некоторых совокупностей, когда требуется оценить долю объектов с за-данным значением некоторого признака в случае известной доли объектов с за-данным значением другого признака. Так, например, при выявлении предпочте-ний избирателей некоторой территории к тому или иному кандидату или партиипроводятся выборочные опросы людей и оцениваются доли избирателей, которыебудут голосовать за конкретного кандидата или партию. При этом о населениитерритории всегда имеется разнообразная статистическая информация (половая,возрастная, национальная, образовательная структура населения и т.д.), которуюможно использовать в оценивании долей с целью повышения точности оценокили сокращения объема наблюдений при заданной точности оценивания.1. Постановка задачиПусть объекты характеризуются r-мерным вектором (X1,…,Xr), компонентыкоторого принимают конечное число значений. Из генеральной совокупности ме-тодом случайной выборки отобраны объекты, составлена матрица данных и ре-зультаты измерений сведены в таблицу сопряженности признаков. В некоторыхкомпонентах вектора часть измерений отсутствует. Будем считать эти пропускислучайными. Наблюдения вектора признаков, в которых пропусков нет, назовемкомплектными, в противном случае − некомплектными. Компоненты Xl прини-мают значения , 1,..., ; 1,..., alml l= rml = sr с вероятностями ( ) { } P Alml =P Xl =alml .Нас будут интересовать как вероятности событий { } Alml=Xl =alml , так и другихвсевозможных событий, связанных с ними. В работе интересующее нас событиебудем обозначать через A, опуская для простоты сопутствующие индексы. Пол-ную группу событий также будем обозначать единообразно H = (H1,…,Hk) . Раз-биения множеств могут быть различными как по составу событий, так и по ихчислу. В частности, это может быть разбиение, связанное с конкретным призна-ком, например Xr, тогда H j =Arj ,j=1,...,sr ,P(Hj )=P(Arj ), k=sr . Разбиения мо-гу быть по паре признаков и т.д. Эмпирическими вероятностями (относительнымичастотами) событий являются1( ) 1 ( ) l lnn lm i lmiP A I An == ,где I(⋅) − индикаторная функция соответствующего события, n - объем выборки.Рассмотрим задачу оценивания P(A), используя наряду с комплектными и не-комплектные наблюдения с целью повышения точности оценки.2. Структура несмещенной оценкиПусть имеется случайная выборка объема n, по которой необходимо оценитьвероятность некоторого события P(A) при условии, что известны вероятностиP(Hj), j = 1,…, k, где совокупность событий H = (H1,…,Hk) образует полную груп-пу событий. Данную информацию можно использовать в структуре оценки P(A),применяя формулы полной вероятности и условной вероятности [5]. Рассмотримследующую оценку:1*1( )( ), если ( ) 0, 1,..., ,( )( ) ( )( ),если ( ) 0, 1,..., , 0 2,( )( ),если ( ) 0, 2.=−=⎧ = ⎪⎪⎪= ⎨ = − ≤ ≤ − ⎪⎪⎪⎩ = = −kn jj n jj n jn k s n jj n jj n jn jP AHP H P H j kP HP A P AHP H P H j k s s kP HP A P H s k
Дмитриев Юрий Глебович | Национальный исследовательский Томский государственный университет | профессор, доктор физико-математических наук, заведующий кафедрой теоретической кибернетики | dmit@mail.tsu.ru |
Боровков A.A. Математическая статистика. М: Наука, 2007. 704 с.
Тарима С.С. Использование дополнительной информации при оценке вероятностей и интерпретации натурного эксперимента: дис. ... канд. техн. наук. Томск: ТГУ, 2001. 149 с.
Чурилова А.А. Корректировка неответов // Материалы семинара «Несплошные статистические исследования». Нижний Новгород, 2000. С. 27.
Литтл Дж.А., Рубин Д.Б. Статистический анализ данных с пропусками. М.: Финансы и статистика, 1991. 430 с.
Котлер Ф. Основы маркетинга: пер. с англ. М.: РосИнтер, 1996. 698 с.
Ядов В.А. Стратегия социологического исследования. М.: Омега-Л, 2007. 567 с.