К вопросу статистического анализа больших данных | Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2018. № 44. DOI: 10.17223/19988605/44/5

К вопросу статистического анализа больших данных

Рассмотрены методы построения оценок при анализе больших данных (Big Data). Демонстрируется влияние на результаты выводов по критерию %2 Пирсона выбора числа интервалов и способа группирования. Показывается, как влияет на распределения статистик непараметрических критериев согласия ограниченная точность представления данных в больших выборках. Даются рекомендации по применению критериев для анализа больших выборок.

To question of the statistical analysis of big data.pdf Вопросы применения статистических методов к анализу больших массивов данных (Big Data) в последнее время вызывают все больший интерес. Вполне естественно, что для анализа больших данных пытаются применять методы и критерии из обширного арсенала классической математической статистики, используя, в том числе, популярные программные системы статистического анализа. И тут сталкиваются с тем, что хорошо зарекомендовавшие себя методы и алгоритмы становятся неэффективными из-за «проклятия размерности». Популярные критерии проверки гипотез оказываются неприспособленными для анализа выборок даже порядка тысячи наблюдений. Критерии, которые формально можно использовать при объемах выборок n , на практике приводят к отклонению даже справедливой проверяемой гипотезы Hq . В данном случае мы будем касаться только методов и критериев, связанных с анализом одномерных случайных величин, с областью, которая нам наиболее знакома. Можно рассмотреть по крайней мере три ситуации, при которых рост размерности выборок вызывает проблемы в применении методов или критериев. 1. Первая ситуация связана с вычислением оценок параметров. При использовании методов оценивания, оперирующих негруппированными данными, с ростом размерности анализируемых выборок кардинально растут вычислительные затраты, ухудшается сходимость итерационных алгоритмов, используемых при нахождении оценок. Существенным фактором оказывается неробастность оценок. Естественным выходом является использование методов оценивания, предусматривающих группирование данных. 2. Основная причина, исключающая возможность применения к большим выборкам многих критериев проверки статистических гипотез, заключается в зависимости распределений статистик этих критериев от объемов выборок, в результате чего вся информация о распределениях статистик представлена лишь краткими таблицами критических значений для некоторых объемов n. Отметим, что возможность применения такого рода критерия при «разумных» величинах n легко разрешается интерактивным моделированием распределений статистик при данном n и справедливости проверяемой гипотезы Hq [1] с последующим использованием построенного эмпирического распределения Gn (Sn |Hq ) статистики S для оценки достигнутого уровня значимости pvaiue по значению статистики * S , вычисленному по анализируемой выборке. Здесь N - количество имитационных экспериментов при статистическом моделировании Gn (Sn Hq ). 3. Существование предельных распределений статистик критериев не гарантирует корректности статистических выводов при использовании последних для анализа больших выборок. Например, применение к выборкам очень большого объема непараметрических критериев согласия, как правило, приводит к отклонению проверяемой гипотезы, даже когда она справедлива. Причина этого кроется в том, что объемы накапливаемых данных практически не ограничены, а исследуемые показатели зафиксированы с ограниченной точностью. 4. Соглашаясь с наличием проблем в применении непараметрических критериев согласия для больших выборок, специалисты рекомендуют использовать критерий х2 Пирсона. Однако результаты проверки гипотезы по критериям типа х2 бывают неоднозначны, существенно зависят от выбираемого числа интервалов и способа группирования. В данной работе мы затронем проблемы применения к анализу Big Data некоторых критериев согласия и вопросы, связанные с оцениванием параметров моделей законов распределения. 1. Об оценивании параметров Для нахождения оценок параметров законов могут использоваться различные методы. Наилучшими асимптотическим свойствами обладают оценки максимального правдоподобия (ОМП), вычисляемые в результате максимизации функции правдоподобия n е = argmax П f (x.,е), (1) е j=1 или ее логарифма, где е - неизвестный параметр (в общем случае векторный), f (x, е) - функция плотности закона распределения, x1,x2,...,xn - выборка, по которой вычисляется оценка е . Для некоторых законов распределения ОМП параметров получаются в виде просто вычисляемых статистик от элементов выборок, но в большинстве случаев находятся в результате использования некоторого итерационного метода. При вычислении MD-оценок (оценок минимального расстояния) по е минимизируется некоторая мера близости (расстояние) p(F(x, е), Fn (x)) между теоретическим F(x, е) и эмпирическим Fn (x) распределениями. MD-оценки находятся в процессе решения задачи е = arg min p(F(x, е), Fn (x)). (2) е В качестве мер близости можно использовать, например, статистики непараметрических критериев согласия (Колмогорова, Крамера-Мизеса-Смирнова, Андерсона-Дарлинга, Купера, Ватсона и др. [1]). При относительно малых объемах выборок могут использоваться Z-оценки параметров, представляющие собой некоторые линейные комбинации порядковых статистик (элементов вариационного ряда X(1) < X(2) ni = n . i=1 Оценки по группированным данным можно получать в результате минимизации статистики j2 - . k (щ / n - P (9))2 9 = argmin n > ---, (4) g 93 > Pi (9) ( ) а также ряда других статистик. В [2] на основании анализа рассмотренной совокупности методов оценивания параметров по группированным данным показано, что все они при соответствующих условиях регулярности дают состоятельные и асимптотически эффективные оценки, но наиболее предпочтительными оценками являются ОМП. Важным достоинством оценок по группированным данным является робастность [3]. При наличии негруппированных данных к оценкам по группированным данным обращаются редко. Связано это с большей трудоемкостью вычислительного процесса, часто с необходимостью многократного использования численного интегрирования при вычислении P.i (9), и требует соответствующей программной поддержки. В случае больших объемов выборок ситуация меняется. При фиксированном числе интервалов группирования с ростом объемов выборок вычислительные затраты не меняются, а возрастают только с увеличением количества интервалов k . Это значит, что в условиях Big Data целесообразно использовать ОМП по группированным выборкам. Это робастные и асимптотически эффективные оценки. При малом k качество оценок можно улучшать, используя асимптотически оптимальное группирование (АОГ) [4-6], при котором минимизируются потери в информации Фишера, связанные с группированием. 2. О применении критерия j2 Пирсона Статистику критерия согласия j2 Пирсона вычисляют по формуле хЩ = n> (ni/ " - P(9))2 . (5) ' >1 Pi (9) ( ) В случае проверки простой гипотезы при n ^ад эта статистика подчиняется j2 -распределению с r = k - 1 степенями свободы, если верна нулевая гипотеза. При проверке сложной гипотезы и оценивании по выборке m параметров закона статистика (5) 2 в случае справедливости Hq подчиняется jr -распределению с r = k - m - 1 степенями свободы, если оценки получаются минимизацией этой статистики (4) или используются ОМП (3) или другие асимптотически эффективные оценки по группированным данным. При оценивании параметров по негруппированным данным распределение статистики (5) не 2 подчиняется m-1 -распределению. При использовании ОМП по негруппированным данным рекомендуется применять критерий Никулина-Рао-Робсона [7, 8]. Принципиальные проблемы, препятствующие применению критерия j2 Пирсона для анализа Big Data, отсутствуют: возможны только вычислительные трудности. Проиллюстрируем результаты применения критерия Пирсона на примере достаточно большой выборки, принадлежащей нормальному закону с плотностью f (x, 6) = ' exp j-}. j 29, J Выборка объёмом n = 10 смоделирована по стандартному нормальному закону N(0,1) (90 = 0, 9i = 1). В табл. 1 представлены результаты применения критерия при проверке простой гипотезы о принадлежности выборки закону N(0,1) при различном числе интервалов в случае равночастотного группирования (РЧГ) и в случае (АОГ) при k = 15 . При АОГ максимизируется мощность критерия %2 Пир- 9 * сона относительно близких конкурирующих законов [9-11]. В таблице приведены значения X2 статистики (5), вычисленные по выборке, и соответствующие значения достигнутого уровня значимости 2 2* I Pvalue = P{Xn ^ X2 |Яо} . Как можно видеть, результаты зависят как от способа разбиения, так и от числа интервалов. От этого же зависит и мощность критерия [12]. В табл. 2 приведены результаты проверки сложных гипотез. Представлены ОМП 9о и 91 по группированным данным, полученные при соответствующем числе интервалов k , значения статистик 2* Xn и pvalue . Результаты проверки простой гипотезы о согласии с N(0,1) Таблица 1 АОГ РЧГ k = 15 k = 15 k = 50 k = 75 k = 100 k = 500 k = 1000 k = 2000 г2* 7,75162 9,18380 56,8942 79,4904 96,5701 493,995 1044,57 2099,91 pvalue 0,90186 0,81910 0,20475 0,31026 0,55038 0,55482 0,15403 0,05702 Таблица 2 Результаты проверки сложной гипотезы АОГ РЧГ k 15 15 50 75 100 500 1000 2000 0 0 0,000276 0,000301 0,0002440 0,000270 0,000268 0,000277 0,000273 0,000274 01 1,007150 1,002629 1,001730 1,001338 1,001123 1,000399 1,000305 1,000236 y2* 927,9202 99,99627 101,7669 104,5111 112,1514 493,7161 1043,471 2098,605 Pvalue 0,0 5,58e-16 6,50e-06 0,007396 0,139377 0,533166 0,149218 0,055723 ОМП параметров по полной негруппированной выборке 00 = 0,000274 , 61 = 1,000177 . В [13, 14] построены модели распределений статистики (5) для случая проверки сложной гипотезы относительно нормального закона с использованием ОМП по негруппированным данным и применением АОГ. Вы- 2* численное по выборке значение статистики Xn = 6,600521 при k = 15, а полученная в соответствии с приведенной в [13, 14] моделью предельного распределения оценка pvaiue = 0,886707, что свидетельствует о хорошем согласии полной выборки с нормальным законом N(0,000274; 1,000177) . Можно заметить, что и при проверке сложных гипотез результат существенно зависит от числа интервалов k . 3. О применении непараметрических критериев согласия Если опустить рост вычислительных трудностей, то основной причиной возможной некорректности выводов при анализе больших данных с использованием непараметрических критериев согласия является ограниченная точность представления этих данных. Результаты исследований, демонстрирующих влияние точности регистрации данных на распределения статистик, покажем на трех классических критериях согласия. В критерии Колмогорова рекомендуется использовать статистику с поправкой Большева [15]: 1 _6nDn +1 бл/Щ где Dn = max (D+, D-), D+= max i- - F(xi, 9)1, Dn = max -j F(xt, 9) - --1 1; n - объем выборки; ^ ' 1 S^ будут уменьшаться. По величине отклонения оценок pv от 0,5 можно судить о величине погрешности оценки достигнутого уровня значимости pvaiue, вычисляемой по предельному распределению статистики (в случае проверки простых гипотез, соответственно, по K(S), a\(S) и a2(S)). В табл. 3 представлены оценки медиан Sn эмпирических распределений статистик и соответствующие вероятности pv - P^S > S^ , вычисляемые по предельным распределениям статистик критериев при проверке простой гипотезы о принадлежности выборок стандартному нормальному закону в зависимости от объемов выборок п при регистрации наблюдений с округлением до заданного числа знаков после десятичной точки. В первой колонке таблицы приведены значения Sn и pv=P^S>Sn^ для предельных распределений статистик. „ /-_ 1 6nDn +1 ^^ = VnD„ +-j==-^~, (6) Таблица 3 Оценки медиан эмпирических распределений статистик и вероятностей pv Критерий Колмогорова K (S) n = 10 n = 20 n = 30 n = 40 n = 50 n = 100 о" II < sn ",827574 ",8261 0,8389 0,8480 0,8618 0,8721 0,9149 Р v 0,5 0,5023 0,4897 0,4663 0,4597 0,4235 0,3724 K (S) n = 50 n = 100 n = 200 n = 300 n = 500 n = 1 000 С5 о" II < s„ ",827574 ",8289 0,8309 0,8311 0,8348 0,8385 0,85233 p v 0,5 ",4994 0,4962 0,4937 0,4882 0,4840 0,4618 K (S) n = 500 n = 1000 n = 5 000 n = 10 000 n=20000 n = 50 000 С5 о" II sn ",827574 ",8271 0,8280 0,8301 0,8353 0,8423 0,8538 < p v 0,5 0,5007 0,4994 0,4960 0,4879 0,4770 0,4596 Критерий Крамера-Мизеса-Смирнова a1(S) n = 20 n = 30 n = 40 n = 50 n = 100 n = 150 о" и < sn ",11888 0,1214 0,1218 0,1223 0,1231 0,1267 0,1304 p v 0,5 0,4897 0,4882 0,4861 0,4832 0,4690 0,4551 a1(S) n = 100 n = 500 n = 1 000 n = 5 000 n = 10 000 n = 20000 С5 о" II < s„ ",11888 0,1192 0,1193 0,1198 0,1229 0,1263 0,1340 p v 0,5 0,4988 0,4984 0,4962 0,4838 0,4708 0,4423 a1(S) n = 10 000 n = 5 x 104 n = 105 n = 2 x 105 n = 5 x 105 n = 106 С5 сТ II sn ",11888 0,11886 0,11890 0,11887 0,11967 0,1210 0,1250 < p v 0,5 0,5001 0,4999 0,5000 0,4968 0,4913 0,4756 Критерий Андерсона-Дарлинга a 2(S) n = 20 n = 30 n = 40 n = 50 n = 100 n = 150 о" и < sn ",774214 0,7798 0,7842 0,7883 0,7931 0,8138 0,8334 p v 0,5 0,4958 0,4926 0,4895 0,4860 0,4712 0,4575 a 2(S) n = 100 n = 500 n = 1 000 n = 5 000 n = 10 000 n = 20000 С5 сТ II < s„ ",774214 0,7744 0,7759 0,7792 0,7956 0,8144 0,8523 p v 0,5 0,5002 0,4987 0,4963 0,4842 0,4708 0,4448 a 2(S) n = 10 000 n = 5 x 104 n = 105 n = 2 x 105 n = 5 x 105 n = 106 С5 о" 11 sn ",774214 0,7753 0,7762 0,7767 0,7778 0,7922 0,8153 < p v 0,5 0,4992 0,4985 0,4982 0,4973 0,4867 0,4701 При округлении с точностью до 1 в выборках, принадлежащих N(0,1), может появляться 9 уникальных значений, при округлении с точностью до Д = 0,1 - порядка 86 уникальных значений, с точностью А = 0,01 - порядка 956, с точностью до Д = 0,001 - порядка 9 830. Как показали результаты моделирования, при округлении наблюдений до целых значений использование предельных распределений статистик критериев абсолютно исключено. При А = 0,1 распределения статистики критерия Колмогорова G(Sn ) обладают существенной дискретностью. Для критерия Колмогорова отклонение G(Sn\H0) от предельного распределения K(S) при Д = 0,1 следует учитывать уже для n > 20, при А = 0,01 - для n > 250 , при Д = 0,001 величина nmax сдвигается до величины порядка 104. В случае критериев Крамера-Мизеса-Смирнова и Андерсона-Дарлинга отклонение G(Sn\H0) от предельных a1(S) и a2(S) при Д = 0,1 надо учитывать для n > 30, при Д = 0,01 - для n > 1000, при Д = 0,001 величина nmax сдвигается до 5 х 105 . Следовательно, при анализе Big Data с использованием соответствующего непараметрического критерия согласия статистика должна вычисляться не по всему большому массиву, а по выборкам, извлекаемым по равномерному закону из «генеральной совокупности», роль которой в данном случае играет анализируемый большой массив данных. Объем извлекаемой выборки должен учитывать точность фиксируемых данных (количество возможных уникальных значений в выборке) и не превышать некоторой величины nmax , при которой (при данной точности) распределение статистики G(S^x |Hq) критерия при справедливости Hq еще реально не отличается от предельного распределения G(S|H0) этого критерия. При проверке сложных гипотез проверяемая гипотеза имеет вид Hq : F(x) е {F(x, 9), 9 е 0}, где 0 - область определения параметра 9 . Если оценка 0 скалярного или векторного параметра закона опирается на ту же самую выборку, по которой проверяется гипотеза, то распределение статистики G(S|Hq) любого непараметрического критерия согласия существенно отличается от предельного, имеющего место при проверке простой гипотезы [17]. При оценивании параметров по этой же выборке на закон распределения статистики G(S|Hq) влияют следующие факторы [1]: вид наблюдаемого закона распределения F(x, 9) , соответствующего истинной гипотезе Hq ; тип оцениваемого параметра и число оцениваемых параметров; в некоторых ситуациях конкретное значение параметра (например, в случае гамма-распределения и т.п.); используемый метод оценивания параметров. Очевидно, что в случае проверки сложных гипотез при анализе Big Data с ограниченной точностью фиксируемых данных мы столкнемся с теми же проблемами и должны извлекать из «генеральной совокупности» выборки объема n < nmax, чтобы использовать, например, модели предельных распределений статистик критериев, имеющие место при проверке сложных гипотез [1, 18-20]. Если оценку 9 вектора параметров находить одним из рассмотренных выше методов по всему массиву больших данных, а далее критерий применять к выборке объема n < nmax, извлекаемой из этого же массива, то при проверке гипотезы Hq : F(x) = F(x, 9) , где 9 - полученная ранее оценка, распределение статистики G(S|Hq) будет то же самое, что и при проверке простой гипотезы. Заключение В случае больших выборок целесообразно использование методов оценивания параметров, предусматривающих группирование данных. В отличие от оценок по негруппированным данным они робастны, а вычислительные затраты не зависят от объемов выборок. Нет препятствий для применения к большим выборкам критерия %2 Пирсона: он сохраняет как свои положительные качества, так и свойственные ему недостатки. Ограниченная точность представления данных в больших выборках влияет на распределения статистик непараметрических критериев согласия. Поэтому эти критерии целесообразно применять к выборкам, извлекаемым из Big Data, объем которых ограничивается точностью представления этих данных (количеством возможных уникальных значений в выборке).

Ключевые слова

Big Data, оценивание параметров, проверка гипотез, критерии согласия, Big Data, parameter estimation, hypothesis testing, goodness-of-fit test

Авторы

ФИООрганизацияДополнительноE-mail
Лемешко Борис ЮрьевичНовосибирский государственный технический университет профессор, доктор технических наук, главный научный сотрудник кафедры теоретической и прикладной информатики факультета прикладной математики и информатикиLemeshko@ami.nstu.ru
Лемешко Станислав БорисовичНовосибирский государственный технический университет кандидат технических наук, старший научный сотрудник кафедры теоретической и прикладной информатики факультета прикладной математики и информатикиskyer@mail.ru
Семенова Мария АлександровнаНовосибирский государственный технический университет кандидат технических наук, доцент кафедры теоретической и прикладной информатики факультета прикладной математики и информатикиvedernikova.m.a@gmail.com
Всего: 3

Ссылки

Лемешко Б.Ю. Непараметрические критерии согласия : руководство по применению. М. : ИНФРА-М, 2014. 163 с. DOI: 10.12737/11873.
Рао. С.Р. Линейные статистические методы и их применения. М. : Наука, 1968. 548 с.
Лемешко Б.Ю. Группирование наблюдений как способ получения робастных оценок // Надежность и контроль качества. 1997. № 5. С. 26-35.
Куллдорф Г. Введение в теорию оценивания по группированным и частично группированным выборкам. М. : Наука, 1966. 176 с.
Денисов В.И., Лемешко Б.Ю., Цой Е.Б. Оптимальное группирование, оценка параметров и планирование регрессионных экспериментов : в 2 ч. / Новосиб. гос. техн. ун-т. Новосибирск, 1993. 347 с.
Статистический анализ данных, моделирование и исследование вероятностных закономерностей. Компьютерный подход / Б.Ю. Лемешко, С.Б. Лемешко, С.Н. Постовалов, Е.В. Чимитова. Новосибирск : Изд-во НГТУ, 2011. 888 с.
Никулин М.С. О критерии хи-квадрат для непрерывных распределений // Теория вероятностей и ее применение. 1973. Т. XVIII, № 3. С. 75-676.
Rao K.C., Robson D.S. A chi-squared statistic for goodness-of-fit tests within the exponential family // Commun. Statist. 1974. V. 3. P. 1139-1153.
Денисов В.И., Лемешко Б.Ю. Оптимальное группирование при обработке экспериментальных данных // Измерительные информационные системы. Новосибирск, 1979. С. 5-14.
Лемешко Б.Ю. Асимптотически оптимальное группирование наблюдений - это обеспечение максимальной мощности критериев // Надежность и контроль качества. 1997. № 8. С. 3-14.
Лемешко Б.Ю. Асимптотически оптимальное группирование наблюдений в критериях согласия // Заводская лаборатория. 1998. Т. 64, № 1. С. 56-64.
Лемешко Б.Ю., Чимитова Е.В. О выборе числа интервалов в критериях согласия типа %2 // Заводская лаборатория. Диагностика материалов. 2003. Т. 69, № 1. С. 61-67.
Лемешко Б.Ю. Критерии проверки отклонения распределения от нормального закона : руководство по применению. М. : ИНФРА-М, 2015. 160 с. DOI: 10.12737/6086.
Лемешко Б.Ю. Критерии согласия типа хи-квадрат при проверке нормальности // Измерительная техника. 2015. № 6. С. 3-9.
Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. М. : Наука, 1983. 416 с.
Anderson T.W., Darling D.A. A test of goodness of fit // J. Amer. Statist. Assoc. 1954. V. 29. P. 765-769.
Kac M., Kiefer J., Wolfowitz J. On tests of normality and other J. tests of goodness of fit based on distance methods // Ann. Math. Stat. 1955. V. 26. P. 189-211.
Лемешко Б.Ю., Лемешко С.Б. Модели распределений статистик непараметрических критериев согласия при проверке сложных гипотез с использованием оценок максимального правдоподобия. Ч. I // Измерительная техника. 2009. № 6. С. 3-11.
Лемешко Б.Ю., Лемешко С.Б. Модели распределений статистик непараметрических критериев согласия при проверке сложных гипотез с использованием оценок максимального правдоподобия. Ч. II // Измерительная техника. 2009. № 8. С. 17-26.
Lemeshko B.Yu., Lemeshko S.B., Postovalov S.N. Statistic Distribution Models for Some Nonparametric Goodness-of-Fit Tests in Testing Composite Hypotheses // Communications in Statistics - Theory and Methods. 2010. V. 39, No. 3. P. 460-471.
 К вопросу статистического анализа больших данных | Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2018. № 44. DOI: 10.17223/19988605/44/5

К вопросу статистического анализа больших данных | Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2018. № 44. DOI: 10.17223/19988605/44/5