О влиянии ошибок округления на распределения статистик критериев согласия | Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2020. № 53. DOI: 10.17223/19988605/53/5

О влиянии ошибок округления на распределения статистик критериев согласия

Приводятся результаты численных исследований влияния ошибок округления на распределения статистик различных критериев согласия. Показано, что ошибки округления в анализируемых выборках могут приводить к существенным изменениям распределений статистик критериев. Даны рекомендации по применению критериев в таких ситуациях.

About the influence of rounding errors on distributions of statistics of the goodness-of-fit tests.pdf Большинство существующих критериев предназначено для проверки статистических гипотез относительно непрерывных случайных величин. Это стандартное предположение, на которое редко обращают внимание, но которое обусловливает корректность применения соответствующих критериев. В реальных ситуациях это предположение часто нарушается, так как любые измерения сопровождаются некоторой погрешностью округления и в выборках присутствуют повторяющиеся наблюдения, чего не должно быть в случае непрерывности случайной величины. Это типично для данных экономического характера, для измерений, сопровождающих исследования в медицине и биологии, нередко повторяющиеся результаты встречаются в выборках высокоточных измерений, связанных с техническими системами. Очевидно, что наличие погрешностей округления как-то отражается на результатах применения статистических методов, а в некоторых ситуациях влияние ошибок округления может приводить и к неверным статистическим выводам. Поясним, например, что происходит с критерием согласия Колмогорова при проверке простой гипотезы H0 : Fn (х) = F(х) , статистика которого S = -JnDn , где Dn = sup\\Fn (x) - F(x)|, учитывает отклонение эмпирического распределения F„(x) от теоретического F(x), если результаты измерений округляются с некоторым А. Предельным распределением статистики S при справедливости проверяемой гипотезы H0 является распределение Колмогорова K(S). Если «нарушается» стандартное предположение о непрерывности наблюдаемой случайной величины и результаты измерений округляются (фиксируются) с некоторым А, то, начиная с некоторого n (зависящего от вида F(x), от области определения случайной величины и от А), величина Dn с ростом n перестает уменьшаться, а распределение статистики S (при справедливости H0) будет отклоняться от распределения Колмогорова K(S) (чем больше А, тем при меньшем n). В работах [ 1, 2] поведение распределений статистик критериев, предназначенных для проверки различных статистических гипотез, исследовалось в зависимости от А в условиях больших выборок. 47 Б.Ю. Лемешко, С.Б. Лемешко Было показано, что классическими результатами, касающимися распределений статистик, можно пользоваться лишь до определенных объемов выборок n < nmax. При n > nmax из-за естественного присутствия ошибок округления распределения статистик уже существенно отличаются от имеющих место в классической ситуации. Как видим, в случае больших массивов данных (Big Data) из этой ситуации имеется простой выход: в интересах анализа из Big Data следует извлекать выборки, объемом не превышающие «max, тогда, применяя критерии, можно пользоваться классическими результатами. Однако такие же проблемы возникают не только при анализе больших выборок. Например, о возможных проблемах с применением критериев нормальности, связанных с округлением, ранее говорилось в работе [3]. В [4, 5] на примере критериев проверки гипотез о равенстве математического ожидания и дисперсии номинальным значениям, а также критериев Стьюдента об однородности средних и Фишера об однородности дисперсий двух выборок было показано влияние ошибок округления на реальный уровень значимости. Там же было отмечено, что с увеличением А снижается мощность критериев. Но в упомянутых работах не говорится о том, как меняются распределения статистик критериев с ростом ошибок округления и что делать, если такие изменения имеют место. Цель настоящей работы заключается в том, чтобы показать: как в ситуации ограниченных объемов выборок в зависимости от величины ошибки округления могут изменяться распределения статистик различных критериев проверки статистических гипотез; при каких условиях эти изменения нельзя игнорировать; как поступать, чтобы обеспечить в таких условиях корректность вывода по применяемому критерию. Для обеспечения настоящих исследований в вычислительной системе [6], в которой представлен перечень критериев, несколько превышающий множество критериев, охваченных в [7-10], реализована возможность применения этого перечня критериев, а также моделирования распределений статистик соответствующих критериев в условиях нарушения стандартного предположения о непрерывности (при заданной погрешности округления А). Количество имитационных экспериментов при исследовании соответствующих распределений статистик и вычислении оценок достигнутого уровня значимости методами статистического моделирования, как правило, составляло величину не менее N = 106. В руководствах [7-10] мы представили результаты исследований реальных свойств различных групп критериев без учета влияния на эти свойства ошибок округления. В данном случае на примере различных критериев с использованием методов статистического моделирования покажем, как погрешность округления может влиять на распределения статистик критериев проверки различных гипотез при относительно небольших объемах выборок, и что надо делать, чтобы, применяя критерии в этих условиях, обеспечить корректность статистических выводов. Как проблема ошибок округления отражается на свойствах критериев, будет продемонстрировано на группах критериев, используемых при проверке гипотез об отклонении эмпирического распределения от нормального закона и об отклонении от экспоненциального. 1. Влияние ошибок округления на распределения статистик критериев проверки нормальности Во многих приложениях достаточно типична ситуация, когда из-за округления в анализируемых выборках оказывается относительно много повторяющихся значений. Это настораживающий факт, указывающий на то, что реальные распределения GA (Sn |И0) статистик критериев (при погрешности округления А и объемах выборок п) могут существенно отличаться от предельных распределений G(S|Hо) или от G(Sn|H0), имеющих место в ситуации без округления измерений. Наличие некоторого числа повторяющихся наблюдений в выборке еще не свидетельствует об изменении распределения статистики. Но когда величина А оказывается соизмеримой со среднеквадратическим отклонением с закона распределения ошибки измерения, распределение статистики может и не «пытаться» сходиться к предельному закону, а с ростом п будет лишь удаляться от него. 48 О влиянии ошибок округления на распределения статистик критериев согласия В табл. 1 приведены выражения статистик критериев согласия, чаще всего используемых в приложениях. В этот перечень входят критерии: Колмогорова (K) [11] с поправкой Большева [12] (1), Купера (Ku) [13] (2), Крамера-Мизеса-Смирнова (CMS) [12] (3), Ватсона (W) [14, 15] (4), Андерсона-Дарлинга (AD) [16, 17] (5), Жанга [18] (со статистиками Zk, Za, Zc (6)-(8), распределения которых зависят от объемов выборок), критерий %2 Пирсона (X2) (9), критерий Никулина-Рао-Робсона (YП) [19, 20, 21] (10). Критерий Никулина-Рао-Робсона предполагает использование оценок максимального правдоподобия (ОМП) по негруппированным данным. В этом случае распределением 0(У% |Н0) его статистики является _і -распределение. Статистики рассматриваемых критериев согласия Таблица 1 Критерии Статистики критериев K Sz = s["d„ , (1) где Dn = max (в", D_) , d+= max {- _ , D_ = max j F{xt, Ѳ) _ ^-11 ' ' 1

Ключевые слова

критерии согласия, критерии нормальности, критерии экспоненциальности, статистика, распределение статистики, ошибки округления

Авторы

ФИООрганизацияДополнительноE-mail
Лемешко Борис ЮрьевичНовосибирский государственный технический университетпрофессор, доктор технических наук, профессорlemeshko@ami.nstu.ru
Лемешко Станислав БорисовичНовосибирский государственный технический университеткандидат технических наук, старший научный сотрудникskyer@mail.ru
Всего: 2

Ссылки

Лемешко Б.Ю. Лемешко С.Б., Семёнова М.А. К вопросу статистического анализа больших данных // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2018. № 44. С. 40-49. DOI: 10.17223/19988605/44/5
Lemeshko B., Lemeshko S., Semenova M. Features of testing statistical hypotheses under big data analysis // Applied Methods of Statistical Analysis. Statistical Computation and Simulation - AMSA'2019, Novosibirsk, Russia, 18-20 September, 2019 : proc. of the International Workshop. Novosibirsk : NSTU publisher, 2019. P. 122-137.
Pearson E.S., D’Agostino R.B., Bowman K.O. Tests for departure from normality: Comparison of powers // Biometrika. 1977. V. 64. P. 231-246. DOI: 10.1093/biomet/64.2.427-a
Tricker A.R. The effect of rounding on the significance level of certain normal test statistics // Journal of Applied Statistics. 1990. V. 17, No. 1. P. 31-38. DOI: 10.1080/757582644
Tricker A.R. The effect of rounding on the power level of certain normal test statistics // Journal of Applied Statistics. 1990. V. 17, No. 2. P. 219-228. DOI: 10.1080/757582833
ISW - Программная система статистического анализа одномерных наблюдений. URL: https://ami.nstu.ru/~headrd/ISW.htm (дата обращения: 11.02.2020).
Лемешко Б.Ю. Непараметрические критерии согласия : руководство по применению. М. : ИНФРА-М, 2014. 163 с. DOI: 10.12737/11873
Лемешко Б.Ю. Критерии проверки отклонения распределения от нормального закона : руководство по применению. М. : ИНФРА-М, 2015. 160 с. DOI: 10.12737/6086
Лемешко Б.Ю., Блинов П.Ю. Критерии проверки отклонения распределения от равномерного закона : руководство по применению. М. : ИНФРА-М, 2015. 183 с. DOI: 10.12737/11304
Лемешко Б.Ю. Критерии проверки гипотез об однородности : руководство по применению. М. : ИНФРА-М, 2017. 208 с. DOI: 10.12737/22368
Kolmogoroff A.N. Sulla determinazione empirica di una legge di distribuzione // Giornale del Istituto Italiano degli Attuari. 1933. V. 4, No. 1. P. 83-91.
Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. М. : Наука, 1983. 416 с.
Kuiper N.H. Tests concerning random points on a circle // Proceedings of the Koninklijke Nederlandse Akademie van Weten-schappen. Series A. 1960. V. 63. P. 38-47.
Watson G.S. Goodness-of-fit tests on a circle. I // Biometrika. 1961. V. 48, No. 1-2. P. 109-114.
Watson G.S. Goodness-of-fit tests on a circle. II // Biometrika. 1962. V. 49, No. 1-2. P. 57- 63.
Anderson T.W., Darling D.A. A test of goodness of fit // Journal of the American Statistical Association. 1954. V. 29. P. 765-769.
Anderson T.W., Darling D.A. Asymptotic theory of certain “Goodness of fit” criteria based on stochastic processes // The Annals of Mathematical Statistics. 1952. V. 23. P. 193-212.
Zhang J. Powerful goodness-of-fit and multi-sample tests : PhD Thesis / York University. Toronto. 2001. 113 p. URL: http://www.collectionscanada.gc.ca/obj/s4/f2/dsk3/ftp05/NQ66371.pdf (accessed: 03.12.2019).
Никулин М.С. Критерий хи-квадрат для непрерывных распределений с параметрами сдвига и масштаба // Теория вероятностей и ее применение. 1973. Т. XVIII, № 3. С. 583-591.
Никулин М.С. О критерии хи-квадрат для непрерывных распределений // Теория вероятностей и ее применение. 1973. Т. XVIII, № 3. С. 675-676.
Rao K.C., Robson D.S. A chi-squared statistic for goodness-of-fit tests within the exponential family // Communications in Statistics - Theory and Methods. 1974. V. 3. P. 1139-1153.
Статистический анализ данных, моделирование и исследование вероятностных закономерностей. Компьютерный подход / Б.Ю. Лемешко, С.Б. Лемешко, С.Н. Постовалов, Е.В. Чимитова. Новосибирск : Изд-во НГТУ, 2011. 888 с.
Noughabi H.A, Arghami, N.R. General treatment of goodness of fit tests based on Kullback-Leibler information // Journal of Statistical Computation and Simulation. 2013. V. 83. P. 1556-1569.
Noughabi H.A. A new estimator of Kullback-Leibler information and its application in goodness of fit tests // Journal of Statistical Computation and Simulation. 2019. V. 89, No. 10. P. 1914-1934.
Frosini B.V. A survey of a class of goodness-of-fit statistics // Metron. 1978. V. 36, No. 1-2. P. 3-49.
Epps T.W., Pulley L.B. A test for normality based on the empirical characteristic function // Biometrika. 1983. V. 70. P. 723-726.
Hegazy Y.A.S., Green J.R. Some new goodness-of-fit tests using order statistics // Applied Statistics. 1975. V. 24, No. 3. P. 299308.
David H.A., Hartley H.O., Pearson E.S. The distribution of the ratio? In a single normal sample, of range to standard deviation // Biometrika. 1964. V. 512, No. 3-4. P. 484-487.
Geary R.C. Testing for Normality // Biometrika. 1937. V. 34. P. 209-242.
D’Agostino R.B. Transformation to normality of the null distribution of g1 // Biometrika. 1970. V. 57. P. 679-681.
Baringhaus L., Henze N. A class of consistent tests for exponentiality based on the empirical Laplace transform // Annals of the Institute of Statistical Mathematics. 1991. V. 43, No. 3. P. 551-564.
Mimoto N., Zitikis R. The Atkinson index, the Moran statistic, and testing exponentiality // Journal of the Japan statistical society. 2008. V. 38, No. 2. P. 187-205.
Frosini B.V. On the distribution and power of a goodness-of-fit statistic with parametric and nonparametric application // Good-ness-of-fit / ed. by P. Reverz, K. Sarkadi, P.K. Sen // Amdstedam-Oxford-New York : North-Holland. Publ. Comp., 1987. P. 133-154.
Henze N., Meintanis S.G. Tests of fit for exponentiality based on the empirifcal Laplace transform // Statistics: a Journal of Theoretical and Applied Statistics. 2002. V. 36, No. 2. P. 147-161.
Henze N., Meintanis S.G. Recent and classical tests for exponentiality: a partial review with comparisons // Metrika. 2005. V. 61. P. 29-45.
Henze N. A new flexible class of omnibus tests for exponentiality // Communications in Statistics - Theory and Methods. 1993. V. 22, No. 1. P. 115-133.
Klar B. Goodness-of-fit tests for the exponential and the normal distribution based on the integrated distribution function // Annals of the Institute of Statistical Mathematics. 2001. V. 53, No. 2. P. 338-353.
Kimber A.C. Tests for exponential. Weibull and Gumbel distribution based on the stabilized probability plot // Biometrika. 1985. V. 72, No. 3. P. 661-663.
Deshpande J.V. A Class of tests for exponentiality against increasing failure rate average alternatives // Biometrika. 1983. V. 70, No. 2. P. 514-518.
Lemeshko B.Yu. Chimitova E.V., Kolesnikov S.S. Nonparametric goodness-of-fit tests for discrete, grouped or censored data // XIIth Applied Stochastic Models and Data Analysis (ASMDA 2007) International Conference. Book of Abstracts. May 29 -June 1, 2007. Chania, Crete, Greece / ed. C.H. Skiadas. P. 112. URL: https://ami.nstu.ru/~headrd/seminar/publik_ html/LEMESHKO_ASMDA2007_2.pdf (accessed: 18.12.2019).
 О влиянии ошибок округления на распределения статистик критериев согласия | Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2020. № 53. DOI: 10.17223/19988605/53/5

О влиянии ошибок округления на распределения статистик критериев согласия | Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2020. № 53. DOI: 10.17223/19988605/53/5