Проверка гипотезы о виде распределения по интервальным данным
Рассматривается ICM(Iterative Convex Мтогап^-алгоритм построения непараметрической оценки функции распределения по интервальным данным. Предлагаются критерии согласия, основанные на расстоянии между предполагаемой функцией распределения и её непараметрической оценкой. Применение критериев согласия опирается на статистическое моделирование условных распределений статистик данных критериев в интерактивном режиме проверки гипотезы о виде распределения.
Testing goodness-of-fit with interval data.pdf Основы анализа интервальных данных были заложены в метрологии, где интервал неопределенности вводится естественным образом. Предполагается, что каждое наблюдение - это величина, измеренная прибором, который имеет абсолютную ошибку измерения А . Таким образом, если точное значение наблюдаемого параметра объекта равно x, ошибка измерения равна e е[-А,А], то точечное наблюдение выглядит как x = x + e. В этом случае мы имеем дело с точечной выборкой Xn =|Х1,...,Xn}. При проведении статистического анализа на основе точечных выборок мы, по сути, не учитываем величину погрешности измерения А . Однако существует и другой подход, который заключается в представлении наблюдения в виде интервала (x - А, x + А) = (L, R) , тогда для выборки из n наблюдений получаем интервальную выборку вида In ={(L1,R),...,(Ln,Rn)} . Интервальные наблюдения рассматриваются во многих современных исследованиях, например в [1-8]. В каждой из них аргументируется необходимость развития методов математической статистики, когда результаты наблюдений - не числа, а интервалы. 1. Непараметрическая оценка функции распределения. ICM-алгоритм Основная идея построения непараметрической оценки функции распределения по интервальным данным заключается в том, что находится максимум логарифма функции правдоподобия ln L (In ) = £ ln (F (R,) - F (L,)) i=1 по значениям функции распределения в граничных точках интервалов наблюдений при соблюдении условия монотонности функции распределения. Однако решение данной оптимизационной задачи методом штрафных функций требует больших вычислительных ресурсов. Вместо этого целесообразно использование специальных алгоритмов. Одним из таких алгоритмов является алгоритм Тёрнбулла [9], подробное описание которого представлено в [5, 10, 11]. Однако данный алгоритм требует значительных вычислительных затрат, поэтому рекомендуется использовать ICM-алгоритм, предложенный в [1214]. В [10, 11] показано, что время вычисления оценки по ICM-алгоритму существенно меньше, чем по алгоритму Тёрнбулла. Идея ICM-алгоритма заключается в том, чтобы свести задачу максимизации функции правдоподобия к задаче построения изотонической регрессии [12]. Для оценивания функции распределения F(x) вводится разбиение 0
Ключевые слова
интервальные данные,
алгоритм Тёрнбулла,
ICM-алгоритм,
критерии согласия,
interval data,
nonparametric estimation of distribution function,
Turnbull algorithm,
ICM-algorithmАвторы
Вожов Станислав Сергеевич | Новосибирский государственный технический университет | аспирант кафедры теоретической и прикладной информатики | vss920414@gmail.com |
Чимитова Екатерина Владимировна | Новосибирский государственный технический университет | доцент, кандидат технических наук, доцент кафедры теоретической и прикладной информатики | chimitova@corp.nstu.ru |
Всего: 2
Ссылки
Kreinovich V. Interval computations and interval-related statistical techniques: estimating uncertainty of the results of data processing and indirect measurements // Advanced Math-ematical and Computational Tools in Metrology and Testing X. Singapore : World Scien-tific, 2015. P. 38-49. (Book series: Advances in Mathematics for Applied Sciences. V. 86). DOI: 10.1142/9789814678629_0014.
Вощинин А.П. Интервальный анализ данных: развитие и перспективы // Заводская лаборатория. 2002. Т. 68, № 1. С. 118-126.
Вощинин А.П. Метод анализа данных с интервальными ошибками в задачах проверки гипотез и оценивания параметров неявных линейно параметризованных функций // Заводская лаборатория. 2000. Т. 66, № 3. С. 51-64.
Орлов А.И. Основные идеи статистики интервальных данных // Научный журнал КубГАУ. 2013. № 94 (10). С. 1-26.
Зенкова Ж.Н., Краковецкая И.В. Непараметрическая оценка Тёрнбулла для интервально-цензурированных данных в марке тинговом исследовании спроса на биоэнергетические напитки // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2013. № 3 (24). С. 64-69.
Лемешко Б.Ю., Постовалов С.Н. Об оценивании параметров распределений по интервальным наблюдениям // Вычислитель ные технологии. 1998. Т. 3, № 2. С. 31-38.
Лемешко Б.Ю., Постовалов С. Н. О решении задач статистического анализа интервальных наблюдений // Вычислительные технологии. 1997. Т. 2, № 1. С. 28-36.
Лемешко Б.Ю., Постовалов С.Н. Статистический анализ наблюдений, имеющих интервальное представление // Сборник научных трудов НГТУ. Новосибирск : Изд-во НГТУ, 1996. № 1. С. 3-12.
Turnbull B.W. Nonparametric estimation of a survivorship function with doubly-censored data // J. Am. Statist. Assoc. 1974. V. 69. P. 169-73.
Вожов С.С. Исследование свойств непараметрической оценки функции распределения по интервальным данным // Сборник научных трудов НГТУ. Новосибирск : Изд-во НГТУ, 2015. № 1 (79). С. 33-44.
Vozhov S., Chimitova E. Investigation of Maximum Likelihood Estimates and Goodness-of-Fit Tests for Data with Known Measurement Error // Applied methods of statistical analysis. Applications in survival analysis, reliability and quality control. AMSA'2015, Novosibirsk, 14-19 Sept. 2015 : proc. of the intern. workshop. Novosibirsk : NSTU publ., 2015. P. 124-130.
Groeneboom P. Asymptotics for interval censored observations // Technical Report 87-18. Department of Mathematics, University of Amsterdam, 1987. 69 p.
Groeneboom P. Nonparametric maximum likelihood estimation for interval censored data // Technical Report, Statistics Department, Stanford University, 1991. 87 p.
Groeneboom P., Wellner J.A. Information Bounds and Nonparametric Maximum Likelihood Estimation. Basel : Birkhauser Verlag, 1992. 126 p.