Двумерный боксплот на основе высокоэффективных робастных оценок масштаба и корреляции
На основе новых «быстрых» высокоэффективных и робастных FQn-оценок масштаба и корреляции предложен двумерный боксплот, ориентированный на визуализацию эллиптически распределенных данных. Обоснован выбор этих оценок и исследована вычислительная сложность алгоритма построения боксплота.
A bivariate boxplot based on robust highly efficient estimators of scale and correlation.pdf В [1] предложен новый способ визуализации данных двумерными FQn-боксплотами, где показано, что FQn-боксплоты более эффективны для данных, распределенных по двумерному нормальному закону, чем другой хорошо зарекомендовавший себя непараметрический боксплот - бэгплот (bagplot) [2]. В разведочном анализе существует ряд методов первоначальной обработки одномерных данных. В настоящей статье рассматриваются проблемы анализа и представления двумерных данных. Отправной точкой в нашем обсуждении служит одномерный боксплот Тьюки [3], изображенный на рис. 1: он представляет собой прямоугольник с высотой, равной выборочному межквартильному расстоянию с отмеченной медианой в качестве оценки параметра положения и так называемыми «усами», зависящими от экстремальных порядковых статистик выборки. Выброс Y о-в- Верхний квантиль Медиана-Нижний квантиль Внутренняя область ' Внешняя область Yr, 0 0 Одномерный боксплот Тьюки Двумерный бэгплот Рис. 1 Классический одномерный боксплот Тьюки и двумерный бэгплот Двумерный боксплот является статистическим средством представления данных на плоскости. Он отображает информацию о параметрах положения, масштаба, асимметрии, «хвостах» и выбросах распределения (см. рис. 1). Для полноты описания двумерного распределения используется дополнительная характеристика статистической взаимосвязи между случайными величинами - коэффициент корреляции. 1. Робастные оценки параметра положения и масштаба Использование робастных оценок параметров распределения (положения, масштаба, корреляции) в боксплотах является традиционным; при этом желательно, чтобы эти оценки были возможно более эффективными. В [4] проводится анализ десяти различных оценок параметров положения двумерных выборок: показано, что наилучшей оценкой является пространственная медиана (spatial median), минимизирующая сумму модулей невязок. Алгоритм вычисления пространственной медианы реализован в среде R; подробное его описание можно найти в [5]. Задача оценивания параметров масштаба занимает второе по значению место после оценивания параметров положения распределения. В общем случае, оценка параметра масштаба определяется статистикой Sn : Sn (ax1,...,axn ) = |a|Sn (x1,•••, xn ). Классической оценкой масштаба является стандартное отклонение, однако при наличии выбросов в выборке стандартное отклонение - неробастная и неэффективная оценка. Методы робастной статистики предлагают более устойчивые статистические оценки для случаев, когда в выборке данных присутствуют выбросы, в частности робастная, высокоэффективная, но вычислительно сложная Qn-оценка масштаба [6]. В [7] предложена «быстрая» робастная высокоэффективная FQn-оценка масштаба, основанная на аппроксимации функции влияния Qn-оценки. Показано, что максимальная эффективность предложенной FQn-оценки достигает 96%, а минимальное возможное ее значение не опускается ниже уровня 81% на нормальном распределении, при этом их пороговая точка (breakdown point) достигает 50%. Вычисление модифицированной FQn-оценки по выборке {xb ..., xn} производится по формуле (1) _-y x. _ med x ( 7 - Л 1 _ 70 FQn (x) = 1,483 MAD 72 где 7k = V , . k ^ 1 ' 1,483 • MAD med x - выборочная медиана, а MAD = 1,483 me^xi _ med x| - медианное абсолютное отклонение. Поправочный коэффициент 1,483 обеспечивает состоятельность оценки MAD и FQn на нормальных распределениях. Параметр масштаба, определяемый в уравнении (1), является одношаговой M-оценкой [7]. В среде R создан пакет{fastqn}, где реализован алгоритм вычисления быстрых FQn-оценок масштаба. u. e z , u. = - 2. Робастное оценивание коэффициента корреляции Классическая оценка корреляции двумерных данных дается выборочным коэффициентом корреляции Пирсона r = - *){Уг - У)/(Х(* - */ (Уг - У/ )^ , - Z - Z Уг v где * =-- и у =--. Как отмечено выше, классические оценки положения и nn масштаба, такие, как арифметическое среднее и дисперсия, неработоспообны в присутствии загрязненных данных. Различные робастные оценки коэффициента корреляции рассматриваются в [8, 9]. В [1] коэффициент корреляции вычисляется по методу минимального определителя ковариационной матрицы [10]. Ковариационная матрица, полученная по методу минимального определителя, является аффинно-эквивариантной оценкой, обладающей высокой эффективностью 88% на двумерном нормальном распределении и пороговой точкой около 25%. Применение метода минимального определителя ковариационной матрицы для построения FQn-боксплота обусловлено его устойчивым поведением в присутствии выбросов, а также его аффинно-эквивариантным свойством. Наряду с робастным коэффициентом по методу минимального определителя в нашей работе используется FQn робастная оценка коэффициента корреляции [11]: r = FQ2(* + y) - FQ2(* - y) (2) FQn FQ2(* + У) + FQ2( * - у/ где векторы * и У центрированы соответствующими компонентами пространственной медианы и нормированы соответствующими FQn-оценками. В работе [8] проведено сравнение различных методов по вычислению коэфи-циента корреляции. В результате такого исследования наилучшим среди робаст-ных оценок коэффициента корреляци является rFQn. 3. Алгоритм построения двумерного ^^и-боксплота Приведем алгоритм построения FQn-боксплота [1]: 1) Заданные точки (*, у) на плоскости преобразуются в новую систему координат (*', у'), определяемую главными осями эллипса равной вероятности для нормального распределения с центром (*c, yc): (*c, yc) = spatial median (*, y) [7], *'= (* - *c) cos a + (y - Ус )sin a y' = -(* - *c )sin a + (y - yc )cos a Л Л Л2 где tg2a = (2rMCD ст 1 ст 2)/(ст 1 -ст 2). Главные оси (*', у) эллипса рассеивания двумерного нормального распределения пропорциональны оценкам масштаба, а угол поворота а главных осей зависит также и от оценки коэффициента корреляции. 2) Выбирается половина ближайших по расстоянию Махаланобиса точек к центру. Выпуклая оболочка этих точек определяет внутреннюю область бокспло-та. Расстояние Махаланобиса точек от центра ц определяется dm =л1 (* -ц/S Ч * -ц) где S - ковариационная матрица, имеющая следующий вид: ( ~ 2 СТ1 Л S = (4) РСТ1 Ст2 ^ ^2 VP СТ 1 СТ 2 СТ 2 у где Ст1 = FQn(х'), ст2 = FQn(у') и р = rFQn. 3) Внешняя область представляет собой выпуклую оболочку множества точек, которые не попали во внутреннюю область и при этом находятся в пределах эллипса, вписанного в прямоугольник со сторонами, параллельными осям х' и у' с левой и правой границами: X'L = max {х^ х - aFQn(х ')}, y'L = max {у^ ус - aFQn(у ')}, XR = min {{ хс + aFQn (х ')}, У'к = min {У(n), Ус + aFQn(У ')}, где а - коэффициент, значение которого выбирается исходя из модели распределения данных. 4) Точки, лежащие за границей внешней области, рассматриваются как выбросы (рис. 2). (5) y Рис. 2 Построение FQв-боксплота ГУ Л' и / (хс,Ус) / V / / х (0,0) 4. Вычислительная сложность алгоритма построения ^^и-боксплота Алгоритмическая сложность двумерного FQn боксплота составляет 0(nV log(n), где n - размер выборки. Ниже приводится список операций над выборкой и их соответственная алгоритмическая сложность: 1) Вычисление ковариационной матрицы минимального определителя является линейной функцией от числа входных данные, т.е. O(n). 2) Сложность перевода точек из одной системы координат в другую составляет O(n). 3) Пространственная медиана вычисляется итеративным алгоритмом О(сп), где в худшем случае с = 500 (с - число итераций). 4)Вычисление приближенной FQn-оценки масштаба составляет O(n). 5) Алгоритм вычисления выпуклой оболочки точек составляет O(n^log(n)), когда точки на плоскости распределены по нормальному закону. у / у / 2 / 1 0 1 104 2-104 3-104 N*J log2 N Рис. 3, Сравнение времени вычисления FQn-боксплота (1) и бэгплота (2) при увеличении размера выборки (преобразование над N: N-у/log N ) Время 40 30 20 10 0 Рис. Итоговая сложность построения нашего двумерного FQn-боксплота составляет O(n-\j log(n) +503n). Исследование сравнения времени вычисления алгоритмов FQn-боксплота и бэгплота показало, что FQn-боксплот работает намного быстрее. Исследование проводилось по методу Монте-Карло с увеличением размера двумерной выборки, распределенной по нормальному закону, от 100-10000. Измерение времени вычисления для каждого размера выборки оценивалось арифметическим средним по времени из 10 разных выборок заданного размера. Вычисления проводились на ЭВМ Intel(R) Core(TM) i7-2620M, 2.7 GHz, Windows 7 64bit. Время 40 30 20 10 0 2 1 4. Сравнение времени вычисления FQn-боксплота (1) и бэгплота (2) при увеличении размера выборки (преобразование над N: N 2) 0 2-107 4• 107 6 107 8• 107 N2 На рис. 3 легко увидеть линейную зависимость времени вычисления FQn-боксплота от преобразованного размера выборки NyJlog N . Применение линейной регрессии свидетельствует о том, что такая зависимость приближается к прямой (коэффициенты наклона и пересечения 0,001 и -3,5) с очень высокой степенью достоверности (R2 = 0,99). Бэгплот в свою очередь имеет вычислительную сложность O(N2). Как можно увидеть из рис. 4, применение линейной регрессии для бэгплота с высокой степенью достоверности (R2 = 0,99) дает квадратичную зависимость времени вычисления от преобразованного размера выборки (коэффициенты наклона и пересечения 4,410-7 и 3,410-2). Заключение Предложеный FQn-боксплот построен на высокоэффективных оценках масштаба и корреляции, что обеспечивает его превосходство над бэгплотом. Рассматриваемые в литературе двумерные боксплоты делятся на два больших класса: ориентированные на данные и модельно-ориентированные боксплоты. Предложенный нами FQn-боксплот относится к классу модельно-ориентированных бок-сплотов, а именно ориентирован на модель двумерного нормального распределения. Превосходство FQn-боксплота над бэгплотом при отбраковке выбросов в случае двумерных нормально распределенных данных объясняется применением робастных высокоэффективных FQn-оценок параметров масштаба и коэффициента корреляции. g 100-о 10 20 30 40 50 Процент смоделированных выбросов Рис. 5 Результаты отбраковки выбросов: правильно обнаруженные выбросы -FQn-боксплот (1) и бэгплот (2); неправильно - FQn-боксплот (3) и бэгплот (4) о На рис. 5 проиллюстрировано поведение FQn-боксплота при увеличении количества выбросов - оно является более устойчивым по сравнению с бэгплотом. Рис. 5 отражает значения чувствительности и специфичности получены для выборки, удовлетворяющей модели Тьюки - Хьюбера в виде засорения типа «сдвиг» [12] с различными значениями параметра засорения е (вероятность появления выбросов в данных или процент смоделированных выбросов). Более подробное описание исследования мощности отбраковки выбросов при помощи двумерного FQn-боксплота можно найти в [1].
Ключевые слова
визуализация,
двумерный боксплот,
робастность,
visualization,
bivariate boxplot,
robustnessАвторы
Андреа Клитон | Санкт-Петербургский государственный политехнический университет | аспирант кафедры прикладной математики физико-механического факультета | kliton.andrea@gmail.com |
Смирнов Павел Олегович | Санкт-Петербургский государственный политехнический университет | доцент кафедры прикладной математики физико-механического факультета | s.paul@mail.ru |
Шевляков Георгий Леонидович | Санкт-Петербургский государственный политехнический университет | профессор кафедры прикладной математики физико-механического факультета | gshevlyakov@yahoo.com |
Всего: 3
Ссылки
Андреа К., Лаврентьева Г.М., Смирнов П.О., Шевляков Г.Л., Визуализация данных двумерными fqn-боксплотами // Высокие технологии, фундаментальные исследования, экономика. Т.1: Сб. статей XII Междунар. научно-практ. конф. «Фундаментальные и прикладные исслед
Rousseeuw P.J., Ruts I, Tukey J.W. The bagplot: A bivariate boxplot // The American Statistician. 1999. V. 53. P. 382-387.
Тьюки Дж. Анализ результатов наблюдений. Разведочный анализ. М.: Мир, 1981.
Masse J.C., Plante J.F. A Monte Carlo study of the accuracy and robustness of ten bivariate location estimators // Computational Statistics & Data Analysis. 2003. V. 42. P. 1-26.
Vardi Y. and Zhang C.H. The multivariate L1-median and associated data depth // PNAS. 1999. V. 97. P. 1423-1426.
Crou C., Rousseeuw P.J. Time-efficient algorithms for two highly robust estimators of scale // Computational Statistics. 1992. V. 1. P. 411-428.
Смирнов П.О., Шевляков Г.Л. Приближение оценки Qn параметра масштаба с помощью быстрых M-оценок // Вестник Сибирского государственного аэрокосмического университета. 2010. Т. 5 (31). С. 83-85.
Shevlyakov G., Smmov P. Robust estimation of the correlation coefficient: An attempt of survey // Austrian J. Statistics. 2011. V. 40. P. 147-156.
Shevlyakov G.L., VtichevsM N.O. Robustness in data analysis: criteria and methods. Utrecht: VSP, 2002. 315 p.
Hubert M., Rousseeuw P.J., Van Aelst S. High-breakdown robust multivariate methods // Statistical Science. 2008. V. 23. P. 92-119.
Bernholt T., Fischer P. The complexity of computing the MCD-estimator // Theoretical Computer Science. 2004. V. 326. P. 383-398.
Ftizmoser P., Identification of Multivariate Outliers: A performance study // Austrian J. Statistics. 2005. V. 34. P. 127-138.