Вычисление обобщенных оценок и иерархическая группировка признаков | Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2015. № 4(33).

Вычисление обобщенных оценок и иерархическая группировка признаков

Рассматривается процесс формирования нового признакового пространства, размерность которого меньше исходного. Предлагается последовательный отбор непересекающихся подмножеств разнотипных признаков в описании объектов и нелинейное отображения их на числовую ось. При отборе используется правило иерархической группировки для попарного объединения признаков. Решение принимается по значениям степени размытости результатов отображения объектов классов на числовой оси.

Computation generalized estimates of objects and hierarchical clustering of features.pdf Обобщённые оценки - это агрегированные (комбинированные) показатели, которые в [1] использовались для отображения отношений между объектами двух классов в разнотипном признаковом пространстве на числовую ось. Было разработано два метода вычисления оценок: стохастический и детерминистический. Критерием для выбора параметров алгоритма стохастического метода служила максимальная разность (отступ) между линейными проекциями двух объектов из разных классов. Из минимального значения на числовой оси одного класса вычиталось максимальное значение другого класса. Одним из применений метода было отображение описаний (визуализация) объектов [2] на плоскость. В алгоритме детерминистического метода применялось разбиение на интервалы доминирования значений количественных признаков объектов одного из двух классов. При вычислении обобщённой оценки объекта использовались значения функций принадлежности к интервалам доминирования для количественных признаков и частоты встречаемости градаций для номинальных признаков. Переход к однотипным шкалам измерений и поэтапное сокращение размерности признакового пространства посредством вычисления обобщённых оценок объектов описан в [3]. На первом этапе обобщённая оценка объекта по номинальным признакам интерпретировалась как значение нового (латентного) количественного признака. На втором этапе вычисление оценки производилось по расширенному множеству количественных признаков. Результаты вычислительного эксперимента в [3] по выборке данных GERMAN из [4] показали, что обобщающая способность решающих правил на основе обобщённых оценок выше, чем у известного метода LDA [5]. Потребность во введении латентных признаков возникает при поиске спрямляющего пространства, в котором объекты из разных классов были бы линейно разделимы. В методе опорных векторов SVM [6] нелинейность разделяющей поверхности достигается за счёт использования ядерных функций, поиск параметров дискриминантных функций производится путём максимизации отступа между объектами двух классов в новом (спрямляющем) признаковом пространстве. В данном исследовании предлагается правило для агломеративной иерархической группировки разнотипных признаков с целью нелинейного отображения их значений в описании объектов на числовую ось. Результаты нелинейного отображения рассматриваются как значения обобщённых оценок (новых признаков) в описании объектов. Предложены критерии, на основе которых определяются число обобщённых оценок (непересекающихся групп), количество исходных признаков, входящих в группу, и их состав. Решающие правила по значениям каждого нового признака в описании объектов образуют совокупность базовых алгоритмов. Базовый алгоритм может рассматриваться как самостоятельный классификатор либо использоваться в композиции с другими алгоритмами. Вычисление обобщенных оценок с помощью иерархической агломеративной группировки целесообразно по нескольким причинам: - обобщённые оценки образуют новое признаковое пространство, размеры которого меньше исходного; - решается проблема использования алгоритмов классификации, реализация которых была неэффективна из-за большой размерности признакового пространства либо возможна при одном типе шкал измерений; - в процессе группировки происходит последовательный отбор информативных наборов признаков; - нелинейное отображение описаний объектов на числовую ось по определяемым комбинациям признаков является средством обнаружения устойчивых логических закономерностей (новых знаний) в хранилищах данных. 1. Обобщенные оценки объектов на базе иерархической группировки признаков Рассматривается множество из T допустимых объектов, разбитое на 2 непересекающихся подмножества (класса). Представители классов K1, K2 заданы через выборку (подмножество T) объектов E0 = {Sb...,Sm}, E0 = K1UK2. Объекты выборки описываются с помощью n разнотипных признаков X(n) = (xb...,xn), множество допустимых значений 2, из которых измеряются в интервальных шкалах, n - 2, - в номинальной. На E0 задано правило последовательного разбиения набора X(n) на непересекающиеся подмножества X1(^1),..., XT(kT), т > 1, k1+.+kT < n. Требуется для каждого Xi(ki) определить алгоритм Ai (распознающий оператор в терминологии алгебраического подхода к распознавания образов Ю.И. Журавлёва [7]) для отображения значений признаков изXi(ki) в описании объекта Sj е E0, j = 1,...,m, в значение (обобщённую оценку) на числовой оси. Обозначим множество номеров количественных и номинальных признаков соответственно как I и J. Процесс последовательного вычисления значений обобщённых оценок (новых признаков) реализуется алгоритмом иерархической агломеративной группировки по описываемому ниже правилу. Для идентификации признаков в описании объектов на p-м шаге 0 < p < n иерархической группировки будем использовать {xf }ia(/U/). В процессе группировки и формирования обобщённых оценок состав элементов и мощность множеств I и /, |I| +|J| < n будут изменятся. В зависимости от шкал измерений признаков, объединяемых в группы, используются различные способы вычисления их параметров для отображения на числовую ось. Для количественных признаков это производится следующим образом. Упорядоченное множество значений признака xf, j е I, p > 0, объектов из E0 разделим на два интервала [c?, c2p ],(c2p, c3p ], каждый из которых рассматривается как градация номинального признака. Критерий для определения границы cf основывается на проверке гипотезы (утверждения) о том, что каждый из двух интервалов содержит значения количественного признака объектов только одного класса. Пусть u],u2 - количество значений признака xp , j е I, класса K,, i = 1,2, соответственно в интервалах [c]p, c2p ],(c2p, c3p ]; |K| > 1, v - порядковый номер элемента упорядоченной по возрастанию последовательности r.,..., r. ,..., у. значений xf из E0, определяющий границы интервалов как c/p = у, , Л Jv Jm J Л c2f = r, cf = r, . Критерий ( 2 4Y 2 2 Л £u1 ( - 1)+u2( -1) ££uf - Щ-,, d =1 i=1_ 2 K1 K2 d (1) i=1 ^ max c'p

Ключевые слова

обобщённые оценки, иерархическая группировка, логические закономерности, отступ, generalized estimates, hierarchical clustering, logical regularity, margin

Авторы

ФИООрганизацияДополнительноE-mail
Игнатьев Николай АлександровичНациональный университет Узбекистанадоктор физико-математических наук, профессор кафедры программных и сетевых технологий механико-математического факультетаignatev@rambler.ru
Всего: 1

Ссылки

Игнатьев Н.А. Вычисление обобщённых показателей и интеллектуальный анализ данных // Автоматика и телемеханика. 2011. № 5. С. 183-190.
Игнатьев Н.А. О конструировании признакового пространства для поиска логических закономерностей в задачах распозна вания образов // Вычислительные технологии. 2012. Т. 17, № 4. С. 56-62.
Игнатьев Н.А., Нуржонов Ш.Ю. Выбор параметров регуляризации для повышения обобщающей способности дискриминантных функций // Узбекистан Республикаси Курол Кучлари академиясининг хабарлари. 2014. № 1 (14). C. 81-87.
Asuncion A., Newman D.J. UCI Machine Learning Repository // University of California, Irvine. 2007. URL: www.ics.uci.edu/mlearn/MLRepository.html
URL: http://www.mathworks.com/help/stats/discriminant-analysis.html
Потапов А.С. Технологии искусственного интеллекта. СПб. : СПбГУ ИТМО, 2010. 218 с.
Журавлёв Ю.И. Об алгебраическом подходе к решению задач распознавания или классификации // Проблемы кибернетики. М. : Наука, 1978. Т. 33. С. 5-68.
Жамбю М. Иерархический кластер-анализ и соответствия. М. : Финансы и статистика, 1988. 342 с.
 Вычисление обобщенных оценок и иерархическая группировка признаков | Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2015. № 4(33).

Вычисление обобщенных оценок и иерархическая группировка признаков | Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2015. № 4(33).