Вопросы сравнения разнотипных векторовв задачах управления социальными системами | ПУСС. 2010. № Том 2. Выпуск 3.

Вопросы сравнения разнотипных векторовв задачах управления социальными системами

Обсуждаются возможности и преимущества использования информационных мер различия и сходства для упорядочения объектов с разнотипным (разношкальным) описанием при непараметрическом уровне неопределенности.

On the Comparison of HeterogeneousVectors in Problems of Governance.pdf 1. Введени е«Всё познается в сравнении» - гласит народная мудрость. Другая,не менее мудрая максима, которую часто можно услышать, звучит так:«Наука начинается там, где начинаются измерения». Действительно, что-бы корректно, «научно» что-то сравнивать, необходимо иметь измерения,желательно полученные в «сильных» шкалах (что нечасто удается). Во-прос о том, кто быстрее пробежал стометровку, обычно не вызывает боль-ших разногласий. А вот определить, кто лучший в художественной гим-настике или в фигурном катании, - предмет многочисленных дискуссийи закулисных игр. Причина сложностей в последней ситуации заключа-ется, во-первых, в использовании более слабых (по сравнению со шкалойизмерения времени для беговых видов спорта) порядковых шкал, и, во-вторых, процедура суммирования баллов (по двум качественно разнымхарактеристикам) для получения итоговой оценки с точки зрения теорииизмерений далеко небезупречна. Надо ли говорить, насколько подобныепроблемы усугубляются, когда объекты описываются многими разнотип-ными (разношкальными) переменными. Именно с такой ситуацией мысталкиваемся при решении задач описания и управления в социальныхсистемах, где процедура сравнения, упорядочения объектов играет клю-чевую роль. Настоящая работа посвящена обсуждению упомянутых про-блем на примере сравнения качества и уровня жизни. Решение этой за-дачи уже содержит многие особенности, с которыми могут столкнутьсяспециалисты при управлении социальными системами.Проблеме измерения, анализа качества жизни, её уровня, определе-нию содержания этих понятий посвящены статьи в специализированномжурнале «Уровень жизни населения регионов России» (см. [1, 2]). Раз-нообразие точек зрения по этим вопросам дает основание утверждать,что словосочетания «качество жизни» и «уровень жизни» относятся к по-нятиям с «мерцающими» смыслами. Можно назвать две основные при-чины, приводящие к нечёткости, расплывчатости, «мерцанию» смысловэтих понятий.Первая из них - состав учитываемых показателей, свойств, характе-ристик, «причастных» к раскрытию смысла понятий качества или уровняжизни. Здесь желание перечислить как можно более полный перечень,который бы согласовался с интуитивными или научными представле-ниями об этих понятиях, сталкивается с невозможностью практическогоизмерения части из этих показателей либо отсутствием статистическихданных о показателях (в принципе измеряемых) для ряда стран или ре-гионов. Компромиссный, минимальный набор характеристик («лучшеуж что-то измерять и сравнивать, чем ничего») используется при расчётеИРЧП (индекс развития человеческого потенциала, рассчитываемый наоснове трех равнозначимых индексов: средней продолжительности жиз-ни, уровня образования и ВВП на душу населения).Вторая причина неопределённости связана с синтезом процедурысравнения. Традиции многих наук стимулируют поиски единого инте-грального показателя, удобного индекса, который бы позволил ранжи-ровать, упорядочить изучаемые объекты. Однако ранжирование много-мерных векторов представляет собой довольно сложную задачу из-занеоднозначности выбора упорядочивающей функции. В частности, присинтезе ИРЧП предпочтение отдано линейной форме (почему?), далеемногие авторы отмечают произвол в выборе весовых коэффициентов.Кроме того, почему используются только средние значения показателей?Несмотря на важность этой числовой характеристики, средняя зарплата,например, неадекватно описывает положение дел о социальной справед-ливости в некотором регионе, а следовательно, и о качестве жизни в нём(вспомним шутку о средней температуре по больнице).Судя по всему, дискуссии о составе показателей для сравнения каче-ственно разнородных объектов ещё не скоро завершатся, поскольку, побольшому счёту, они соприкасаются с «вечными вопросами», ответы накоторые имеют не менее «мерцающие» смыслы. Заметим только, что, понашему мнению, набор показателей должен описывать и измерять уро-вень жизни, который является необходимым условием достижения высо-кого качества жизни. Что же касается второй части обсуждаемой пробле-мы - синтеза процедуры сравнения, её смысла, - то часть противоречийи трудностей можно избежать, используя арсенал методов многомерногостатистического анализа, теории статистических решений и распозна-вания образов. Обсуждению этой части проблемы и посвящена даннаяработа.2. Меры сходств а и различи я на основе стохастич е-ской модели реальностиПрежде всего, необходимо отметить, что рассматриваемая задача име-ет сугубо статистический характер, поскольку речь идёт об уровне и ка-честве жизни большого количества людей, которое можно интерпретиро-вать как некую генеральную совокупность. Самое полное статистическоеописание таких совокупностей содержится в совместном распределениивероятностей выделенных показателей, признаков, характеристик. (Во-прос о том, насколько «полон», обоснован сам набор признаков, как ужеотмечалось, мы сейчас не обсуждаем).Пусть х=(х1, х2, ..., хn ) - вектор показателей, x X n, где X n - простран-ство, которое в статистике называют пространством наблюдений. Про-странство X n в общем случае может быть разнотипным в том смысле,что компоненты вектора x измеряются в различных типах шкал (номи-нальных, ранговых, числовых и т.д.), т.е. иметь как качественный, так иколичественный характер, а их декартово произведение и образует раз-нотипное пространство наблюдений.Наряду с пространством наблюдений определим ещё вектор условийy=(y1, y2, ..., ym ), в рамках которых наблюдается вектор x; y Ym , гдеYm - пространство условий, которое также может быть разнотипным. Вчастности, при расчете ИРЧП: y - скаляр, Y1={1, 2,..., k} - суть множествообозначений стран или регионов, подлежащих сравнению. В этом случаеy фиксируется в номинальной шкале.Таким образом, статистическим описанием (моделью) учитываемыхпоказателей x, зафиксированных в условиях y, является распределениеp(x / y). Следует заметить, что оба вектора x и y и можно сокращать либорасширять, но если они фиксированы, то это означает, что всеми неучтён-ными признаками или условиями мы пренебрегаем. Конечно, знание со-вместного распределения p(x,y) было бы предпочтительней, чем услов-ного, так как оно содержит в себе информацию обо всех связях междупризнаками и всеми условиями наблюдения. Принятие условных распре-делений в качестве основной модели - уступка реальному положениювещей. Дело в том, что отдельные компоненты вектора могут не иметьстатистической природы (как, например, наименование страны или ре-гиона), либо, в других случаях, распределение p(y) нам неизвестно и,следовательно, совместное распределение p(x, y) = p(x / y) p(y) не можетбыть вычислено.Рассмотрим теперь процедуру сравнения объектов по показателямx при фиксированных условиях y. Для этого необходимо ввести некуюмеру сходства или различия. Меры сравнения статистических объектовзадаются в виде функционалов от распределений. Они нашли широкоераспространение в теории информации, статистических решений, распо-знавании образов, многомерном статистическом анализе и, на наш взгляд,должны найти применение в обсуждаемой проблеме - применительно ксоциальным системам.Рассмотрим для простоты вариант сравнения двух объектов по харак-теристикам x. В наших обозначениях это означает: Y1={1, 2}, статистиче-ское описание объектов имеет вид p(x / y = 1) = p1(x), p(x / y = 2) = p2(x).В качестве меры различия можно использовать, например, вариационноерасстояние Колмогорова(1)Эта мера принимает значения из отрезка [0,1], причём равна нулю,когда распределения полностью совпадают, т.е. p1(x) = p2(x), и равна еди-нице, когда носитель первого распределения X1 и носитель второго - X2удовлетворяют условиям:.Мера (1) имеет однозначную связь с таким понятием, как средняя ве-роятность ошибки распознавания pош, и с её помощью удобно интерпре-тировать различие между статистическими объектами по набору призна-ков x. Связь между этими характеристиками имеет вид K(1, 2) = 1-2 pош.В контексте обсуждаемой проблемы интерпретация различия междууровнем или качеством жизни двух регионов выглядит следующим об-разом: если взять представительные (репрезентативные) выборкилюдей из первого и второго регионов, то как часто оптимальный ал-горитм будет ошибаться в отнесении их к своему или чужому регионупо набору признаков x?Если ошибок нет (pош = 0), то различие максимально и K(1, 2) = 1;если оптимальный алгоритм равновероятно относит представителей вы-борок к любому из регионов, т.е. ошибка максимальна (pош = 1/2), то раз-личие регионов по признакам x отсутствует и K(1, 2) = 0. Оптимальностьалгоритма здесь понимается в смысле минимума средней вероятностиошибок.Для сравнения m регионов (Y1={1,..., m}) имеет смысл вычислить ма-трицу взаимных различий:(2)Расстояние Колмогорова (1) учитывает различия между совместнымираспределениями признаков, однако для достижения тех же целей можнотакже использовать меры сходства между распределениями. Такой меройявляется информационное «расстояние» Бхаттачарья, (3)связанное со средней вероятностью ошибок границами Чернова [3](4)Мера (3) равна единице, когда распределения совпадают, и нулю, ког-да распределения имеют непересекающиеся носители X1 и X2. Для этихкрайних случаев границы (4) являются точными. При использованиимеры сходства для сравнения m регионов вычисляется матрица сходства:(5)Очевидно, что дополнение до единицы меры (3) даст меру различия, адополнение до единицы меры (1) даст меру сходства. (Нами выбраны ин-формационные расстояния, значения которых принадлежат отрезку [0,1],хотя в принципе в таких задачах можно использовать и другие меры раз-личия, например дивергенцию Кульбака и др.).Применение информационных мер различия или сходства позволяетобойти неоднозначную и спорную процедуру взвешивания признаков,которая неизбежно возникает при попытке синтезировать индекс срав-нения традиционным способом. Далее, интерпретация мер (1) или (3) наязыке вероятностей ошибок инвариантна по отношению к составу пока-зателей x. Их можно вычислить и в том случае, когда показатели разно-типны (об этом подробнее мы остановимся в разд. 4). Это устраняет ещёодну неестественную операцию - попытки привести все показатели кстоимостному эквиваленту или к единой измерительной шкале, искажаяпри этом природу и смысл исходных данных. Наконец, функционалы отсовместных распределений содержат связи между всеми показателями,что является, возможно, самым существенным в предлагаемом способесравнения. Если ставить задачу проведения реформ или преобразованийв некотором регионе, то без учета этих связей нельзя говорить о комплекс-ности или системности подобных мероприятий. Индексы, основанные навзвешенных средних значениях признаков, этих связей не учитывают.3. Задачи сравн ени ямногомерны х случайны х величинРассмотрим теперь некоторые постановки задач, которые могут иметьсмысл в рамках обсуждаемой проблемы.1. Ранжирование (упорядочивание) регионов. В этой задаче суще-ственным моментом является выбор эталона, образца, некоторого иде-ального распределения p*(x), относительно которого ранжируются всеостальные распределения. Если эталон задать, синтезировать затрудни-тельно, то в качестве p*(x) можно принять одно из имеющихся распре-делений, которые эксперты сочтут образцовым. Тогда, например, при ис-пользовании меры (3) вычисляются величины(6)которые затем упорядочиваются. Для эталонного распределения величи-на B* = 1; для распределений, носители которых не пересекаются с носи-телем эталонного распределения, эти величины равны нулю.2. Кластерный анализ. Задача упорядочения может потерять смысл,когда сравниваемые объекты имеют серьёзные качественные различия.Тогда целесообразно предварительно разбить регионы на некотороечисло качественно однородных классов (кластеров), внутри которых ирешать задачу ранжирования. Исходными данными для алгоритмов кла-стерного анализа являются матрицы сходства или различия (2) или (5).Имеет смысл также сравнивать выделенные кластеры между собой. Дляэтого по формуле полной вероятности рассчитываются условные распре-деления признаков для каждого кластера и решается задача ранжирова-ния кластеров аналогично п. 1.3. Определение информативных комплексов признаков. Когдаразличия установлены, то при многомерном описании объектов пред-ставляет интерес выяснить, какие комплексы признаков вносят решаю-щий вклад в эти различия. Для этого функционалы сходства или различиярассчитываются для различных сочетаний показателей с последующимсравнением полученных значений между собой. Анализ информативно-сти позволяет выявить латентные связи между признаками. Кроме того,устанавливается подвектор признаков, который практически не влияет намеру различия и может быть опущен из дальнейшего анализа, тем самымуменьшая размерность описания объектов, что немаловажно для практи-ческой реализации алгоритмов обработки данных.Как показывает опыт решения задач распознавания образов, анализинформативности создаёт семантическое поле, в рамках которого мож-но уточнить и смысловое ядро самого понятия «качество жизни». Ранееотмечалось, что разные исследователи используют различные наборыхарактеристик для описания уровня и качества жизни. Если провестианализ на информативность этих наборов, то теперь сравнение их междусобой даст «информацию к размышлению» о создании некоторого ком-промиссного набора признаков, нивелирующего субъективизм отдель-ных авторов.4. Регрессионный анализ. В предыдущей задаче связи между призна-ками изучались с точки зрения их влияния на сходство или различия меж-ду распределениями. Однако не меньший интерес представляет выясне-ние зависимости какого-либо признака от других признаков. (Например,как продолжительность жизни связана с доходами и образованностьючеловека?) Ответы на подобные вопросы можно получить средствамирегрессионного анализа, которые хорошо развиты, особенно для случаяобработки количественных признаков [4].5. Преобразование признаков. Задача реформирования. Конечнойцелью исследования качества и уровня жизни является не столько упо-рядочение регионов в каком-либо отношении (чем, в основном, озабо-чены политики), а реальное их улучшение. В связи с этим актуальнымстановится вопрос: как преобразовать показатели, чтобы приблизить ихраспределение к эталонному распределению? Рассмотрим, как выглядятэти преобразования на простых примерах. Пусть x - скаляр, и его распре-деление для некоторого региона и образцового имеют, соответственно,вид p(x) и p*(x). Преобразование признака z = φ(x), которое приводит кравенству p(x) = p*(x), имеет следующий вид:, (7)где F*-1(t) - квантильная функция распределения p*(x) и F(x) - интеграль-ная функция распределения для p(x). Пусть теперь x = (x1, x2 ). Для двухпризнаков соответствующие преобразования имеют следующий вид:(8)Следует отметить, что уже в случае двух признаков, преобразованияне могут осуществляться независимым образом, если исходные призна-ки зависимы. Незнание связей между признаками не позволит грамотнои, следовательно, комплексно осуществить реформирование. Обобщениепреобразований для большего числа переменных проводится аналогичнои с учетом всех связей между признаками. Очевидно, что после преобра-зований типа (7) - (8) функционал Бхаттачарья (6) будет равен единице.В обсуждаемой задаче реформирования, а также в задаче упорядо-чивания регионов относительно образцового региона более адекватнойможет являться так называемая «направленная мера» похожести. Дело втом, что информационные меры (2) - (3) фиксируют сходство или разли-чие между распределениями, связанные со средней вероятностью оши-бок, а это комбинация ошибок двух родов. Другой смысловой оттенокпоявляется, если за меру похожести принять вероятность события сле-дующего рода - перепутать выборку сравниваемого региона с эталонной.Такая мера имеет вид(9)где I[z] - индикаторная функция: { I[z]=1, если z>0; I(z)=0, если z

Ключевые слова

Авторы

ФИООрганизацияДополнительноE-mail
Серых А.П.Томский государственный университетSgd_46@mail.ru
Всего: 1

Ссылки

Мстиславский П.С. Вопросы теории и методологии анализа качества жизни // Уровень жизни населения регионов России.2002. № 2. С. 5-17.
Маликов Н.С. К вопросу о содержании понятия «качество жизни» и его измерению // Уровень жизни населении регионов России. 2002. № 2. С. 17-23.
Фукунага К. Введение в статистическую теорию распознавания образов. М.: Наука, 1979. 383 с.
Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Исследование зависимостей. М.: Финансы и статистика, 1985. 487 с.
Серых А.П. Оценка распределения случайных векторов разнотипных данных // Научная сессия Том. ун-та (апрель 1992.). Ч. 2. Томск: Изд-во Том. ун-та, 1993.
Епанечников В.А. Многомерная непараметрическая оценка плотности распределения вероятности. Теория вероятностей и её применение. Т. 1. М., 1969.
 Вопросы сравнения разнотипных векторовв задачах управления социальными системами | ПУСС. 2010. № Том 2. Выпуск 3.

Вопросы сравнения разнотипных векторовв задачах управления социальными системами | ПУСС. 2010. № Том 2. Выпуск 3.

Полнотекстовая версия