Метод структурной группировки объектов в задаче повышения достоверности оценок показателей мониторинга по малым выборкам | ПУСС. 2013. № Том 5. Выпуск 8.

Метод структурной группировки объектов в задаче повышения достоверности оценок показателей мониторинга по малым выборкам

Ключевым инструментом анализа и моделирования экономического развития является мониторинг социально-экономических показателей в разрезе субъектов РФ. Главная проблема, с которой сталкиваются статистики развитых стран, - это проблема коррекции статистических данных для малых (нерепрезентативных) выборок, которые обычно возникают из-за недостаточного финансирования выборочных обследований. В настоящей работе предложен новый метод анализа малых выборок, позволяющий получать достаточно точные оценки без уменьшения оперативности мониторинга. Он основан на современной методологии интеллектуального анализа данных, в том числе на алгоритмах структурно-классификационного анализа.

Objects grouping structural method for enhancing quality of estimates in monitoring under small size samples.pdf Проблема недостаточной представительности результатов выборочных статистических обследований (мониторинга) в случае малых, нерепрезентативных выборок особенно остро проявляется при формировании статистических данных в разных структурных разрезах (например, в региональном разрезе, по видам экономической деятельности, по формам собственности, видам продукции, половозрастным группам и т.д.). Разработаны и широко применяются различные модели и процедуры сглаживания временных рядов, основанные на агрегации данных за несколько временных интервалов [1,2]. В частности, такие процедуры, как X12-ARIMA (разработчик Бюро Цензов США), TRAMO-SEATS (разработчик - Банк Испании), рекомендованы ОЭСР и Евростатом в качестве стандартных методов сезонного сглаживания и применяются на практике многими национальными статистическими органами. Они реализованы в виде специального программного обеспечения DEMETRA [3]. Модели типа ARIMA [1] хорошо решают задачу сглаживания временного ряда, но приемлемое качество сглаживания достигается в них лишь в том случае, если для анализа используется достаточно большой отрезок этого ряда. Данные модели весьма инерционны, они не реагируют на резкие изменения показателей, которые происходят, например, во время кризисных ситуаций. Уловить такие изменения способны только самые простые (с точки зрения теории временных рядов) методы с малой памятью, типа метода скользящего среднего [1]. Но эти методы, во-первых, еще более чувствительны к размеру выборки, а во-вторых, являются недостаточно оперативными, так как для получения несмещённых оценок за текущий период времени требуются данные как за предыдущие, так и за будущие периоды. В работе предложен новый метод повышения достоверности статистических показателей для малых (нерепрезентативных) выборок, позволяющий получать достаточно точные оценки без уменьшения оперативности мониторинга. Он основан на современной методологии интеллектуального анализа сложноорганизованных данных, в том числе на использовании методов структурно-классификационного анализа [4]. 1. содержательная постановка задачи Постановка задачи и описание метода даются на примере задачи ежемесячного мониторинга некоторого показателя функционирования социально-экономических объектов. При этом по некоторым причинам (в основном связанным с недостаточностью финансирования) имеющийся объём выборки обеспечивает представительные данные только по системе в целом (обычно это - Российская Федерация) и по некоторым крупным объектам (регионам). Для большинства же объектов достоверно оценить значения исследуемого показателя непосредственно по выборочным данным не удаётся. В качестве примера на рис. 1 приведены данные мониторинга уровня безработицы в Вологодской области (в рамках ежемесячного мониторинга населения РФ по вопросам экономической активности, занятости и безработицы). Очевидно, что уровень безработицы не может за один месяц снизиться с 11,8 % до 6 % (как в августе - сентябре 2009 г.) или подняться с 7,7 % до 10,8 % (как в январе - феврале 2010 г.) и тут же упасть до 7 % (как в феврале - марте 2010 г.). Таким образом, приведенные данные свидетельствуют о статистической недостоверности полученных оценок, т.е. эти выборки не являются репрезентативными. Рис. 1 наглядно это демонстрирует. Как уже говорилось ранее, простейшим методом сглаживания является метод скользящего среднего [1]. Он заключается в том, что данные выборочных обследований за несколько последовательных месяцев (в простейшем случае - за три месяца) объединяются в одну выборку, по этой укрупнённой выборке рассчитывается среднее значение показателя, и оно условно относится к среднему месяцу. Для большинства задач социально-экономического мониторинга выборка, построенная путём объединения выборок трёх последовательных месяцев, достаточно представительна, и построенный этим методом временной ряд оказывается достаточно гладким. Однако метод скользящего среднего имеет существенный недостаток - чтобы рассчитать значение скользящего среднего за текущий месяц, необходимы данные выборочного обследования за следующий месяц. В работе предлагается метод сглаживания, который свободен от этого недостатка. Вологодская область I 11.00 10.00 9.00 8.00 7.00 6.00 \ А \ Л я W -/f Л £ —• / \\ V . I/4 V Т- 7 V / Усс )• (1) В формуле (1) величина k - это номер набора регионов, составляющих i-эталонный класс, однозначно определяющий номера регионов, входящих в этот набор. Тогда к i-эталонному классу относится такой набор объектов под номером т, который доставляет максимум критерию (1), то есть т = arg max Jэт (к) = arg max г(у к, y™m ). Все остальные к к объекты относятся к фоновому классу. Отметим, что критерий качества классификации J (1) отличается от всех остальных тем, что в явном виде не зависит от объектов, отнесённых к фоновому классу. Очевидно, что для получения глобально оптимальной в смысле (1) i-эталонной классифика-метод структурной группировки объектов в задаче 79 повышения достоверности оценок показателей мониторинга по малым выборкам ции необходимо произвести полный перебор всех возможных поднаборов объектов из исходного набора N объектов. В работе предложен эвристический алгоритм максимизации (1), с точки зрения основной идеи похожий на алгоритм пошаговой регрессии. Он представляет собой итерационную процедуру, на каждом шаге которой к /-эталонному классу при определённых условиях присоединяется наиболее близкий к нему объект из тех, которые к этому шагу не вошли в /-эталонный класс. Для удобства описания алгоритма объектам присваиваются номера в том порядке, в котором они относятся к /-эталонному классу: /-эталонному объекту присваивается номер 1, следующему объекту, отнесённому к /-эталонному классу, - номер 2 и т.д. Рассмотрим /+1)-й шаг алгоритма. К началу /+1)-го шага /-эталонный класс (виртуальный объект) включает j объектов, отнесённых к нему на предыдущих шагах, и представлен следующей информацией: 1. Временной ряд значений скользящего среднего оценок показателя y для /-эталонного объекта за 12 месяцев, предшествующих расчётному месяцу, а также оценка скользящего среднего для расчётного месяца, равная полусумме исходных значений оценок показателя расчётного и предыдущего месяца для этого объекта (далее этот временной ряд будем называть /-эталоном): у = у' =(/(2\...,y

Ключевые слова

структурно-классификационный анализ, нерепрезентативные выборки, мониторинг динамических объектов, structural-classification data analysis, non-representative sample, dynamic objects monitoring

Авторы

ФИООрганизацияДополнительноE-mail
Дорофеюк Александр АлександровичИнститут проблем управления Российской академии наук (г. Москва)д.т.н., профессор, заведующий лабораториейdaa2@mail.ru
Дорофеюк Юлия АлександровнаИнститут проблем управления Российской академии наук (г. Москва)к.т.н., научный сотрудникdaa2@mail.ru
Чернявский Александр ЛеонидовичИнститут проблем управления Российской академии наук (г. Москва)к.т.н., старший научный сотрудникdaa2@mail.ru
Всего: 3

Ссылки

Бокс Дж., Дженкинс Г. Анализ временных рядов // Прогноз и управление. Вып. 1, 2. - М.: Мир, 1974.
Judge G. G., Griffits W. E., Hill R. C., Lutkepohl H., Lee Tsoung-Chao. The Theory and Practice of Econometrics. Second edition. NY: John Willey and Sons, 1985.
Introduction to Seasonal Adjustment, DEMETRA+. - URL: http://circa. europa.eu/irc/dsis/eurosam/info/data/ demetra.htm
Бауман Е.В., Дорофеюк А.А., Дорофеюк Ю.А. Методы динамического структурного анализа многомерных объектов // Сборник трудов 4-й международной конференции по проблемам управления (МКПУ-IV). - М.: ИПУ РАН, 2009. - С. 338-343.
Дорофеюк Ю.А., Дорофеюк А.А., Лайкам К.Э., Чернявский А.Л. Алгоритмы эталонной кластеризации в задаче повышения достоверности статистических показателей в условиях нерепрезентативных выборок // Управление развитием крупномасштабных систем (MLSD'2011): Тру
Лайкам К.Э., Дорофеюк А.А., Дорофеюк Ю.А., Чернявский А.Л. Классификационные методы коррекции результатов мониторинга социально-экономических показателей в условиях нерепрезентативных выборок // Вопросы статистики. - 2011. - №5. - С. 13-18.
 Метод структурной группировки объектов в задаче повышения достоверности оценок показателей мониторинга по малым выборкам | ПУСС. 2013. № Том 5. Выпуск 8.

Метод структурной группировки объектов в задаче повышения достоверности оценок показателей мониторинга по малым выборкам | ПУСС. 2013. № Том 5. Выпуск 8.

Полнотекстовая версия