Construction of adapted statistical algorithm for anomalous network trafficindication based on alternating double stochastic process as a traffic model is in commonconsidered. Purposes for solving are established. Wavelet-analysis for data preparing isapplied.
Adaptive algorithm for anomalous network traffic indication based on alternating process.pdf Современные сети связи, в том числе и компьютерные сети, представляют собойчрезвычайно сложные системы массового обслуживания, в которых функционируютразличные потоки - заявок, пакетов данных, отказов и т. п. Как правило, такие потокиимеют переменную, случайно изменяемую интенсивность, поэтому могут быть моделированыпростейшим потоком лишь на сравнительно небольших отрезках времени.В работе [1] показано, что трафик компьютерной сети с той или иной степенью достоверностиможет быть представлен дважды стохастическим потоком событий с кусочно-постоянной интенсивностью. В ряде случаев, например в распределенных информационныхсистемах (ИС), где пользователи в основном работают с удаленнымибазами данных, трафик достаточно хорошо описывается моделью альтернирующегопотока [2]. Такой поток имеет два состояния, в первом из которых наблюдается пуас-соновский поток с параметром А, а во втором события потока отсутствуют. Интервалы,на которых поток находится в первом или втором состоянии, распределены по экспоненциальномузакону с параметром a 1 и a 2 соответственно.Для компьютерных сетей, в том числе распределенных ИС, достаточно актуальнымипредставляются исследования методов и алгоритмов отслеживания аномальнойактивности на канале, сегменте сети или локальной машине на основании анализа трафика.Выделяют два основных подхода в этой области: семантический и статистическийанализ трафика. Пока круг приемов и методов статистического анализа весьмаограничен в сравнении с семантическим. Одной из причин является то, что традиционноиспользующаяся модель простейшего потока недостаточно хорошо описываеттрафик реальной сети, а поэтому математические методы исследования, основанныена модели простейшего потока, недостаточно действенны.1. Постановка задачи. Цель исследования - создание адаптивного статистическогоалгоритма, производящего мониторинг трафика на участке (отдельной машине,канале, сегменте сети и т. д.) и сигнализирующего о нетипичной для данного участкаактивности в режиме реального времени. Подчеркнем, что адаптивный статистическийалгоритм предполагается использовать не как самостоятельное средство, а какдополнение к существующим методам для их прицельного применения.В основу алгоритма положены следующие соображения. Трафик компьютерной сетидостаточно хорошо приближается дважды стохастическим потоком событий, в частностиальтернирующим потоком. Последний характеризуется тремя параметрами - Л,а\ и а 2, которые возможно оценивать в режиме реального времени [3]. Характер трафикаизменяется в зависимости от действий, производимых пользователями, а значит,изменяются и оценки параметров Л, а и а 2. Отслеживая такие изменения, можносделать вывод о типичности или нетипичности трафика на данном участке сети.2. Сбор статистики трафика. Проведены наблюдения за трафиком компьютернойсети при различных видах активности пользователей. Фиксировались моментыпоступления пакетов данных, на основании наблюдений каждые 10 с производилисьоценки Л, сл\ и Л2. На рис. 1 в качестве примера приведена динамика оценок альтернирующегопотока, полученных при наблюдении за входящим трафиком отдельногокомпьютера при работе с файлами в распределенной ИС в течение 40 мин.Рис. 1. Динамика оценок параметров входящего трафика компьютера при работе в распределеннойИС: а - Л, б - а\ (кр. 1) и а2 (кр. 2)3. Подходы к построению алгоритма. Для того чтобы сигнализировать о нетипичномповедении для трафика на сегменте сети, следует определить типичное поведениена этом сегменте. То есть необходим предварительный период наблюдений затрафиком. Таким образом, алгоритм должен работать в двух режимах:1. Накопление данных, когда производится наблюдение за трафиком, оценка параметрови сбор информации о типичных значениях этих параметров. Предполагается,что в этот период трафик является «нормальным».2. Отслеживание аномальностей, когда наряду с оценкой параметров и сбором информациипроизводится сравнение текущих значений с прошлыми показателями ивывод о нормальности трафика.При построении заявленного алгоритма следует учесть несколько важных моментов.Во-первых, это объем информации о трафике, который нужно хранить для функционированияалгоритма. Во-вторых, это изменение характера трафика с течениемвремени. В архитектуре и контенте сети могут происходить изменения, подчас значительные,такие, как включение в базы ИС новых полей, добавление или демонтажсерверов, перенос значительной части информации с одного сервера на другой. Такиеизменения непременно скажутся на трафике, и ранее типичный трафик перестанетбыть таковым. Наряду со значительными изменениями, могут происходить и небольшие,которые, накапливаясь, изменяют характер трафика постепенно. Это приводитк необходимости, во-первых, эффективного метода переключения алгоритма из режиманакопления данных в режим отслеживания аномальностей и обратно, а во-вторых,постепенного вытеснения старых данных новыми.Для анализа изменения оценок предполагается использовать следующие соображения.В каждый момент времени трафик описывается тремя числовыми значениями -оценками Л, а 1 и а 2. Эту тройку можно представить точкой в трехмерном пространстве.Если характер трафика не претерпел существенного изменения на смежном интервалевремени, то значения Л, а 1 и а 2 также не должны существенно измениться, итогда имеет место точка, достаточно близкая к предыдущей. Если же характер трафикарезко изменится, то следующая точка будет значительно удалена от предыдущей.Производя наблюдения достаточно долго, получим несколько областей, в которыхгруппируются точки (рис. 2). Если полагать, что весь период наблюдения трафикфункционировал в нормальном режиме, то такие группы точек представляютсобой эталон нормального поведения трафика для данного сегмента. Если же начинаяс некоторого момента будут получаться точки, достаточно удаленные от ранее полученных,то это может служить сигналом об аномальной активности либо о том, чтохарактер нормального трафика изменился. Для обработки данных, группирующихсяпо областям, можно использовать методы кластерного анализа [4].Выбросы траекторий оценок, наблюдающиеся, например, на рис. 1, могут затруднитькластеризацию. Причиной таких выбросов может служить как погрешность методаоценивания, отмеченная в [3], так и кратковременные изменения характера трафика.Например, на интервалах, когда трафик находится в переходном состоянии между двумя режимами, на траекториях оценок возникают всплески. С одной стороны,следует отфильтровать такие выбросы, с другой стороны, их большое количество наинтервале времени может сигнализировать об аномальностях.Авторы предполагают использовать комбинированный подход, сочетающий статистическийанализ, нейронные сети, методы теории графов, вейвлет-анализ и др.4. Фильтрация оценок. Так как в ходе анализа траекторий оценок предполагаетсяопираться на их высоко- и низкочастотную составляющие, то в качестве предварительнойобработки данных следует разделить их. Для этой цели подходит разложениетраекторий по базису Хаара [5] с последующим разделением высоко- и низкочастотнойсоставляющих. На рис. 3 в качестве примера приведены низко- (сглаженные данные)и высокочастотная (выбросы) составляющие траектории Л, представленной на рис. 1.J - у - г Г - J ^ ' га0,040,020,00-0,02-0,04j 7-J ' г 1»-б1140 1320 1500 16t, С2040 2220 2400 60 240 420 1140 1320 1500t, С2040 2220 2400Рис. 3. Низко- (а) и высокочастотная (б) составляющие траектории ЛРезультаты и выводы. Сформулирована задача построения адаптивного статистическогоалгоритма отслеживания аномальной активности в компьютерной сетис использованием дважды стохастического потока в качестве модели трафика. Дляслучая распределенной ИС выбран альтернирующий поток, получено общее описаниеалгоритма, поставлены задачи, требующие решения в ходе построения алгоритма.Применен вейвлет-анализ для предварительной обработки данных.Помимо решения задач, поставленных в рамках данной работы, открытыми остаютсяследующие вопросы: 1) выбор математической модели трафика в общем случае,когда альтернирующий поток недостаточно точно описывает его; 2) описание подходовк построению алгоритма в случае модели трафика, отличной от альтернирующегопотока. Рассмотрение этих вопросов необходимо для построения адаптивного статистическогоалгоритма отслеживания аномальной активности для произвольной компьютернойсети, а не только для сети распределенной ИС.
Ниссенбаум Ольга Владимировна | Тюменский государственный университет | кандидат физико-математических наук, доцент кафедры информационной безопасности | onissenbaum@rambler.ru |
Присяжнюк Александр Сергеевич | Тюменский государственный университет | аспирант | pain_of_doom@mail.ru |
Головко Н. И., Каретник В. О., Танин В. Е., Сафонюк И. И. Исследование моделей систем массового обслуживания в информационных сетях / / Сиб. жур. индустр. матем. 2008. Т.XI. №2(34). С.50-58.
Ниссенбаум О. В., Пахомов И.Б. Аппроксимация сетевого трафика моделью альтернирующего потока событий / / Прикладная дискретная математика. 2009. Приложение №1. С. 78-79.
Васильева Л. А., Горцев А. М. Оценивание параметров дважды стохастического потока событий в условиях его неполной наблюдаемости / / Автоматика и телемеханика. 2002. №3. С. 179-184.
Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer Verlag, 2009.
Добеши И. Десять лекций по вейвлетам. М.: Регулярная и хаотическая динамика, 2001.