This research is devoted todevelopment of comprehensive taught system that protects information resources fromphishing attacks. Based on thorough analysis of available phishing resources, a set ofidentifiers, characteristics of phishing websites, are determined. The possibility of detectingthese identifiers has been studied, and corresponding algorithms have been developed.The main challenge of this research was to analyse the cumulative effect of identifiers. Itwas addressed during system development stage. As a result, a mechanism (based on optimizationtechniques) that determines the risk level of a certain website has been developed.Learning capability of the system is based on data mining. Specifically, neural networktechnology and linear regression methods have been used extensively. Existing phishingwebsites databases have been used to create a learning sample.
Development of comprehensive taught system that protects information resources from phishing attacks.pdf В настоящее время многие услуги стали доступны через Интернет. Финансовыйсектор также не стал исключением. Появились различные платежные системы, ин-тернет-кошельки и терминалы оплаты. Безопасность платежей внутри данных системобеспечивается множеством высокотехнологичных решений, таких, как сертификатыбезопасности, криптографические протоколы и др. Однако все эти решения оказыва-ются неэффективными при применении злоумышленниками методов социальной ин-женерии, использующих слабости человеческого фактора.Одним из наиболее распространенных видов такого рода атак сегодня являетсяфишинг [1]. Фишинг (от англ. phishing, password fishing - выуживание паролей)-этовид сетевого мошенничества, целью которого является получение доступа к конфиден-циальным данным пользователей обманным путём. Популярной методикой фишингаявляется создание поддельных веб-сайтов, внешне неотличимых от подлинных. Ущербот преступлений, связанных с фишингом, только за 2010 г. исчисляется миллиардамидолларов США. При этом, согласно статистике, количество фишинговых атак с каж-дым годом увеличивается примерно в полтора раза.Остановить бурное развитие такого рода преступлений можно посредством созда-ния комплексных систем защиты от фишинговых атак. Поскольку арсенал фишероврастёт стремительными темпами, необходимо обеспечивать обучаемость таких систем.В настоящее время не существует подобного рода решений, о чем красноречиво повест-вует статистика, поэтому создание комплексной обучаемой высокоэффективной систе-мы защиты от фишинговых атак является интересным и актуальным направлением.Создание такой системы предполагает предварительное изучение характерных при-знаков фишинговых ресурсов и разработку на их основе методов оценивания степениопасности информационного ресурса и определения потенциально опасных ресурсов.Этому, в основном, и посвящена данная работа. На основе полученных результатовпредложена схема функционирования системы защиты от фишинговых атак.Характерные признаки фишинговых ресурсовАнализ существующих фишинговых ресурсов позволил составить перечень их ха-рактерныхпризнаков.1. Сходство графического контентаОсновная задача злоумышленников при проведении фишинговой атаки - заста-вить пользователя поверить в аутентичность фишингового ресурса. Наиболее простымспособом сделать это является заимствование графического оформления у атакуемогосайта.Несмотря на большое количество исследований, задача определения степени сход-ства изображений в настоящее время не имеет универсального и эффективного реше-ния. Объясняется это в первую очередь тем, что понятие похожести двух изображе-ний неразрывно связано с особенностями человеческого восприятия и вследствие этоготрудно формализуемо. Уверенно можно говорить лишь о факте полной идентичностиизображений, которая определяется попиксельным сравнением или сравнением на ос-нове значений некоторой хэш-функции.Для определения похожести изображений, подвергаемых незначительной модифи-кации, возможно использование методов, основанных на сравнении усредненных ха-рактеристик изображения, например метода поблочного анализа цвета или методасравнения гистограмм.Более сложный метод сравнения изображений - метод SURF [2]. Он базируетсяна сравнении ключевых точек, инвариантных как к геометрическим и фотометри-ческим преобразованиям, так и к изменению масштаба. Нахождение ключевых точекосуществляется с помощью прохода по пикселям изображения и поиска максимума гес-сиана - определителя матрицы, составленной из вторых частных производных (мат-рицы Гессе) функции яркости изображения. Реализация данного метода содержитсяво многих открытых библиотеках алгоритмов, например в библиотеке openCV.2. Сходство текстового контентаПонятие похожести текстов также является нечетким, и, как и в предыдущем слу-чае, с уверенностью можно заявлять лишь об их полной идентичности. Однако напрактике при изменении текстового контента оригинального ресурса злоумышленни-ки, как правило, используют стандартный набор преобразований, таких, как:- вставка наборов случайных символов;- произвольная вставка и удаление пробелов;- замена символов одной кодировки на похожие по написанию символы другой ко-дировки;- вставка ключевых слов на случайные позиции.В большинстве случаев производится сравнение не самих исходных текстов, а по-строенных на их основе подмножеств или отпечатков этих подмножеств - значенийнекоторых хэш-функций. В зависимости от способов построения отпечатков методыопределения похожести текстов можно разделить на два класса - синтаксические илексические. В первом случае анализируются построенные по определенным прави-лам последовательности слов из текста, во втором - строятся словари ключевых слов.C точки зрения эффективности и простоты реализации оптимальными являются дваметода определения близости текстового контента: метод определения индекса повто-ряемости и метод поиска длинных предложений [3].Сложность выявления сходства контента растёт пропорционально числу защища-емых ресурсов, что серьёзно сказывается на производительности антифишинговой си-стемы. Проверка признаков, перечисляемых далее, не требует сравнения с оригиналом.3. Наличие ресурса в фишинговых базахИнтернет-сообществом поддерживается большое количество баз опасных ресурсов.Одни пользователи добавляют ссылки на такие ресурсы, другие - подтверждают илиопровергают их опасность. Окончательное решение принимается администрацией кон-кретной базы. Как правило, фишинговые ресурсы попадают в такие списки в течениенескольких суток. Данный признак является очень сильным, однако сама концепцияведения списка подразумевает постоянную его актуализацию, которая всегда отстаётот деятельности злоумышленников.4. Использование особенностей формата URLФормат URL имеет много параметров, часть из которых крайне редко применяетсяна практике. Зачастую злоумышленники используют более полную форму, добавляяв неё редко используемые параметры, чтобы ввести пользователя в заблуждение иубедить его в подлинности фишингового ресурса.5. Подозрительные регистрационные данные ресурсаК регистрационным данным можно отнести географическое положение, дату ре-гистрации домена, имя собственника сайта или название организации-владельца. Какправило, фишинговые сайты активны в первые пять дней после их создания. В связис этим большое значение имеет дата регистрации домена. Часто фишинговые ресур-сы регистрируются в стране, отличной от той, в которой расположен оригинальныйсайт, поэтому необходимо также отслеживать соответствие домена верхнего уровняреальному местонахождению сайта.6. Наличие ресурса на одном IP-адресе с выявленными ранее фишинговыми ресур-самиРасположение нескольких ресурсов на одном IP-адресе является достаточно рас-пространенной ситуацией, поэтому целесообразно использование списков IP-адресов,на которых были замечены фишинговые ресурсы. Таким образом можно идентифи-цировать ресурс как потенциально опасный, если он расположен на одном IP с мно-жеством фишинговых ресурсов.7. Наличие изображений, содержащих в себе текст в графическом представленииДанный способ применяется злоумышленниками для усложнения идентификацииопасного ресурса. Пользователь будет воспринимать такой объект как обычный текст,а автоматизированные антифишинговые системы - как изображения. Если контентизображений дополнительно не анализируется, система может принять неправильноерешение о степени опасности ресурса.8. Использование «неоправданно большого» количества скриптовКак правило, объём исполняемого кода на странице растёт пропорционально её ин-формативности и предоставляемой функциональности. «Неоправданно большое» ко-личество скриптов может являться признаком недокументированных возможностей.Для определения максимально допустимого количества скриптов предлагаетсяис-пользовать статистистические данные из выборки в конкретной предметной области.Все выделенные признаки имеют разную значимость, которая может варьировать-ся в зависимости от их комбинаций. Это говорит о необходимости разработки ме-ханизмов совокупного анализа признаков - механизмов принятия решения о степениопасности ресурса.Методы оценивания степени опасности ресурсаДалее предлагаются алгоритмы, определяющие степень опасности информацион-ных ресурсов с учетом описанных признаков. На вход каждого алгоритма поступаетинформационный ресурс, выходом является рациональное число из отрезка [0,1], ко-торое характеризует степень опасности ресурса; наибольшей опасности соответствуетединица, наименьшей - ноль.1. Последовательное использование алгоритмов оценки признаковВыполняется непосредственная проверка всех признаков. Поскольку различныеалгоритмы анализа данных используют признаки разной значимости, на вход объем-лющего алгоритма необходимо подать также таблицу значимости признаков.Метод работает следующим образом. Если ресурс удовлетворяет некоторому при-знаку, то результат увеличивается на значимость этого признака. По завершении ра-боты алгоритма результат нормируется, с тем чтобы он содержался в отрезке [0,1].Основное достоинство данного подхода - простота реализации; недостатки - необ-ходимость проверки всех признаков и негибкий учет значимости каждого из них.2. Использование булевой функцииПри определении степени опасности информационного ресурса некоторый наборпризнаков может оказаться достаточным для отнесения ресурса к разряду опасных.Например, если доменное имя сайта содержится в фишинговых базах, нет необходи-мости проверять остальные признаки - такой сайт априори представляет опасность.Для работы алгоритма необходимо задать булеву функцию f : {0,1}n ^ {0,1},принимающую значение 1 на тех и только тех наборах значений признаков информа-ционного ресурса, которые гарантируют опасность последнего. Выделение достаточ-ных подмножеств признаков (определение функции f) относится к предвычислениям,а сам алгоритм состоит в ее однократном вычислении на наборе аргументов, соответ-ствующем признакам проверяемого ресурса.Недостатком алгоритма является высокая зависимость от таблицы значимостипризнаков. Кроме того, процесс определения достаточных условий не автоматизиро-ван, поэтому на данном этапе возможны ошибки разного рода.3. Использование нейронных сетейОдним из способов отказа от таблицы значимости признаков является использова-ние статистических методов. Пусть значение функции f : [0,1]n ^ {0,1} характери-зует опасность (1) или безопасность (0) ресурса. Аргументы функции - вещественныепеременные со значениями в отрезке [0,1], определенными алгоритмами оцениванияпризнаков.Функция f неизвестна, и вычислить ее непосредственно невозможно. Поведениефункции может быть промоделировано с помощью нейронной сети. Вычисление функ-ции f происходит в два этапа:1) обучение нейронной сети;2) вычисление значения функции.При этом обучение может производиться параллельно, не оказывая существенноговлияния на производительность самого алгоритма. В качестве обучающейвыборкимогут быть использованы базы фишинговых ресурсов.Основными преимуществами данного способа являются гибкость при оцениваниизначимости признаков и высокая адекватность действительности. Последнее достига-ется путем использования в алгоритме статистических методов.4. Использование методов линейной регрессииОбобщим предыдущую модель на непрерывный случай, полагая, что степень опас-ности ресурса оценивается как вещественное число в отрезке [0,1] и определяетсяфункцией f : [0,1]n ^ [0,1].Одним из статистических способов вычисления неизвестной вещественнозначнойфункции f является метод линейной регрессии. Он позволяет построить функцию g -nлинейную аппроксимацию f в виде g = Е W Xj. Для того чтобы оценить степеньi=1опасности того или иного ресурса, достаточно вычислить значение функции g от со-ответствующих ему аргументов.Для построения приближенной функции используются заданные значения опас-ностей некоторых информационных ресурсов. При неизвестной функции определениястепени опасности не вполне понятно, как получить достаточно большое количествозначений этой функции на заданных значениях аргументов. Эта проблема решаетсяс помощью экспертных оценок.Механизмы выбора потенциально опасных ресурсовПоскольку наибольший ущерб фишинговые ресурсы наносят в первые сутки своегосуществования, для обеспечения эффективной защиты от них необходимо проводитьнепрерывный мониторинг информационных ресурсов. Однако анализировать все ре-сурсы сети Интернет не представляется возможным, поэтому следует сконцентриро-ваться на тех, которые с наибольшей вероятностью могут оказаться опасными.При разработке фишинговых сайтов злоумышленники ориентируются на то, чтопользователь либо допустит ошибку при наборе доменного имени, либо перейдёт поссылке, визуально похожей на доверенный ресурс. Согласно этому, были выделенынесколько принципов построения доменных имён, представляющих потенциальнуюопасность по отношению к заданному.1. Доменные имена с незначительными изменениямиДанный принцип включает в себя следующие методы генерации: опечатки (заме-на символа другим символом, расположенным на соседней клавише); выпадение глас-ной между согласными; приписывание к началу доменного имени комбинации «www»;вставка дефиса; вставка символа вследствие нажатия нужной клавиши и соседней;удвоение символов доменного имени; замена символов таким образом, что получен-ное имя схоже по произношению с исходным; добавление в конце доменного имени,написанного латиницей и оканчивающегося на гласную, символов «s», «г» или «rs»;перестановка букв.2. Транслитерация кириллического доменного имениПод транслитерацией домена понимается замена кириллических символов на одинили несколько латинских символов. Можно выделить три принципа транслитерации:транскрипция (преобразование на основе схожести соответствующих звуков), преоб-разование типа «один символ - одна буква» и преобразование на основе графическойсхожести символов. При генерации доменных имён могут использоваться любые изпринципов транслитерации, а также их комбинации.3. Перевод на английский язык лексем заданного доменного имениВ данном случае сгенерированные доменные имена содержат лексемы, являющиесялибо переводом, либо транслитерацией (если невозможно осуществить перевод) лексемзаданного домена.4. Доменные имена, полученные на основе использования сервисов поисковых си-стем по поиску URLВ первые дни существования опасные ресурсы имеют высокую популярность, по-этому при использовании запросов, осуществляющих поиск заданных лексем в URL,такие ресурсы могут оказаться в числе первых, выданных поисковой системой.5. Доменные имена, содержащие комбинации лексемПринцип генерации доменов, содержащих комбинации лексем, включает в себяследующие варианты написания: слитное написание, использование дефиса, а такжеих комбинации.Для последующего мониторинга с целью определения наличия ресурса и оценкистепени его опасности каждое сгенерированное имя должно быть расширено каждымвозможным для него постфиксом, идентифицирующим доменную зону. Кроме это-го, предлагается сгенерировать группу доменных имён, используя уже расширенныедомены. Из каждого доменного имени вида доменное_имя.доменная_зона1 генериру-ются всевозможные имена вида доменное_имя\доменная_зона2.доменная_зона1, гдеоперация \ -операция конкатенации, доменная зона2 принимает все значения из спис-ка возможных доменных зон для доменного имени доменное_имя. Такая мера целе-сообразна, поскольку при разработке фишинговых ресурсов злоумышленники частоиспользуют «двойные» доменные зоны.Система защиты от фишинговых атакНа основе полученных результатов может быть создана полноценная система за-щиты от фишинговых атак. Предлагается следующая схема функционирования такойсистемы защиты для каждого информационного ресурса:1) генерация списка потенциально опасных доменных имен;2) получение списка зарегистрированных и доступных потенциально опасных ин-формационных ресурсов;3) определение степени опасности каждого из потенциально опасных информаци-онных ресурсов;4) пополнение антифишинговых баз вновь обнаруженными опасными ресурсами.Для обеспечения высокой степени защиты ресурса необходимо регулярно повторятьпоследовательность действий 2 - 4 и проводить непрерывное обучение системы.
Милошенко Александр Викторович | Национальный исследовательский Томский государственный университет | студент кафедры защиты информации и криптографии | alexander.miloshenko@gmail.com |
Соловьёв Тимофей Михайлович | Национальный исследовательский Томский государственный университет | студент кафедры защиты информации и криптографии | tm.solovev@gmail.com |
Черняк Роман Игоревич | Национальный исследовательский Томский государственный университет | студент кафедры защиты информации и криптографии | r.chernyack@gmail.com |
Шумская Марина Владимировна | Национальный исследовательский Томский государственный университет | сотрудник отдела информационной и компьютерной безопасности управления информатизации | m.shumskaya@gmail.com |
Lininger R. and Vines D. Phishing: Cutting the Identity Theft Line. Wiley, 2005. 334 p.
Bay H., Ess A., and Tuytelaars T. SURF: Speeded Up Robust Features // Computer Vision and Image Understanding (CVIU). 2008. V. 110. No.3. P. 346-359.
Зеленков Ю. Г., Сегалович И. В. Сравнительный анализ методов определения нечетких дубликатов для Web-документов // Труды 9 Всерос. науч. конф. «Электронные библиотеки: перспективные методы и технологии, электронные коллекции»-RCDL'2007. Переславль-Залесский, Россия, 2007. С. 166-174.