Возможности использования цифровых следов для прогнозирования образовательных достижений студентов | Вестн. Том. гос. ун-та. Философия. Социология. Политология. 2021. № 64. DOI: 10.17223/1998863X/64/13

Возможности использования цифровых следов для прогнозирования образовательных достижений студентов

В статье представлены результаты построения модели прогнозирования образовательных достижений студентов на основе данных из электронной образовательной системы ТГУ и их цифрового следа в ВКонтакте с использованием алгоритмов машинного обучения. Сделан вывод о специфике цифрового следа студентов с высокими образовательными достижениями, проявляющийся в подписках и количестве групп членства, друзей и подписчиков.

Possibilities of Using Digital Footprints to Predict Educational Achievements of Students.pdf Введение Реализация образовательной политики в направлении выявления и поддержки талантов, профориентации и индивидуализации обучения формирует запрос как на анализ факторов, влияющих на образовательные достижения студентов, так и на разработку прогностических моделей их образовательной успешности, основанной на выявленных факторах. Традиционными источниками данных для решения этой задачи выступают данные, генерируемые в рамках систем электронного обучения образовательных учреждений, данные психологических тестирований и социологических опросов студентов, а также образовательная и социально-экономическая статистика. Чаще всего модели анализа и прогнозирования образовательных достижений используют данные о текущей академической успеваемости студентов [1]. Однако до сих пор мало используются возможности анализа данных, генерируемых студентами в интернете и социальных медиа, - цифровые следы. Под цифровым следом (англ. digital footprint) в данной статье понимается совокупность информации о пользователе и структуре и содержании его активности в онлайне. Изучение цифрового следа студента позволяет повысить качество учебной аналитики и прогностики за счет следующих преимуществ. Во-первых, цифровой след содержит большое количество открытых пользовательских данных о персональных (когнитивных, мотивационных, психологических) характеристиках студентов. Важно отметить, что эти данные генерируются естественным образом самим респондентом, а не в искусственной ситуации тестирования или опроса. Во-вторых, анализ цифровых следов студентов позволяет оценивать образовательный потенциал «на входе» в университет. В отличие от существующих моделей прогнозирования образовательных до- Возможности использования цифровых следов для прогнозирования 141 стижений, основанных на данных о текущей успеваемости, анализ цифровых следов дает возможность дать такой прогноз относительно студентов, только что поступивших в университет и еще не прошедших первые сессии. В-третьих, цифровые следы дают новую возможность для оценки и анализа образовательных достижений обучающихся - они позволяют оценить неформальные и информальные образовательные достижения студентов, которые не фиксируются в рамках образовательной программы по направлению обучения в университете. Поэтому субъекты управления университетами уже сейчас и в ближайшем будущем будут генерировать запрос на разработку аналитических инструментов и моделей работы с цифровыми следами, которые позволят повысить качество управленческих решений в сфере управления образовательным процессом в целом и образовательными траекториями студентов в частности. Данная статья резюмирует один из первых опытов использования анализа цифровых следов студентов для задач учебной аналитики, а именно прогнозирования формальных образовательных достижений обучающихся. В качестве исследовательских в данной статье рассматриваются следующие вопросы: - какие конкретные компоненты цифровых следов можно использовать для прогнозирования образовательных достижений студентов? - как можно дифференцировать студентов по уровню их формальных образовательных достижений? - какие алгоритмы можно использовать для прогнозирования образовательных достижений студентов? Рассмотрению ответов на эти вопросы и посвящена данная статья. Обзор литературы по тематике взаимосвязи интернет-активности и образовательных достижений обучающихся Публикации по тематике взаимосвязи интернет-активности в социальных сетях и образовательных достижений обучающихся начали появляться относительно недавно - в начале 2010-х гг. Это связано с новизной самого изучаемого феномена цифровых следов в социальных сетях. Первая социальная сеть Classmates запустилась в 1995 г., самая распространенная социальная сеть в мире Facebook была основана в 2004 г. (причем как социальная сеть Г арвардского университета, затем ставшая открытой для любых пользователей). Выход на рынок смартфона Apple в 2007 г. резко ускорил рост численности пользователей социальных сетей благодаря удобным мобильным версиям социальных сетей и мобильному интернету. Поэтому в период с 2008 по 2012 г. наблюдался резкий рост количества пользователей социальных сетей и объема генерируемых ими цифровых следов [2]. Первые публикации по теме фиксировали негативную взаимосвязь между пользованием социальных сетей и образовательными достижениями обучающихся. В частности, в ряде исследований было отмечено негативное влияние частоты использования Facebook на вовлеченность студентов в образовательный процесс [3, 4]. Аналогичные выводы были сделаны и в отношении школьников. Так, более низкий результат образовательного тести- В.В. Кашпур, Е.Ю. Петров, В.Л. Гойко, А.В. Фещенко 142 рования и меньшее количество проведенных за учебой часов в неделю для школьников, пользующихся Facebook, были выявлены в исследовании П. Киршнера и А. Карпинского [5]. Однако результаты этих исследований были получены с использованием традиционных методов социальных наук -массового опроса и кейс-стади. Их общим недостатком можно считать выстраивание выводов о влиянии интернет-активности в социальных сетях на образовательные достижения не на основе фактической информации, а на основе репрезентации представлений студентов и школьников. Начиная с 2015 г. стали появляться публикации, основанные на анализе цифровых следов обучающихся при помощи методов Data Mining и интеллектуального анализа данных с использованием алгоритмов машинного обучения. Практически все подобные публикации демонстрируют позитивную взаимосвязь между цифровым следом и интернет-активностью и образовательными достижениями студентов и школьников. В качестве примера можно привести следующие публикации: статьи И. Смирнова, фиксирующие положительную взаимосвязь между фактом присутствия студента в «ВКонтакте» и его средним баллом [6], а также положительную зависимость между объемом вокабуляра на странице социальной сети, частотой использования английских слов, слов, связанных с чтением, мышлением, запоминанием, длиной слов и постов и академической успеваемостью [7]; статья А. Красильникова и М. Семеновой, демонстрирующая положительную взаимосвязь между временем, проведенным в «ВКонтакте» перед экзаменами, и величиной оценки за экзамены [8]. Ряд исследований фиксируют взаимосвязь подписок, отражающих интересы школьников и студентов и их академическую успеваемость [9, 10]. Взаимосвязь интернет-активности и когнитивных (интеллект, креативность) и мотивационных особенностей личности обучающихся была зафиксирована в исследованиях коллектива под руководством А. Фещенко [11]. Эти исследования нашли значимое практическое применение - с помощью анализа цифрового следа в социальной сети «ВКонтакте» осуществляется рекрутинг абитуриентов в Томском государственном университете. С помощью применения методов искусственного интеллекта распознаются предметные интересы человека на основе его подписок в социальной сети, а также обучается модель машинного обучения для поиска «своего» абитуриента Томского государственного университета на основе результатов психологического тестирования, отражающего когнитивные способности студентов. Отдельным значимым компонентом цифрового следа, имеющим взаимосвязь с образовательными достижениями, являются сетевые связи обучающихся. Исследования на материале иностранных и российских студентов зафиксировали структурацию сетевых связей в зависимости от образовательных достижений, показав наличие эффекта гомофилии среди студентов с высокими и низкими образовательными достижениями [12, 13]. Методы и источники данных Достижение цели прогнозирования образовательных достижений на основе данных цифровых следов обучающихся базировалось на использовании современных методов сбора, обработки и анализа цифровых данных - Data Mining и машинное обучение. Возможности использования цифровых следов для прогнозирования 143 Методы Data Mining использовались при получении данных цифровых следов студентов. В качестве входных данных использован цифровой след пользователя из социальной сети «ВКонтакте», а также данные об успеваемости студента в системе электронного обучения LMS Moodle. Сбор данных осуществлялся в несколько этапов. На первом этапе выгружались данные об успеваемости студентов ТГУ из LMS Moodle. Выгружены данные об успеваемости 9 360 студентов. Во избежание возникновения утечки персональных данных они были предварительно обезличены. Помимо среднего балла, были получены данные о факультете, уровне образования, статусе студента, направлении подготовки, а также идентификатор в системе Moodle. Второй этап сбора данных - идентификация студентов в социальной сети. Данный этап проводился в полуавтоматическом режиме с использованием алгоритмов поиска, использующих открытое API ВКонтакте. С помощью метода ВК API-search выполнялся поиск пользователей в социальной сети. При совпадении ФИО и возраста пользователи добавлялись в результирующую выборку, после чего проводилась ручная валидация пользователей. Проверялись их подписки на наличие университетских или региональных сообществ, а также поля профиля, где указано место учебы. Отсеивались неактивные и заблокированные аккаунты. В итоге было идентифицировано 6 488 пользователей. Заключительный этап сбора данных - выгрузка цифрового следа идентифицированных пользователей. Структура цифрового следа пользователя «ВКонтакте» состоит из следующих элементов: 1) Общая информация - пол, город, количество друзей, подписчиков, постов на стене, фотографий, видеозаписей, аудиозаписей, информация об образовании, карьере. Эти признаки могут давать какую-то общую информацию о человеке и его активности в социальной сети. 2) Личная информация - это информация, указываемая пользователем самостоятельно. Это жизненная позиция, интересы, любимые фильмы, музыка, цитаты, произвольная информация о себе. В теории это должно быть очень хорошим признаком для составления некоторого цифрового портрета человека, однако на практике эти поля заполнены подавляющим меньшинством пользователей. 3) Сообщества, на которые подписан пользователь (далее - «подписки пользователя»). Сообщества «ВКонтакте» упорядочены в соответствии с частотой и характером взаимодействия пользователя с контентом. Очевидно, что пользователь подписан на те сообщества, которые ему интересны в силу тех или иных причин. Таким образом, если получить распределение тематик в сообществах пользователя, то можно узнать его интересы. Все собранные данные объединялись в единую базу, необходимую для построения модели прогнозирования образовательных достижений студентов. Методы машинного обучения, которые использовались для построения модели прогнозирования образовательных достижений на основе данных цифрового следа, базировались на применении следующих алгоритмов: градиентного бустинга над решающими деревьями из библиотек CatBoost и LightGBM, а также стохастического градиентного спуска. Их применение В.В. Кашпур, Е.Ю. Петров, В.Л. Гойко, А.В. Фещенко 144 было обусловлено рамочными требованиями модели: масштабируемость -так как количество переменных цифрового следа пользователей довольно велико и необходимо, чтобы алгоритм мог без труда справляться с ними; быстрая обучаемость и минимальные требования к вычислительным ресурсам - алгоритм должен быстро реагировать для оперативного и своевременного получения прогноза. Дифференциация обучающихся в зависимости от их образовательных достижений Одним из важных результатов построения модели прогнозирования образовательных достижений на основе цифровых следов явилась разработка такого подхода к дифференциации обучающихся на студентов с высокими и низкими образовательными достижениями, который позволил бы использовать его в рамках применения инструментов машинного обучения. Существует несколько подходов, которые используются в подобных задачах. В ходе исследования был оценен каждый подход путем подачи фиксированной выборки студентов в модель машинного обучения и по результатам F-меры делать выводы относительно точности и полноты модели. 1. Разбиение по 75-му перцентилю. Это был первый подход к дифференциации студентов. В рамках данного подхода считалось, что студенты, средний балл которых больше этой границы, обладают высокими образовательными достижениями (1), если средний балл меньше или равен границе -низкими (0). При таком подходе возникают сильный дисбаланс классов и слабая разделимость между ними, что видно по результатам тестирования. 2. Выбор крайних границ с использованием полярных квартилей (1-й и 4-й квартили) [14]. Считаем, что высокими образовательными достижениями обладают студенты, средний балл которых выше 75-го перцентиля, низкими - ниже 25-го перцентиля. Такой подход обеспечивает сбалансированность классов и хорошую разделимость между ними, однако теряется половина данных. 3. Система ECTS [15]. Европейская система оценивания учета работы студентов в рамках образовательной программы, которая имеет следующую градацию: А - лучшие 10%, В - следующие 25%, С - следующие 30%, D -следующие 25%, Е - следующие 10%. В рамках системы ECTS считается, что высокими образовательными достижениями обладают студенты, имеющие оценки «А» и «В», остальные относятся к низкому уровню. При таком методе дифференциации имеем более сбалансированные классы, чем в 1-м методе, к тому же система ECTS предусматривает метод конвертирования оценок между университетами в разных странах, что расширяет границы применения предложенной методики. Однако при апробации данного подхода получается слабая разделимость между классами. 4. На основании анализа преимуществ и недостатков описанных методов в рамках данного исследования был предложен другой подход, заключающийся в разбиении по крайним границам системы ECTS. Было предложено считать, что высокими образовательными достижениями обладают студенты, чей средний балл выше границы 65-го перцентиля, а низкими - ниже границы 35-го перцентиля. Тем самым получена сбалансированность классов, хо- Возможности использования цифровых следов для прогнозирования 145 рошая разделимость между ними и меньшая потеря данных, чем в методе полярных квартилей. Таким образом, резюмируя полученные результаты (табл. 1), получаем, что лучше всего по каждому из направлений обучения (гуманитарное, естественное, техническое) себя показал метод, при котором берутся крайние границ по ECTS. Таблица 1. Результаты тестирования методов дифференцирования обучающихся по академической успеваемости (значение метрики F-score) Направление подготовки Метод 1. Разбиение по 75-му перцентилю Метод 2. Разбиение по полярным квартилям. 1-й квартиль - низкий, 4-й - высокий Метод 3. Система ECTS Метод 4. Крайние границы по ECTS (высокий >=65%, низкий

Ключевые слова

цифровой след, студенты, образовательные достижения, машинное обучение

Авторы

ФИООрганизацияДополнительноE-mail
Кашпур Виталий ВикторовичТомский государственный университет ; Научно-технологический университет «Сириус»кандидат социологических наук, заведующий кафедрой социологии; руководитель проектаvitkashpur@mail.ru
Петров Евгений ЮрьевичТомский государственный университет ; Научно-технологический университет «Сириус»техник Центра прикладного анализа больших данных; участник проектаpetrov@data.tsu.ru
Гойко Вячеслав ЛеонидовичТомский государственный университет ; Научно-технологический университет «Сириус»директор Центра прикладного анализа больших данных; участник проектаgoiko@data.tsu.ru
Фещенко Артем ВикторовичТомский государственный университет ; Научно-технологический университет «Сириус»старший преподаватель кафедры гуманитарных проблем информатики; участник проектаfav@ido.tsu.ru
Всего: 4

Ссылки

Горбунова Е.В. Выбытия студентов из вузов: исследования в России и США // Вопросы образования. 2018. № 1. С. 110-131. DOI: 10.17323/1814-9545-2018-1-110-131
Kitchin R. Big Data, New Epistemologies and Paradigm Shifts // Big Data & Society. 2014. № 1 (1). P. 1-12. DOI: 10.1177/2053951714528481
Junco R. The relationship between frequency of Facebook use, participation in Facebook activities, and student engagement // Computers and Education. 2012. № 58 (1). P. 162-171.
Paul J., Baker H., Cochran J. Effect of Online Social Networking on Student Academic Performance // Computers in Human Behavior. 2012. № 28. P. 2117-2127. DOI: 10.1016/j.chb.2012.06.016
Kirschner P., Karpinski A. Facebook® and academic performance // Computers in Human Behavior. 2010. № 26 (6). P. 1237-1245. DOI: 10.1016/j.chb.2010.03.024
Смирнов И.Б., Сивак Е.В., Козьмина Я.Я. В поисках утерянных профилей: достоверность данных ВКонтакте и их значение в образовательных исследованиях // Вопросы образования. 2016. № 4. C. 106-122. DOI: 10.17323/1814-9545-2016-4-106-122
Smirnov I. Estimating educational outcomes from students’ short texts on social media // EPJ Data Sci. 2020. № 9 (27). DOI: 10.1140/epjds/s13688-020-00245-8
Krasilnikov A., Semenova M. Do social networks help to improve student academic performance? The case of Vk.com and Russian students // Economics Bulletin. 2014. № 34. P. 718-733.
Поливанова К.Н., Смирнов И.Б. Что в профиле тебе моем данные «ВКонтакте» как инструмент изучения интересов современных подростков // Вопросы образования. 2017. № 2. C. 134-152. DOI: 10.17323/1814-9545-2017-2-134-152
Ихсанов И., Шахова И. Применение методов машинного обучения для выявления взаимосвязи академической успеваемости и данных профиля социальной сети // Russian Digital Libraries Journal. 2019. № 2. C. 95-118. DOI: 10.26907/1562-5419-2019-22-2-95-118
Гойко В.Л., Киселев П.Б., Мацута В.В., Суханова Е.А., Cтепаненко А.А., Фещенко А.В. Методы и инструменты выявления перспективных абитуриентов в социальных сетях // Открытое и дистанционное образование. 2017. № 4 (68). C. 45-52.
Flashman J. Academic Achievement and Its Impact on Friend Dynamics // Sociology of Education. 2012. № 85. P. 61-80. DOI: 10.1177/0038040711417014
Smirnov I., Thurner S. Formation of homophily in academic performance: Students change their friends rather than performance // PLoS ONE. 2017. № 12 (8):e0183473. URL: https://doi.org/10.1371/journal.pone.0183473 (accessed: 15.09.2021).
Lu O.H.T., Huang A.Y.Q., Lin A. J.Q., Ogata H., Yang S.J.H. Applying Learning Analytics for the Early Prediction of Students’ Academic Performance in Blended Learning // Educational Technology & Society. 2018. № 21 (2). P. 220-232.
Sousa A., Oliveira C., Borges J. Using Academic Performance to Predict College Students Dropout: a case study // Educafao e Pesquisa. 2018. № 44. URL: https://doi.org/10.1590/s1678-4634201844180590 (accessed: 18.09.2021).
Swail W.S. The Art of Student Retention. A handbook for practitioners and administrators // Educational Policy Institute. 2014. URL: https://secureservercdn.net/50.62.198.97/68g.645.myftpup-load.com/wp-content/uploads/2020/01/Artofstudentretention_2008.pdf (accessed: 20.09.2021).
 Возможности использования цифровых следов для прогнозирования образовательных достижений студентов | Вестн. Том. гос. ун-та. Философия. Социология. Политология. 2021. № 64. DOI: 10.17223/1998863X/64/13

Возможности использования цифровых следов для прогнозирования образовательных достижений студентов | Вестн. Том. гос. ун-та. Философия. Социология. Политология. 2021. № 64. DOI: 10.17223/1998863X/64/13