Исследование выполнено в рамках междисциплинарного проекта, посвященного разработке системы прогнозирования профессиональных интересов абитуриентов на основе данных социальных сетей. Автоматические методы анализа и классификации текстов на основе специальных тематических тезаурусов применяются для проверки гипотезы, согласно которой тексты персональной страницы могут выражать научные и профессиональные интересы абитуриента в рамках противопоставления «гуманитарный, естественнонаучный или математический профиль».
Attribution of professional interests of social network users based on subject-oriented groups and personal pages.pdf Введение Бурное развитие социальных сетей, являющихся площадкой разноаспект-ного выражения знаний, интересов, мнений, оценок представителей практически всех социальных групп населения, обусловливает вовлечение их контента в современные исследования широкого спектра гуманитарных наук: социологии, психологии, культурологии, политологии и др. Один из актуальных вопросов, разрешаемых при привлечении эмпирического материала текстов социальной сети «ВКонтакте», - моделирование психологических, социальных и других аспектов личностей, формирующих данный контент. Современная лингвистика вовлекается в исследование текстов социальных сетей как с целью рефлексии появляющихся новых дискурсов, жанров, особенностей реализации единиц всех языковых уровней в новых условиях коммуникации, так и для решения проблем, формируемых в предметном поле смежных гуманитарных наук. В таком случае наряду с лингвистическим инструментарием зачастую используются методы и данные других наук. Работа выполнена в логике междисциплинарных исследований, объединяющих усилия социологов, лингвистов, математиков и программистов, и представляет результаты одного из этапов реализации комплексного междисциплинарного проекта. Его конечная цель - разработка системы прогнозировании профессиональной ориентации потенциальных абитуриентов на основе автоматического анализа текстов открытого тематически немаркированного общения выпускников школ в социальных сетях. Прогнозирование профессиональной ориентации осуществляется в соответствии со сложившейся системой противопоставления направлений подготовки студентов (гуманитарный, естественно-научный и математический профиль)11. Решение этой задачи позволит на ранних этапах их профессионализации выявлять абитуриентов для дальнейшей работы с ними в центрах профориентации и довузовской подготовки. Таким образом, научная проблема формируется в предметном поле социологии, а ее решение ставит перед исследователями междисциплинарной команды ряд конкретных задач, решаемых при использовании теоретико-методоло-гического аппарата отдельных наук [1-3]. В данной статье представлены результаты первого этапа выполнения проекта с использованием лингвистических методов анализа текста, результаты которого применяются в методиках автоматической обработки текстовых массивов, в первую очередь - через создание автоматических классификаторов текстов личных страниц «ВКонтакте» по трём группам интересов их авторов: гуманитарное, естественное и математическое. Разработка данного этапа является проверкой исследовательской гипотезы о том, что пользовательские данные потенциальных абитуриентов в социальной сети «ВКонтакте» содержат сведения об их интересах к той или иной предметной области и о том, что эти сведения могут быть формализованы и в конечном итоге станут основой автоматических моделей определения направлений профессиональной ориентации исследуемых текстов. При выдвижении данной гипотезы и при определении способов и этапов ее проверки мы опирались на ряд предшествующих социологических исследований интересов пользователей социальных сетей [4-7], на лингвистические работы, посвященные анализу дискурсивно-жанрового своеобразия анализируемых текстов и лингвистическому моделированию языковой дискурсивной личности [8]. Кроме того, был использован опыт применения междисциплинарного использования методов лингвистического анализа текста, автоматической обработки значительных текстовых массивов и статистической проверки лингвистических гипотез [9-11]. Материал и источники анализа Основным источником данных для лингвистического портретирования абитуриента явилась стена персональной интернет-страницы пользователя социальной сети «ВКонтакте». Стена персональной страницы как одно из средств конструирования и отражения интернет-идентичности пользователя исследовалась в работах Т.В. Алтуховой, Л.И. Ермоленкиной, Е.А. Костяшиной, З.И. Резановой, А.В. Щекотурова [12-15] и др. Исследователи характеризуют различные речевые жанры в текстовом пространстве стены личных страниц в социальных сетях: поздравление, реклама, информационные и развлекательные сообщения [16, 17], среди которых преобладают ссылки на другие интернет-ресурсы и репосты новостей, развлекательных видеороликов, вербальных и визуальных мемов. В целом стена отражает выделенные многочисленными исследователями особенности виртуальной коммуникации [18, 19]: гипертекстуальность и интерактивность медийной среды (наличие комментариев и репостов, причем последние составляют преимущественное наполнение стен многих пользователей); интенсивность использования мультимедиа (наличие мультимедиа-контента, нередко в составе репоста); нарастающее присутствие элементов невербального общения (высокий процент сообщений, содержащих изображение либо состоящих из одного изображения). Клиповый и преимущественно визуальный характер содержимого стены, краткость и репродуктивный характер ее текстового содержимого ограничивают применимость эффективных в других случаях традиционных методов анализа текста: грамматико-синтаксического, лексического, прагматического, фреймового и т.п. Однако при дополнении их другими методами, в том числе, как мы попытаемся показать далее на примере лексического анализа, математического моделирования с использованием автоматических классификаторов текстов, они могут продемонстрировать свою эффективность. Все традиционно выделяемые в составе стены речевые жанры могут быть разделены на два функциональных типа, противопоствляемых по отношению к создателю страницы: посты содаются автором страницы, репосты представляют собой копии чужих постов, распространяемых автором страницы вследствие совпадения интересов и точки зрения автора и транслятора репоста. Именно эта особенность явилась основанием включения в анализ при моделирования профессиональных направленностей пользователей социальной сети «ВКонтакте» текстовых материалов постов и репостов. Большинство постов и репостов, составивших материал автоматизированного контент-анализа, представляют собой краткое (300 знаков) сообщение научно-популярного или развлекательного характера, как правило, снабженное фотографией или изображением иного рода (рисунок, инфографика), передающее в доступной форме актуальные события и новости научного направления, которому посвящено сообщество. В качестве конкретного материала анализа нами были привлечены следующие: 1. На первом этапе исследованы посты и репосты стен профессионально ориентированных сообществ «ВКонтакте», соответствующие трем научным направлениям: математическое, гуманитарное и естественное. К анализу привлекались: тексты стен сообществ, сгруппированные по отнесенности к тематическим группам, были исследованы тексты 22 стен групп математического направления - «Роботы и робототехника», «МЕХатрони-ка и BIOS», «Информационные технологии и системы» и др.; 14 стен групп естественного направления - «Клуб National Geographic Россия», «Добрая Экология» и др.; 48 стен групп гуманитарного - «Латынь - это интересно!», «Лучшие стихи великих поэтов» и др. Привлечение к лингвистическому анализу данного типа текстов создало основание для определения состава лексических маркеров их тематической дифференциации. Статистический анализ выделенных групп маркеров позволил обосновать возможность атрибуции текстов. 2. На втором этапе мы изменили принципы отбора материала: к анализу был привлечен весь текстовый контент открытых стен пользователей социальной сети «ВКонтакте», являющихся студентами первого курса Томского государственного университета. Были изменены и принципы организации первичных текстовых источников - они также были разделены в соответствии с тремя направлениями образования. Принципиально важным был отбор текстов всего контента стены пользователя: на данном материале проверялась гипотеза о том, что выделенный на первом этапе состав лексических маркеров может стать основой классификации текстов тематически неориентированного общения пользователей социальной сети «ВКонтакте». Анализ и обсуждение результатов Как уже было отмечено ранее, на первом этапе с целью выявления маркеров профессиональных интересов абитуриентов ализировались тексты тематических групп, относящихся к одной из предметных областей знаний. Поскольку стена является отражением виртуального самопозиционирования абитуриента, мы склонны считать, что встречаемость релевантных лингвистических маркеров демонстрирует интерес к предметной области. Для выявления ключевых слов мы намеренно не использовали терминологические словари, ориентированные на профессиональных пользователей, но предпочли выбирать лексику путем контент-анализа сообществ. Основой создания тематических тезаурусов стал частотный анализ лексических единиц, использованных в текстах стен сообществ: общий объем всех стен различных сообществ составил 1254 Мб (114 592 246 слов), в том числе стен математического направления - 217 Мб (16752913 слов), естественного - 428 Мб (28 533 920 слов) и гуманитарного - 609 Мб (69 305 413 слов). Анализ проводился на лемматизированном программой «MyStem 3.0» [20] текстовом материале. Предварительный этап анализа текста включал также приведение всех лексических единиц к единому формату (индексация), а также исключал из анализа служебные части речи (предлоги, союзы, частицы), знаки препинания, не несущие смысловой нагрузки. Все эти действия позволили представить исследуемые тексты (стены пользователей) в виде вектора. Другими словами, каждый текст был представлен как набор лексических единиц (атрибутов), приведенных к единому формату (нормализация текста), что позволило осуществить более точный формально-количественный анализ. Нормализация включала лингвистические компоненты: лемматизацию (приведение всех словоформ к начальной форме) и редуцирование так называемых «стоп-слов» (служебных частей речи), а также технические: удаление знаков препинания и фиксацию единого регистра (нижнего) для всех слов в тексте. Тем самым исключается влияние на относительную частоту маркеров неинформативных признаков и повторяющихся лексем. Далее слова в нормализованных текстах были выбраны вручную по принципу «один список - несколько сообществ по одной теме». Например, список слов по биологический тематике был составлен на основе сообществ «Клуб National Geographic Россия», «Экология | Пермакультура | ЭКО-Поселения Природа», «Углубленный биолог» и др. Затем списки были укрупнены: объединенные списки по философии, социологии, филологии и лингвистике, журналистике, юридическим наукам, истории составили гуманитарный тезаурус; списки по физике, химии, биологии, химии -тезаурус естественных наук; по математическим дисциплинам - математический тезаурус. Отбор лексических единиц по критерию частотности осуществлялся следующим образом: при включении слова в тезаурус относительная частотность слов должна превышать 0,001% и быть меньше 0,01%. В случае сдвига диапазона в сторону увеличения в выборку попадает большое количество общеупотребительных слов, не связанных с конкретной предметной областью. При сдвиге диапазона в сторону более низких значений из выборки начинают исчезать наиболее популярные слова, относящиеся к тематическим группам, важным для идентификации научной ориентации абитуриента12. В тезаурус для последующего автоматического анализа текста были отобраны слова, отвечающие следующим критериям: а) терминологический характер или соотнесенность с определенной предметной областью (аминокислота, биоразнообразие, гоминид, ихтиология, геоинформационный, картографический, космосъемка, герундий, безударный, зарисовка, аллегория, великокняжеский, воцарение, априорный, идеалистический, вменять, дознание и т.п.); б) принадлежность к классу имен собственных, связанных с данной областью знания (Альтюссер, Вундт, Гуссерль, Бэкон, Геродот и т.п.), более характерные для гуманитарных наук. В случае затруднений при классификации лексики для справки использовались терминологические и энциклопедические словари различных областей знания, а также тезаурус WordNet (привлекался иностранный эквивалент). В данном исследовании использовались укрупненные тематические группы (деление на гуманитарные, естественные и математические науки), что позволило снизить остроту проблемы вхождения некоторых лексем-терминов в несколько тематических групп одновременно (например, атом, давление, площадь и т.п.). Неспецифическая и общенаучная лексика (такие слова, как анализ, исследование, разработка и т.п.), интернет-сленг и молодежный сленг, попавшие в выборку, отсеивались вручную. Получившиеся в результате словари содержали лексику, демонстрирующую низкий уровень полисемии и омонимии, что способствовало снижению количества ложных срабатываний алгоритма и уточнению вектора слов. В то же время эта лексика обладала достаточной частотой встречаемости в сообществах, подвергшихся контент-анализу, чтобы присутствовать на странице в форме репостов. В результате был составлен словарь ключевых слов, включающий 432 лексических единицы по гуманитарным направлениям, 120 единиц -по естественным и 126 - математическим. Примеры выявленных лексических маркеров (по 5 слов, относящихся к числу наиболее частотных, занимающих срединное положение и наименее частотных), приведены в табл. 1. Т а б л и ц а 1 Примеры лексических маркеров, используемых в атрибуции текстов Естественный Гуманитарный Математический Состав - 0,00165 Древний - 0,0744 Высота - 0,00168 Реактив - 0,00163 Империя - 0,0721 Множество- 0,00150 Химик - 0,00143 Дворянство - 0,0048 График - 0,00146 Химический - 0,00130 Анализ - 0,0048 Луч - 0,00016 Бензол - 0,00029 Граница - 0,0214 Квантовый - 0,00016 С целью проверки корректности выбора маркеров (признаков), которые в дальнейшем служат для классификации стен пользователей, был предложен тест для определения уровня значимости по критерию Стьюдента, выявляющий различия использования лексических единиц тематического тезауруса в естественных и математических стенах сообществ, и тест Краскела - Уоллиса - для гуманитарных. В результате статистического анализа было установлено, что использование лексических единиц отличается в естественных и математических тезаурусах со значением p-value: 0,004247 естественного тезауруса и со значением p-value: 0,004323 для математического. Что касается критерия значимости гуманитарного тезауруса, то уровень значимости p-value составил 0,4232. Так как для принятия гипотезы о значимости был выбран стандартный порог 0,05 (означающий, что с вероятностью 95% данный результат не является случайным), мы принимаем альтернативную гипотезу для математического и естественного тезаурусов. Другими словами, разработанные тезаурусы действительно влияют на классификацию текстов. Визуально различия дисперсий частот маркеров тематических тезаурусов отностительно текстов стен сообществ можно представить в виде диа-грамы размаха (рис. 1). о о о оо о _ со о о _ £ D. Пример представления вычислений объединенных векторов слов, взятых случайным образом из матрицы, но относящихся к разным предметным сферам, представлен в табл. 2. Строки представляют тексты персональных страниц студентов с указанием направления подготовки, в столбцах представлены значения относительных частот атрибутов (лексем). Нами была проведена валидизация тезаурусов методами статистики: использован непараметрический критерий Краскела - Уоллиса (p = 0,0456), что говорит о значимом различии текстов по исследуемому параметру, т.е. тезаурусы различают тексты персональных страниц пользователей социальной сети «ВКонтакте», противопоставленные по направлениям обучения. Различия использования тематических маркеров наглядно отображает диаграмма размаха частот (рис. 2): на оси ординат представлена средняя частота использования лексических единиц по тематическим тезаурусам на страницах пользователя социальной сети «ВКонтакте», на оси абсцисс -тезаурусы. Таким образом, статистический анализ свидетельствует о возможности использования маркеров в процессе атрибуции текстов персональных страниц в соответствии с профессиональными интересами их авторов. Т а б л и ц а 2 Относительные частоты использования маркеров в текстах персональных страниц студентов трех направлений подготовки Направление подготовки пользователей Атрибуты текстов (лексемы) Мысль Ферма Процессор Трек Текст 1(di), гуманитарное 0.0416 0.042 0 0 Текст 2 (d2), гуманитарное 0 0 0 0 Текст 3(d3), гуманитарное 0.222 0 0 0 Текст 4(d4), гуманитарное 0.667 0 0 0 Текст 5(d5), естественное 0 0 0 0 Текст 6(d6), естественное 0 0 0 0 Текст 7(d7), естественное 0.143 0.429 0 0 Текст 8(d8), естественное 0 0 0 0 Текст 9(d9), естественное 0.008 0 0.008 0.038 Текст 10(d10), естественное 0.045 0 0.045 0.136 Текст 11(d11), математическое 0.143 0 0 0 Текст 12(d12), математическое 0.032 0.032 0 0 Текст 13(d13), математическое 0.143 0.429 0 0 Текст 14(d14), математическое 0.008 0 0.008 0.038 Текст 15(dls), математическое 0.045 0 0.045 0.136 Текст 16(d16), математическое 0 0 0 0 Рис. 2. Диаграмма размаха частот лексических единиц по тематическим тезаурусам относительно стен пользователей «ВКонтакте» На следующем этапе исследования был осуществлен поиск наиболее точного классификатора текстов по заданным маркерам (в терминологии статистического анализа - атрибутам)13. При построении алгоритма машинного обучения на вышеуказанной формальной модели текстов пользователей «ВКонтакте» с заранее известным классом (факультет обучения: гуманитарный, естественный, математический) весь массив текстов был разбит на две непересекающиеся части 70:30%: «Обучающую» (Tr) и «Тестовую» (Te), где «Обучающая» -Tr = {d1 ... d\Tr |}, по которой создается классификатор Ф', а также «Тестовая» (Те = {d\Tr\+1 ... d\Q\}) - массив стен пользователей, на которых производится качество работы классификатора. Обе группы текстов (X) содержат вектор атрибутов с относительной частотой лексических еди-ницм(х^, сохраненных в тезаурусе X - {x1, х2, ... xj}. Для классификации текстов нами использовались следующие виды классификаторов: линейный дискриминантный анализ (LDA), метод опорных векторов (SVM), логистическая регрессия (LR ), деревья решений (Trees), случайный лес (RF). Данные виды классификаторов были выбраны, так как эффективность их использования была установлена при решении задачи классификации текстов по лексическим маркерам в ряде предшествующих работ (см., например: [21, 22]). В табл. 3 представлены результаты классификации текстов (Tracc обозначает точность работы классификатора обучающей выборки, Teacc - точность работы классификатора тестовой выборки). Т а б л и ц а 3 Оценка точности классификации текстов на основе группы классификаторов Классификатор Tr Te L ^acc LDA 62,67 60,71 LR 65,33 64,29 SVM 64 60,71 Trees 49,33 50 RF 65,33 57,14 Как видно из таблицы, наиболее успешный классификатор - LR (Логистическая регрессия), показывающий стабильный результат распределения стен пользователей. На рис. 2 представлены результаты использования данного классификатора. о 0 10 20 30 40 50 Лексические единицы Рис. 3. Прогнозируемая вероятность лексических единиц по научным направлениям на основе логистической регрессии Как показывает график классификации, все тексты разделяются на три класса: гуманитарный, естественный и математический, что свидетельствует о корректности работы составленных нами тезаурусов. Однако погрешности анализа вызывают тексты, относящиеся к гуманитарному научному направлению. Полагаем, что это обусловлено наличием большого количества лексических единиц в гуманитарном тезаурусе, которые также встречаются в постах (или стенах) пользователей социальных сетей двух других научных направлений, об этом свидетельствует и вышеописанный критерий проверки уровня значимости гуманитарного тезауруса относительно стен сообществ (p = 0,4232). Подобный результат требует более детального изучения атрибутов тезауруса (в частности, гуманитарного направления), поиска оптимальных моделей классификации и применения методов мультиколлинеарности. Данную проблему можно объяснить тем что количество наблюдений (текстов) меньше числа атрибутов. Главная задача мультиколлинеарно-сти - выявить наиболее информативные атрибуты, влияющие на классификацию текстов, что позволит найти более подходящие признаки для гуманитарного тезауруса и улучшить точность работы классификатора. Таким образом, исходная гипотеза о возможности формализации сведений об интересах пользователей социальной сети «ВКонтакте» к той или иной предметной области и об их использовании в системах автоматической классификации текстов была подтверждена. Проведенный анализ свидетельствует, во-первых, о результативности автоматической классификации текстов тематически свободного общения в социальной сети «ВКонтакте» с использованием в качестве атрибутов выделенных на первом этапе ключевых слов текстов групп профессионально ориентированного общения; во-вторых, о меньшей степени релевантности в рассматриваемом аспекте данных гуманитарного блока профессионализации. В последнем случае необходимо работать в направлении как уточнения состава маркеров, так и поиска более точных систем автоматической обработки текста. Однако уже на этом уровне можно говорить о возможности применять данную модель классификации к текстам других групп пользователей социальной сети «ВКонтакте», что предполагается осуществить на следующем этапе работы.
Можаева Г.В., Слободская А.В., Фещенко А.В. Информационный потенциал социальных сетей для выявления образовательных потребностей школьников // Открытое и дистанционное образование. 2017. № 3 (67). C. 25-30. DOI: 10.17223/16095944/67/4
Feshchenko A., Goiko V., Stepanenko A. Recruiting university entrants via social networks // EDULEARN17 Proceedings 9th International Conference on Education and New Learning Technologies. P. 6077-6082. DOI: 10.21125/edulearn.2017.2375
Feshchenko A., Goiko V., Mozhaeva G., Shilyaev K., Stepanenko A. Analysis of user profiles in social networks to search for promising entrants // INTED2017 Proceedings, 11th International Technology, Education and Development Conference. March 6th-8th, 2017. P. 5188-5194. DOI: 10.21125/inted.2017.1203
Коршунов А.В. Задачи и методы определения атрибутов пользователей социальных сетей // Электронные библиотеки: перспективные методы и технологии, электронные коллекции. Ярославль, 2013. С. 380-390.
Kim J. et al. Extracting User Interests on Facebook //International Journal of Distributed Sensor Networks. 2014. Vol. 10, №. 6. P. 1-5.
Ahmed A. et al. Scalable distributed inference of dynamic user interests for behavioral targeting // Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2011. P. 114-122.
Michelson M., Macskassy S.A. Discovering users' topics of interest on twitter: a first look // Proceedings of the fourth workshop on Analytics for noisy unstructured text data. ACM, 2010. P. 73-80.
Резанова З.И., Скрипко Ю.К. Личность в среде дискурса: языковая репрезентация социально-психологических типов (на материале дискурса виртуальных фан-сообществ музыкальной направленности) // Вестник Томского государственного университета. Филология. 2016. № 3 (41). DOI: 10.17223/19986645/41/4
Резанова З.И., Романов А.С., Мещеряков Р.В. Задачи авторской атрибуции текста в аспекте гендерной принадлежности (к проблеме междисциплинарного взаимодействия лингвистики и информатики) // Вестник Томского государственного университета. 2013. № 370. С. 24-28.
Резанова З.И., Романов А.С., Мещеряков Р.В. О выборе признаков текста, релевантных в автороведческой экспертной деятельности // Вестник Томского государственного университета. Филология. 2013. № 6 (26). C. 38-52.
Степаненко А.А. Гендерная атрибуция текстов компьютерной коммуникации: статистический анализ использования местоимений // Вестник Томского государственного университета. 2017. № 415. C. 17-25. DOI: 10.17223/15617793/415/3
Алтухова Т.В. Социальная компьютерная сеть «ВКонтакте»: жанровая характеристика // Вестник Кемеровского государственного университета. 2012. № 4 (52), т. 3. С. 21-25.
Ермоленкина Л.И., Костяшина Е.А. Коммуникативно-языковые механизмы формирования этнокультурной идентичности в дискурсивном пространстве интернета // Вестник Томского государственного университета. Культурология и искусствоведение. 2013. № 3 (11). С. 5-15.
Щекотуров А.В. Конструирование виртуальной гендерной идентичности подростков на страницах социальной сети «ВКонтакте» // Женщина в российском обществе. 2012. № 4 (65). С. 31-43.
Резанова З.И. Институциональная и личностная презентация национально-культурной идентичности в интернет-коммуникации: жанровые формы и дискурсивные стратегии // Вестник Томского государственного университета. 2013. № 375. С. 33-41.
Алтухова Т.В. Электронные и рукописные жанры естественной письменной речи: сопоставительный аспект (на примере граффити и записей на электронной стене) // Вестник Кемеровского государственного университета. 2012. № 2 (50). С. 110-116.
Марковская А. С. Особенности поздравления с днем рождения в социальных сетях // Вестник Московского государственного университета. Сер. 19. Лингвистика и межкультурная коммуникация. 2013. № 4. С. 153-159.
Горошко Е.И., Полякова Т.Л. К построению типологии жанров социальных медий // Жанры речи. 2015. № 2 (12). C. 119-127.
Горошко Е.И. Современные интернет-коммуникации: структура и основные параметры // Интернет-коммуникации как новая речевая формация. М., 2012. C. 9-52.
MyStem // Яндекс. 2014-2017. URL: https://tech.yandex.ru/mystem/ (дата обращения: 1.11.2017).
Sheshasaayee A., Thailambal G. Comparison of Classification Algorithms in Text // International Journal of Pure and Applied Mathematics. 2017. Vol. 116, № 22. P. 425-433.
Singhal A., Gopalakrishnan K., Khaitan S.K. Predicting Budget from Transportation Research Grant Description: An Exploratory Analysis of Text Mining and Machine Learning Techniques // Journal of Soft Computing in Civil Engineering. 2017. № 1-2. P. 89-102.