Attribution of professional interests of social network users based on subject-oriented groups and personal pages
The present study is part of an interdisciplinary project that unites the efforts of sociologists, linguists, mathematicians and IT specialists. The authors' ultimate aim is to create a system for predicting the career choice of prospective students that would use automatic text analysis of freely available and topically unconstrained data produced by school leavers in social networks. The current stage presents the testing of a hypothesis that user data of prospective students in the social network VKontakte contain information about their interests for a certain subject, and this information can be formalized and become the basis of automatic models for determining the career choice of text producers. The main source of data for the prospective student's linguistic portrayal is the wall of the personal profile which contains both original posts and reposts that are shared by the page owner. The first stage of analysis consists in studying posts and reposts on the walls of subject-oriented communities in VKontakte which were matched to three subject areas: mathematics, humanities and natural science. This content was used to determine which lexical markers could differentiate between texts of different subject areas and serve as their markers. At the second stage of analysis, the authors used the textual content of freely available user walls that belonged to TSU first-year students. The principles of organizing primary textual sources consisted in dividing them into the three aforementioned subject areas. Downloading all the texts from a user's wall was highly important, since the material was used to test the hypothesis that the set of lexical markers discovered at the first stage could be used to automatically classify the texts of thematically unconstrained communication of VKontakte users. The statistical analysis showed that it was possible to apply the markers in text attribution tasks according to the three subject areas the prospective student might be most interested in. Among the classifiers tested using the markers derived in the first stage, Logistic Regression proved to be the most successful in dividing the texts into three classes: humanitites, natural science and mathematics; this also proves that the subject-area thesauri used functioned correctly. Overall, the study shows the effectiveness of using automatic text classification of thematically unconstrained communication in VKontakte with keywords derived from texts belonging to particular subject areas. The problem that awaits its resolution is the relatively low discriminatory power of humanities keywords, probably due to their widespread usage in social network communication on the whole.
Keywords
обработка естественного языка,
компьютерная лингвистика,
классификация текстов,
профориентация,
социальная сеть,
natural language processing,
computational linguistics,
text classification,
vocational training,
social networkAuthors
Stepanenko Andrey A. | Tomsk State University | stepanenkone@mail.ru |
Shilyaev Konstantin S. | Tomsk State University | shilyaevc@gmail.com |
Rezanova Zoya I. | Tomsk State University | rezanovazi@mail.ru |
Всего: 3
References
Можаева Г.В., Слободская А.В., Фещенко А.В. Информационный потенциал социальных сетей для выявления образовательных потребностей школьников // Открытое и дистанционное образование. 2017. № 3 (67). C. 25-30. DOI: 10.17223/16095944/67/4
Feshchenko A., Goiko V., Stepanenko A. Recruiting university entrants via social networks // EDULEARN17 Proceedings 9th International Conference on Education and New Learning Technologies. P. 6077-6082. DOI: 10.21125/edulearn.2017.2375
Feshchenko A., Goiko V., Mozhaeva G., Shilyaev K., Stepanenko A. Analysis of user profiles in social networks to search for promising entrants // INTED2017 Proceedings, 11th International Technology, Education and Development Conference. March 6th-8th, 2017. P. 5188-5194. DOI: 10.21125/inted.2017.1203
Коршунов А.В. Задачи и методы определения атрибутов пользователей социальных сетей // Электронные библиотеки: перспективные методы и технологии, электронные коллекции. Ярославль, 2013. С. 380-390.
Kim J. et al. Extracting User Interests on Facebook //International Journal of Distributed Sensor Networks. 2014. Vol. 10, №. 6. P. 1-5.
Ahmed A. et al. Scalable distributed inference of dynamic user interests for behavioral targeting // Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2011. P. 114-122.
Michelson M., Macskassy S.A. Discovering users' topics of interest on twitter: a first look // Proceedings of the fourth workshop on Analytics for noisy unstructured text data. ACM, 2010. P. 73-80.
Резанова З.И., Скрипко Ю.К. Личность в среде дискурса: языковая репрезентация социально-психологических типов (на материале дискурса виртуальных фан-сообществ музыкальной направленности) // Вестник Томского государственного университета. Филология. 2016. № 3 (41). DOI: 10.17223/19986645/41/4
Резанова З.И., Романов А.С., Мещеряков Р.В. Задачи авторской атрибуции текста в аспекте гендерной принадлежности (к проблеме междисциплинарного взаимодействия лингвистики и информатики) // Вестник Томского государственного университета. 2013. № 370. С. 24-28.
Резанова З.И., Романов А.С., Мещеряков Р.В. О выборе признаков текста, релевантных в автороведческой экспертной деятельности // Вестник Томского государственного университета. Филология. 2013. № 6 (26). C. 38-52.
Степаненко А.А. Гендерная атрибуция текстов компьютерной коммуникации: статистический анализ использования местоимений // Вестник Томского государственного университета. 2017. № 415. C. 17-25. DOI: 10.17223/15617793/415/3
Алтухова Т.В. Социальная компьютерная сеть «ВКонтакте»: жанровая характеристика // Вестник Кемеровского государственного университета. 2012. № 4 (52), т. 3. С. 21-25.
Ермоленкина Л.И., Костяшина Е.А. Коммуникативно-языковые механизмы формирования этнокультурной идентичности в дискурсивном пространстве интернета // Вестник Томского государственного университета. Культурология и искусствоведение. 2013. № 3 (11). С. 5-15.
Щекотуров А.В. Конструирование виртуальной гендерной идентичности подростков на страницах социальной сети «ВКонтакте» // Женщина в российском обществе. 2012. № 4 (65). С. 31-43.
Резанова З.И. Институциональная и личностная презентация национально-культурной идентичности в интернет-коммуникации: жанровые формы и дискурсивные стратегии // Вестник Томского государственного университета. 2013. № 375. С. 33-41.
Алтухова Т.В. Электронные и рукописные жанры естественной письменной речи: сопоставительный аспект (на примере граффити и записей на электронной стене) // Вестник Кемеровского государственного университета. 2012. № 2 (50). С. 110-116.
Марковская А. С. Особенности поздравления с днем рождения в социальных сетях // Вестник Московского государственного университета. Сер. 19. Лингвистика и межкультурная коммуникация. 2013. № 4. С. 153-159.
Горошко Е.И., Полякова Т.Л. К построению типологии жанров социальных медий // Жанры речи. 2015. № 2 (12). C. 119-127.
Горошко Е.И. Современные интернет-коммуникации: структура и основные параметры // Интернет-коммуникации как новая речевая формация. М., 2012. C. 9-52.
MyStem // Яндекс. 2014-2017. URL: https://tech.yandex.ru/mystem/ (дата обращения: 1.11.2017).
Sheshasaayee A., Thailambal G. Comparison of Classification Algorithms in Text // International Journal of Pure and Applied Mathematics. 2017. Vol. 116, № 22. P. 425-433.
Singhal A., Gopalakrishnan K., Khaitan S.K. Predicting Budget from Transportation Research Grant Description: An Exploratory Analysis of Text Mining and Machine Learning Techniques // Journal of Soft Computing in Civil Engineering. 2017. № 1-2. P. 89-102.