Pronouns as machine learning markers in genre and gender text attribution | Vestnik Tomskogo gosudarstvennogo universiteta. Filologiya – Tomsk State University Journal of Philology. 2022. № 79. DOI: 10.17223/19986645/79/7

Pronouns as machine learning markers in genre and gender text attribution

This article focuses on the statistical and machine learning approaches in sloving the tasks of automatic genre and gender text attribution using the forms of personal pronounsya [I], ty [you], my [we] as language markers. The research material was texts of discourses with a specific feature: spontaneous informal speech. Computer-mediated communication was represented by texts of several genres of the social network VKontakte: (a) personal written dialogues between men and women from VKontakte. The full text size was 114 046 words. The number of dialogue participants was 38 people (19 men, 19 women) aged 18 to 20; (b) 287 walls of the social network VKontakte with 9 951 001 words. All the participants were students of Tomsk State University. Transcriptions of oral texts were extracted from the RuTu-BiC database of the Russian speech corpus of Turkic-Russian bilinguals. The number of respondents was 138 people. The texts consist of 617 846 words. During the investigation, the authors used such methods as correlation analysis, the method of generalized linear models (GLM), criteria for testing statistical hypotheses (Wilcoxon, Kruskal-Wallis test), and machine learning. The analysis was implemented in the programming language R 4.0.5 using the quanteda library. The analysis was carried out in two stages: (1) the diagnostic power of the pronouns in the tasks of classification by genre forms; (2) gender opposition within genre forms of the texts. The authors proved the dependence of using groups of pronouns on the genre form of the text. The machine learning methods showed effectiveness of models using formal metrics and confirmed a significant degree of similarity in the use of pronouns in the texts of the VKontakte wall and VKontakte dialogues. These two types of communication are opposed to the genre forms of oral public communication. The studied groups of pronouns are better used for the classification of the genre of the text than for gender attribution. Gender differentiation is confirmed only in the texts of the VKontakte wall genre. The result of the “full dataset” is a classification within two genres (VKontakte dialogues combined with VKontakte Walls) and oral public communication. There is an actual significant increase in the accuracy of the classifier, which indicates the similarity of these two genres and their opposition to oral public communication in the binary classification. The results of the analysis show problems of automatic text classification based on the gender of the text’s author. It is necessary to pay attention to the genre form of the text. Such differences can be explained by genre features. Linguistic means of expressing intentions can affect the frequency of personal pronouns in the texts. The authors declare no conflicts of interests.

Download file
Counter downloads: 27

Keywords

automatic text attribution, personal pronouns, gender, genre, oral dialogue speech, interview genre, VKontakte social network, VKontakte walls, VKontakte dialogues

Authors

NameOrganizationE-mail
Stepanenko Andrei A.Tomsk State Universitystepanenkone@mail.ru
Rezanova Zoya I.Tomsk State Universityrezanovazi@mail.ru
Всего: 2

References

Земская Е.А., Китайгородская М.А., Розанова Н.Н. Особенности мужской и женской речи // Русский язык и его функционирование. М., 1993. С. 90-136.
Земская Е.А., Китайгородская М.А., Розанова Н.Н. О чем и как говорят женщины и мужчины // Русская речь. 1989. № 1. С. 2-46. URL: https://russkayarech.ru/ru/archive/1989-1/42-46
Колесов В.В. Язык и ментальность. СПб., 2004. 237 c.
Попова Е.А. Об особенностях речи мужчин и женщин // Русская речь. 2007. № 3. С. 40-49. URL: https://russkayarech.ru/ru/archive/2007-3/40-49
Новикова И.Н., Хамидулина Л.Ю. К вопросу об особенностях мужской и женской речи // Наука и современность - 2013. Филологические науки. Новосибирск, 2013. С. 78-83.
Беляева А.Ю. Особенности речевого поведения мужчин и женщин : На материале русской разговорной речи : автореф. дис.. канд. филол. наук. Саратов, 2002. 19 с.
Стернин И.А. Общение с разными типами собеседников. Воронеж : Истоки, 2012. 42 с.
Mukherjee A., Liu B. Improving Gender Classication of Blog Authors // Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, 2010. Р. 32-38.
Yan X., Yan L. Gender Classification of Weblog Authors // Computational Approaches to Analyzing Weblogs. AAAI, 2006. Р. 18-26.
Shlomo A. Gender, Genre, and Writing Style in Formal Written Texts // Shlomo Argamon, Moshe Koppel, Jonathan Fine, Anat Rachel Shimoni Springer, Sex Roles. 2010 Jun. № 62 (11-12). Р. 705-720.
Marcelo Luiz. Brocardo Authorship Verification for Short Messages using Stylometry, 2014. URL: https://www.deepdyve.com/lp/institute-ofelectrical-and-electronicsengineers/authorship-verification-for-short-messages-using-stylometry-JM5XWbkHyN (дата обращения: 07.07.2016).
Arroju M. Age, Gender and Personality Recognition using Tweets in a Multilingual Setting // 6th Conference and Labs of the Evaluation Forum (CLEF 2015): Experimental IR meets multilinguality, multimodality, and interaction. 2015. Р. 23-31.
Васильева А.В. Коммуникативно-прагматические аспекты проявления экспрессивности в мужских и женских коротких электронных сообщениях // Вестник науки Сибири. 2014. № 4 (14). C. 190-195.
Горошко Е. Особенности мужского и женского стиля письма // Преображение. Русский феминистский альманах. М., 1998. № 6. С. 48-64.
Кирилина А.В. Гендер: лингвистические аспекты. М. : Ин-т социологии РАН, 1999. 189 с.
Карасик В.В., Карасик В.И. О типах дискурса // Языковая личность: институциональный и персональный дискурс. Волгограда, 2000. С.5-20.
Алтухова Т.В. Социальная компьютерная сеть «ВКонтакте»: жанровая характеристика // Вестник Кемеровского государственного университета. 2012. № 4 (52). Т. 3: Филология. С. 21-25.
Марченко Н.Г. Социальная сеть «ВКонтакте»: лингвопрагматический аспект : автореф.. канд. филол. наук. Ростов н/Д, 2013. 21 с.
Кобрин Н.В. Твиттинг - новый социокоммуникативный жанр интернеткоммуникации // Филологические науки. Вопросы теории и практики. 2016. № 9 (63) : в 3 ч. Ч. 3. C. 109-111.
Ковальчукова М.А. Новостной анонс в сети Интернет как речевой жанр дискурса СМИ : автореф. дис.. канд. филол. наук. Ижевск, 2009. 24 с.
Кириллов А.Г. Трансформация жанра блога в программах обмена мгновенными сообщениями // Жанры речи. 2017. № 2 (16). С. 260-267.
Резанова З.И., Романов А.С., Мещеряков Р.В. Задачи авторской атрибуции текста в аспекте гендерной принадлежности (к проблеме междисциплинарного взаимодействия лингвистики и информатики) // Вестник Томского государственного университета. 2013. № 370. С. 24-28.
Дроздова Т.Н. Диагностические и классификационные задачи в автороведческой экспертизе блогов // Актуальные проблемы российского права. 2010. № 2 (15). С. 394-404.
Романов А. С. Методика и программный комплекс для идентификации автора неизвестного текста : автореф. дис.. канд. техн. наук. Томск, 2010. 27 с.
Pennebaker J.W., MR Mehl, Niederhoffer K.G. Psychological aspects of natural language use: Our words, our selves // Annual review of psychology. 2003. Р. 548-571.
Вольф Е.М. Грамматика и семантика местоимений. М. : Наука, 1974. 223 с.
Verhoeven B.X. TWISTY: A Multilingual Twitter Stylometry Corpus for Gender and Personality Profiling // Ben Verhoeven, Walter Daelemans and Barbara Plank CLiPS Research Center, University of Antwerp, Belgium University of Groningen, The Netherlands, 2015. Р. 1632-1637.
Баранов А.Н. Введение в прикладную лингвистику. М. : Эдиториал УРСС, 2001. 347 с.
Степаненко А.А. Гендерная атрибуция текстов компьютерной коммуникации: статистический анализ использования местоимений // Вестник Томского государственного университета. 2017. № 415. С. 17-25. doi: 10.17223/15617793/415/3
Резанова З.И. Подкорпус устной речи русско-тюркских билингвов Южной Сибири: типологически релевантные признаки // Вопросы лексикографии. 2017. № 11. C. 105-118. doi: 10.17223/22274200/11/7
Земская Е.А., Китайгородская М.В., Ширяев Е.Н. Русская разговорная речь: Общие вопросы. Словообразование. Синтаксис. М. : Наука, 1981.
Русская разговорная речь: Фонетика. Морфология. Лексика. Жест / отв. ред. Е.А. Земская. М. : Наука, 1983.
Лурия А.Р. Язык и сознание. Ростов н/Д, 1998. 416 с.
Резанова З.И., Мишанкина Н.А. Семиотический синтез в коммуникативном пространстве интернет-текстов (на материале чат-коммуникации) // Сибирский филологический журнал. 2006. № 1-2. С. 70-74.
Степаненко А.А., Резанова З.И. Экспрессивность как маркер гендерных различий компьютерной коммуникации (к проблеме автоматической гендерной атрибуции текста) // Вестник Томского государственного университета. 2018. № 433. С. 38-46. doi: 10.17223/15617793/433/5
 Pronouns as machine learning markers in genre and gender text attribution | Vestnik Tomskogo gosudarstvennogo universiteta. Filologiya – Tomsk State University Journal of Philology. 2022. № 79. DOI: 10.17223/19986645/79/7

Pronouns as machine learning markers in genre and gender text attribution | Vestnik Tomskogo gosudarstvennogo universiteta. Filologiya – Tomsk State University Journal of Philology. 2022. № 79. DOI: 10.17223/19986645/79/7

Download full-text version
Counter downloads: 416