Представлены результаты применения статистических методов и методов машинного обучения в решении задачи жанровой и гендерной автоматической атрибуции текстов с использования в качестве языковых маркеров форм личных местоимений я, ты, мы. Результаты анализа показали, что при решении задач автоматической классификации текстов по признаку гендерной принадлежности автора текста необходимо учитывать жанровую форму текста, так как в силу жанровых особенностей языковые средства выражения интенций могут влиять на частоту использования личных местоимений. Авторы заявляют об отсутствии конфликта интересов.
Pronouns as machine learning markers in genre and gender text attribution.pdf Введение Гендерные исследования, имея весьма длительную традицию развития, начиная с первой половины ХХ в., представлены практически во всех гуманитарных науках, в том числе и лингвистике. В современном языкознании исследования гендера как социокультурного феномена, соотнесенного с биологическим различием мужского и женского в человеке, представлены несколькими сложившимися направлениями. На основании соотноше- 132 Степаненко А.А., Резанова З.И. Местоимения в автоматической атрибуции текстов ния частной предметной сферы направления противопоставляются: 1) исследования гендерных различий, отраженных в структурах языков: в грамматике - наличие грамматических категорий рода, в лексике - лексическая разработанность семантики «мужского» и «женского» и под.; 2) типы гендерных стереотипов, отраженных во фразеологии, лексике языков; 3) различия речевого поведения мужчин и женщин, проявляющиеся в выборе и использовании языковых единиц разных уровней. В данной статье излагаются результаты анализа, выполненного в рамках третьего направления, в котором далее выделяются значимые для обоснования представленного подхода теоретико-методоло-гические «развилки». Охарактеризуем их. Во-первых, при исследовании речи, речевого поведения авторы сосредоточиваются либо на общей характеристике их особенностей, рассматривая явления разных уровней языковой системы как обобщенно характеризующие мужскую и женскую речь «вообще», без привязки к определенным типам коммуникации, как, например, в [1; 2; 3. С. 216, 4; 5; 6; 7. С. 11-15], либо данная противопоставленность исследуется в пределах определенных дискурсов или жанровых форм [8-14]. В настоящее время фокусировка внимания на отдельных типах дискурсивных практик как поля выявления гендерных различий видится более продуктивной. Данный подход мотивирован теоретическими взглядами на гендер как социокультурную характеристику субъекта коммуникации, которая не может не вступать во взаимодействие с другими параметрами дискурсивных практик [15]. Сам тип дискурса может оказывать влияние на проявленность гендерного своеобразия субъекта коммуникации, так как в институциональных дискурсах выбор языковых средств и их комбинация, коммуникативные стратегии и т.д. в значительной мере находятся под влиянием социально детерминированных стандартов коммуникации. В личностной, неинституциональной коммуникации, как было неоднократно отмечено, говорящий человек более непосредственно проявляет индивидуальность (см., например, широко известные в российской гендерной лингвистике положения о противопоставленности двух типов дискурсов в работах В.В. Карасика [16]), что может служить основанием для более непосредственной актуализации женской или мужской стратегий развертывания речи. В последнее время наряду с анализом устной обыденной коммуникации интенсивно развиваются исследования непосредственной личностной коммуникации на материале текстов компьютерно опосредствованного общения, рождаемых в частной переписке, в социальных сетях (СС) [17-21]. При этом и устная, и компьютерно опосредствованная личностная коммуникация имеют широкую жанровую палитру, что также проявляется и в характере использования языковых единиц, и в вариантах интеракций с многочисленными факторами дикурсообразования, в том числе гендерными. В данной статье мы обращаемся к анализу двух базовых вариантов коммуникации: устного непосредственного общения, представленного 133 Лингвистика / Linguistics комплексными жанровыми формами устных интервью и бесед, и жанров компьютерно опосредствованного общения - личной переписки и текстов стены социальных сетей. Во-вторых, исследователи при обращении к проблеме языковых маркеров гендера в речи либо стремятся выделить особенности, проявляющиеся на всех уровнях языковой системы, либо обращаются к характеристике одного или какой-либо группы признаков. Мы отмечали ранее значительное различие в подходе к выделению маркеров гендерных различий в собственно лингвистических исследованиях и исследованиях, выполненных с использованием методов автоматической обработки текстов [22]. В собственно лингвистических исследованиях обычно выделяются отдельные языковые единицы, являющие собой результат выбора из синонимических рядов (лексических, деривационных, морфолого-синтаксических), количественное преобладание которых формирует варьирование смыслового развития текста. Применительно к русскому языку, начиная с работы Е.А. Земской и ее коллег, накоплены знания о маркерах речевого поведения, противопоставляющие мужскую и женскую речь, в числе которых, как правило, выделяются степень и типы эмоционального фона коммуникации, степень конкретности представления тождественных тем, варианты личностной, коммуникативной фокусировки общения и под. Стоит отметить, что, когда лингвисты пишут о различиях в использовании языковых средств мужчинами и женщинами, речь идет о количественном преобладании, а не абсолютном отсутствии каких-либо единиц. Автоматический анализ текста позволяет выделять признаки морфологосинтаксической структуры: различия в использовании грамматических классов слов, n-граммы символов, знаки препинания, длина предложений и т.д. В работах с использованием методов автоматического анализа текстов в целеполагание авторов включается проверка степени устойчивости выявляемого языкового признака, степени статистической релевантности полученных выводов, на основе чего ставится вопрос о возможности опоры на данный выделяемый признак в решении задач автоматической гендерной классификации текстов. Актуальность этого направления гендерных исследований определяется наличием социального заказа на создание методов автоматического определения авторства текста, субъект которого намеренно скрывается, прежде всего в криминалистической практике [23, 24] (см. также обзор в [22]). Использование личных местоимений как маркеров гендерных различий, являющееся предметом нашего исследования, отмечено в качестве дифференцирующего фактора в двух охарактеризованных выше направлениях, чему способствует, с одной стороны, глубокая отрефлексированность личных местоимений как коммуникативно актуальных единиц. С другой стороны, эффективность автоматического анализа функциональных позиций местоимений в коммуникации обеспечивается тем, что они последовательно формально маркируются. Как следствие, исследователь может использовать ресурс существующих автоматических морфологических анализа-134 Степаненко А.А., Резанова З.И. Местоимения в автоматической атрибуции текстов торов (для текстов русского языка это прежде всего морфологический анализатор Mystem), не прибегая к технике предварительной первичной ручной разметки. В лингвистических исследованиях местоимений учеными было доказано, что этот класс лексических единиц служит одним из значимых средств актуализации позиции говорящего по отношению к другим коммуникантам (см. работы Pennebaker J.W. и др., Е.М. Вольф [25. Р. 563- 565; 26. С. 356112]). Было отмечено, что местоимения имеют, во-первых, собственное внеконтекстное постоянное значение и, во-вторых, контекстуальное значение, определяемое дейктической функцией. Учет типов ведущей референции местоимений, используемых говорящим в том или ином дискурсе наряду с другими словообразовательными, лексическими и синтаксическими средствами, может свидетельствовать о коммуникативных установках говорящих: об эгоцентричной или партнерской направленности. Наиболее ярким маркером выражения эгоцентризма в речи является соотношение местоимения я и его производных форм и форм местоимений ты, вы. В работах по гендерной лингвистике отмечено различие в использовании местоимений мужчинами и женщинами. Так, В.С. Verhoeven доказывает на материале мультилингвальных электронных корпусов текстов, что женщины используют местоимение я чаще, чем мужчины [27. Р. 1632- 1633]. Подобное исследование проводилось А.Н. Барановым на материале художественных текстов [28]. В проведенном нами ранее исследовании использования местоимений и маркеров экспрессивности в текстах компьютерной коммуникации сделаны выводы о взаимодействии гендерного фактора с другими социально значимыми параметрами компьютерной коммуникации - темой текста, ролевыми и социальными позициями коммуникантов в диалоге [29]. Функциональная направленность местоимений на маркирование позиций говорящего и его отношений с коммуникантами обусловливает различие актуализации разных классов местоимений в различных дискурсивных практиках. Особенно значимым видится различие в институциональных и личностных дискурсах. Так, например, в системе русскоязычной научной коммуникации обозначение я-позиции предписывается замещать мы-позицией, представлять результаты исследования в системе безличных обозначений. Личностная коммуникация, напротив, наиболее открыта и более свободна в выражении межличностных отношений, значительную роль в которых играют личные местоимения, однако значительные жанровые различия также могут обусловить вариантность в использовании местоимений в данном типе дискурса. Представленное в статье исследование выполнено на основе применения методов автоматической обработки текстов. Наша гипотеза заключался в том, что использование местоимений в текстах обыденной коммуникации может быть маркером гендерных различий, однако диагностирующая сила использования данного признака в задачах автоматической атрибуции находится в зависимости от жанровых форм. 135 Лингвистика / Linguistics Цель проведенного исследования состояла в выявлении влияния жанровых различий коммуникации на диагностирующую силу личных местоимений в задачах автоматической атрибуции текстов и наличия корреляций между жанровым и гендерным признаками в решении данной задачи. Материал и методы исследования Материалом исследования послужили тексты дискурсов, интегральной чертой которых является непосредственность, спонтанность речи, ее преимущественно личностная ориентированность, которая, как было отмечено нами ранее, имеет разные детерминации в условиях коммуникации в среде социальной сети, созданной в качестве площадки для личностного общения, и в устной непосредственной коммуникации, протекающей в условиях контактирования говорящего и слушающего, меняющего спонтанно свои ролевые позиции в диалогах. 1. Компьютерно-опосредованная коммуникация представлена текстовыми материалами СС ВКонтакте, анализировались тексты двух жанровых форм: а) тексты диалогов личной коммуникации между мужчинами и женщинами в СС ВКонтакте. Материалы были собраны в рамках учебной практики студентов ТГУ, объем материала - 114 046 слов, тексты личных сообщений 38 человек (19 мужчин, 19 женщин) в возрасте 18-20 лет; б) текстовые материалы стен СС ВКонтакте - 9 951 001 слово, тексты 287 стен СС ВКонтакте учащихся первых и вторых курсов разных факультетов ТГУ. СС ВКонтакте исследователями в жанровом аспекте интерпретируется как гипержанр, персональная страница - как наджанровое макрообразование, включающее жанры «анкета», «статус», «записи на стене», «личные сообщения», «обсуждения», «комментарии» [17. С. 24], «типичными стилевыми чертами» которых «являются эмоциональность, субъективность и имитация разговорной спонтанности при помощи экспрессивноокрашенной лексики, разговорного синтаксиса, звукового письма, эмотиконов и экспрессивной пунктуации» [17. С. 23]. В литературе в качестве новой жанровой формы, реализованной в СС «ВКонтакте», отмечается «статус», который наряду с комментарием «фиксирует коммуникативные установки пользователя» и «ориентирован не только на поддержание контакта, но и на активизацию диалога» [18. С. 6]. Авторы данных работ не анализируют местоимения в составе коммуникативно актуальных средств, но мы полагаем, что их значимость вытекает из выявленной коммуникативной характеристики - диалогичности. 2. Транскрипции текстов устной речи. Транскрибированные тексты устной речи извлечены из базы данных корпуса русской речи тюркскорусских билингвов RuTuBiC, созданного в рамках проекта «Языковое и культурное своеобразие Южной Сибири: взаимодействие языков и культур» (описание корпуса см. [30]). Текстовые материалы корпуса записи 136 Степаненко А.А., Резанова З.И. Местоимения в автоматической атрибуции текстов диалогической устной речи в жанровых формах интервью, разговора и беседы, различающихся степенью институциональной стандартизации: тематика диалога в интервью определена заранее, однако в диалогическом разведывании речи коммуниканты могут в большей или меньшей степени спонтанно изменять тематическую направленность общения и интервью может «перетекать» в разговор на не определенные заранее темы. Речевые жанры интервью, разговора и беседы объединяет наряду с политематично-стью их диалогическая природа. В собственно лингвистических (работы по русской разговорной речи [31, 32] и др.) и психолингвистических исследованиях [33] отмечаются коммуникативные, психолингвистические особенности данного типа коммуникации и, как следствие, поверхностнотекстуальные, среди которых отмечается и высокая степень частотности использования местоимений [33. C. 261-262; 34. C. 71]. В корпусе представлена русская речь билингвов, важнейшим признаком его является абсолютное функциональное доминирование русского языка, при котором родной язык находится в состоянии утраты и вытесняется в сферу домашнего и семейного общения. Все респонденты получили образование на русском языке, что дает основание использовать данный материал недифференцированно в этом аспекте по отношению к материалу текстов компьютерно опосредстовованной коммуникации. В анализ включено 138 текстов респондентов. Объем текстового массива данных составляет 617 846 слов. Анализируемые записи стен СС ВКонтакте относятся к открытым данным, записи личной коммуникации получены при условии личного согласия информантов (перед сбором диалогов в СС и записью устных интервью и бесед респонденты заполняли «Форму информационного согласия» и были проинформированы о ФЗ-152 РФ «О персональных данных». Методика анализа Для дальнейшей статистической обработки все текстовые материалы были разделены на файлы, содержащие мужские и женские реплики по 4950 Кб каждая. Массивы текстовых данных подверглись предобработке, которая включала в себя: 1) токенизацию - выделение лексических единиц в массиве символов; 2) лемматизацию - приведение всех словоформ к единой (начальной) форме при помощи программы «Mystem 3.0»; 3) перевод слов в единый (нижний) регистр; 4) удаление знаков пунктуации; 5) разделение на реплики на основании гендерной принадлежности респондента. В текстах транскриптов устной речи корпуса RuTuBiC была проведена дополнительная корректировка: удалены реплики интервьюера и техническая информация при помощи регулярных выражений; 6) формирование частотной матрицы относительных величин. В качестве нормализации абсолютных величин была использована формула условной вероятности, которая позволяет минимизировать влияние объема текстов на результаты статистического анализа и машинного обучения. 137 Лингвистика / Linguistics Все действия были реализованы в языке программирования R 4.0.5 и библиотеки quanteda. Были применены следующие частные методы - корреляционный анализ, метод обобщенных линейных моделей (GLM) критерии проверки статистических гипотез (критерий Уилкоксона, Краскела-Уоллиса), методы машинного обучения. Результаты анализа Так как мы исследовали влияние жанровых и гендерных различий коммуникации на диагностирующую силу личных местоимений в автоматической атрибуции текстов и наличие корреляций между жанровым и гендерным признаками в решении данной задачи, анализ проводился в два этапа. С применением методов статистического анализа и машинного обучения на первом этапе была проанализирована диагностическая сила местоимений в задачах классификации по жанровым формам, на втором этапе в пределах жанровых форм - по гендерной оппозиции. I. Автоматическая жанровая атрибуция текстов. На первом этапе выявлялось соотношение жанровых форм и частоты использования личных местоимений, маркирующих личностные позиции. Мы сфокусировались на противопоставлении эгоцентрической позиции (маркирование я) vs кооперативной (в двух вариантах - обращение к собеседнику vs мы-позиция (кооперации субъекта с группой). Был проведен статистический анализ использования трех местоимений в совокупности их словоизменительных форм (далее: «Группа-я»; «Группа-ты», «Группа-мы») в трех жанровых вариантах личностной коммуникации (далее: Диалоги ВК, Стены ВК, устная публичная коммуникация) без дифференциации по гендерному признаку. Сначала было проведено сравнение относительных частот использования местоимений методом векторизации BagOfWords. Относительная частота местоимений (событий) А определяется как отношение NA / N, где N - число повторений местоимений, а NA - число тех повторений, в которых осуществилось событие А (повторение местоимений в группе). В итоге значение относительных местоимений в группах приобретает значения от 0 до 1. Данный подход нормализации позволяет минимизировать влияние несбалансированности корпуса. Как можно видеть на рис. 1, наибольшее различие относительных частот местоимений наблюдается между исследуемыми жанрами компьютерно опосредствованной коммуникации и материалами записей бесед и интервью, что, на наш взгляд, определяется в значительной мере дискурсивным и жанровым своеобразием записей текстов устной коммуникации. Текстовые данные корпуса RuTuBic были получены в ходе направленных формализованных и полуформализованных интервью и бесед. Беседы и интервью имели личностную направленность, однако интервьюеры выступали в институциональной позиции. Интервьюерами были как члены лаборатории с широким возрастным диапазоном, так и студенты. Возраст-138 Степаненко А.А., Резанова З.И. Местоимения в автоматической атрибуции текстов ной, гендерный статус, уровень образования также варьировались в значительной степени. Вследствие этого местоимения группы ты замещались вежливой формой вы в большинстве случаев. (Примененные в работе способы выборки единиц на данном этапе не позволяют разграничить дискурсивные варианты значения местоимения вы - форму вежливого обращения к одному лицу - этикетный эквивалент ты и обозначение группы лиц, поэтому частотность данного местоимения в работе не подсчитывалась). Во всех жанровых формах количественно преобладают я-формы, однако в Стенах ВК и в Диалогах ВК второе место по частотности употребления занимает местоимение ты, маркирующее включение собеседника в смысловые поля диалога. Диалоги ВК Стены ВК Усти. публ. ком. Рис. 1. Диаграмма размаха относительных частот групп местоимений Диаграммы размаха показывают медиану, нижний и верхний квартили, минимальное и максимальное значение частот распределения групп местоимений и выбросы. Как видно из диаграммы, существует ряд отличий в частоте использования местоимений в большинстве групп. Местоимения «Группы-я» чаще используются в Диалогах ВК и устной коммуникации, меньше всего - текстах Стен ВК, жанровая форма которых более ориентирует на представление позиций «другого», с которым солидаризуется автор, что маркируется самим фактом расположения информации на странице. В устной публичной коммуникации преобладает «Группа-я», остальные группы местоимений используются значительно меньше, чем в других вариантах жанровых форм. В персонализированной личностной коммуникации говорящий склонен выступать от своего имени, но не от имени группы, что наиболее ярко проявлено в текстах собственно спонтанных неограниченных институциональными рамками диалогов. Мы можем объ- 139 Лингвистика / Linguistics яснить большее количество форм мы в текстах интервью и бесед устной коммуникации тематикой и условиями сбора материала, так как актуализация приобщения к групповому опыту стимулировалась вопросами интервьюеров. Относительно Диалогов ВК и Стен ВК следует отметить, что в них преобладает использование местоимений «Группы-я» и «Группы-ты». Однако было бы некорректно принимать нашу гипотезу о выявленных различиях, основываясь только на визуализации данных, так как различия могут быть случайными и не иметь статистически значимых показателей. Поэтому считаем необходимым применить статистические методы, выявляющие различия использования групп местоимений в разных жанровых формах текстов. Далее представим результаты: а) корреляционного анализа, выявляющего взаимосвязи частот группы местоимений, а также сопутствующую ему диаграмму рассеяния, которая используется для демонстрации наличия или отсутствия корреляции между переменными; б) применения статистических критериев проверки гипотез, выявляющего достоверность различий в генеральных совокупностях (в группах местоимений, жанрах, гендерной принадлежности автора); в) применения метода обобщенных линейных моделей, позволяющего учитывать взаимодействие между факторами, вид распределения зависимой переменной и предположения о характере регрессионной зависимости. Так как распределение относительных частот не соответствуют гауссовскому критерию нормальности распределения в качестве критерия оценивания корреляций были выбраны непараметрические (ранговые) статистические критерии. Для выявления корреляций был использован критерий Спирмена (количественная оценка статистического изучения связи между явлениями, используемая в непараметрических методах). В данном случае корреляционный анализ был проведен в два этапа: на первом - без дифференциации по жанрам текста (1), на втором - с учетом различий жанровой формы (2). (1) В результате проведенного корреляционного анализа установлены сильные и средние отрицательные корреляции (чем чаще используется одно местоимение, тем реже другое) во всех группах. Сильная отрицательная корреляция выявлена для частот использования местоимений «Групп-я» -«Групп-ты» (г = -0,52), «Групп-Ты» - «Групп-Мы» (г = -0,53), умеренная корреляция - для частот использования местоимений «Групп-Я» - «Г рупп-Мы» (г = -0,30). Корреляцию считали достоверной при р < 0,05. (2) Диалоги ВК: «Группа-я» - «Группа-ты», г = -0,85 (р < 0,05); «Груп-па-ты» - «Группа-мы», г = -0,26 (р > 0,05). «Группа-я» - «Группа-мы», г = -0.15. Стены ВК: «Группа-я» - «Группа-ты», г = -0,25; «Группа-я» - «Группа-мы», г = -0,42; «Группа-ты» - «Группа-мы», г = -0,62. Для всех уровень значимости р < 0,05. Устная публичная коммуникация: «Группа-я» - «Группа-ты», г = -0,25; «Группа-я» - «Группа-мы», г = -0,77; «Группа-ты» - «Группа-мы», г = -0,18. Для всех уровень значимости р < 0,05. 140 Степаненко А.А., Резанова З.И. Местоимения в автоматической атрибуции текстов Данные корреляции свидетельствуют о том, что в диалогическом общении, как правило, осуществляется фокусировка на одном из участников коммуникации, выводя его в коммуникативно сильную позицию, снижая частотность маркирования другого участника. Отрицательная корреляция статистически незначима только между группами местоимений «Я» и «Мы» в «Диалогах ВК». На рис. 2 можно видеть маркирование диалогичности исследуемых жанров - количественное преобладание местоименных форм, базовых операторов диалогического общения. Диаграмма демонстрирует попарное сравнение частоты использования групп местоимений относительно друг друга (вне зависимости от жанра текста). Чтобы отличить принадлежность текста к тому или иному жанру, точки в пространстве окрашены. Рис. 2. Диаграмма рассеивания относительных частот групп местоимений в текстах трех типах жанров Частоты группы всех типов местоимений «сливаются» в одно пространство по двум текстовым жанрам (Стены ВК и Диалоги ВК) и одновременно противопоставляются частотам местоимений в устной публичной коммуникации, которые имеют явно выраженную отрицательную линейную зависимость во всех группах местоимений. Результат визуализации корреляций позволяет предположить, во-первых, существование линейной отрицательной зависимости использования групп местоимений от типа жанра; во-вторых, ярко выраженное противопоставление жанра устной публичной коммуникации относительно двух других жанровых форм. Данную гипотезу мы подтверждаем в последующих статистических анализах. Далее нами была проверена гипотеза о принадлежности сравниваемых независимых выборок к одной и той же генеральной совокупности с помощью непараметрического Краскела - Уоллиса. Формулируем гипотезы: Но - выбранные группы не имеют значимых различий по исследуемому признаку (нулевая гипотеза); Hi - выбранные группы значимо различаются 141 Лингвистика / Linguistics по исследуемому признаку (альтернативная). Если эмпирическое значение равно или превышает теоретическое значение критерия (р < 0,05), то принимаем гипотезу Н0 и отклоняем гипотезу Hi. В результате применения теста Краскела - Уоллиса получены следующие результаты: местоимения «Группа-я»: chi-squared = 151.56, df = 2, p-value < 2.2e-16; местоимения «Группы-ты»: chi-squared = 210.97, df = 2, p-value < 2.2e-16; местоимения «Группы-мы»: chi-squared = 55.703, df = 2, p-value < 8.022e-13. Следовательно, мы опровергаем статистическую гипотезу о равенстве групп местоимений (H0) «Группы-я» и «Группы-ты» в использовании в трех исследуемых жанровых формах: разница в использовании данных групп местоимений статистически значима в отличие от местоимений «Группы-мы», значимая разница которой в использовании в текстах трех жанровых форм не подтвердилась. Результаты представлены в табл. 1. Т а б л и ц а 1 Результаты применения теста гипотезы Краскела - Уоллиса: равенство / различие дисперсий использования групп местоимений в текстов трех жанровых форм Зависимая «Группа-я» Kruskal - Wallis test: Н (2, N = 449) = 151,5601 р = 0,000 Стены ВК Диалоги ВК Устн. публ. коммуникация Стены ВК 0.000 0. 000 Диалоги ВК 0,000 1 Устн. публ. коммуникация 0,000 1 Зависимая «Группа-я» Kruskal - Wallis test: Н (2, N= 449) =151,5601 р =0,000 Стены ВК Диалоги ВК Устн. публ. коммуникация Стены ВК 0,000 0,000 Диалоги ВК 0,000 1 Устн. публ. коммуникация 0,000 1 Зависимая «Группа-ты» Kruskal - Wallis test: Н (2, N= 449) =210,9674 р = 0,000 Стены ВК Диалоги ВК Устн. публ. коммуникация Стены ВК 1 0,000 Диалоги ВК 1 0,000 Устн. публ. коммуникация 0,000 0,000 «Группа-мы» Kruskal - Wallis test: Н ( 2, N= 449) =55,70287 р = 0,0000 Стены ВК Диалоги ВК Устн. публ. коммуникация Стены ВК 0,000 0,000 Диалоги ВК 0,000 0,000 Устн. публ. коммуникация 0,000 0,000 Таким образом, проведенный статистический анализ подтверждает нашу гипотезу о том, что использование групп местоимений отличается в рассмотренных жанровых вариантах личностной коммуникации. В частности, в «Группе-мы» зафиксированы статистически значимые отличия частотности 142 Степаненко А.А., Резанова З.И. Местоимения в автоматической атрибуции текстов их использования во всех вариантах соотношений жанров; в «Группе-ты» выявлены статистические различия частотности их использования во всех типах соотношений жанровых форм, кроме оппозиции «Диалоги ВК - Стены ВК»; в «Группе-я» не выявлены значимые различия в частотности в соотношении жанровых форм Диалогов ВК и устной публичной коммуникации. На основе данных подтверждается гипотеза о том, что использование групп местоимений отличается во всех трех типах жанровых форм. Линейная зависимость в относительной частотности использования местоимений в исследуемых трех типах жанровых форм также была подтверждена с помощью метода обобщенных линейных моделей (GLM). Результаты анализа представлены на рис. 3. Рис. 3. Обобщенные линейные модели относительной частотности использования местоимений Обобщенная линейная модель связывает зависимую переменную с факторами и ковариатами посредством задаваемой функции, что позволяет определить динамику использования групп местоимений в трех типах жанровых форм. В результате анализа была выявлена отрицательная линейная зависимость относительных частот всех групп местоимений (р < 0,05). Так, например, если в Стенах ВК используются чаще местоимения «Группы-я», то, соответственно, меньше используются местоимения «Группы-ты». Результаты этого анализа подтверждают данные, представленные в диаграмме рассеивания частот использования групп местоимений. На графиках также визуализируется: 1) общее преобладание частот местоимений «я» во всех типах жанровых форм; 2) значительно меньший разброс частотностей в использовании групп местоимений в Диалогах ВК 143 Лингвистика / Linguistics (от 0,18 до 0,4) и наибольшая - в Стенах ВК (от 0,06 до 0, 62); 3) представленные в анализе диалогические жанры устной публичной коммуникации и Стены ВК, сближаясь по уровню разброса частотности местоимений, противопоставлены по соотношению частотностей групп «ты» и «мы» с другими группами местоимений; 4) проанализированные жанровые формы устной публичной коммуникации противопоставлены жанровым формам интернет-коммуникации по степени различий. Далее была проверена эффективность использования местоимений я, мы, ты в решении задач автоматической атрибуции рассмотренных типов текстов по жанровому признаку с использованием методов машинного обучения. Все тексты были разбиты на обучающую и тестовую выборки в пропорции 70 к 30%. Точность классификации основывается на формуле F1 (F-мера), которая позволяет нивелировать разброс классов (объем корпуса). Результаты анализа эффективности использования групп местоимений в задачах автоматической атрибуции с использованием семи алгоритмов представлены в табл. 2. Мы включили в таблицу среднюю точность работы классификаторов для последующей оценки влияния типа текстов на точность работы автоматического классификатора. Т а б л и ц а 2 Формальная точность классификации текстов методами машинного обучения (три жанровые формы текстов) Модель машинного обучения F1 Линейный дискриминантный анализ 0,92 Случайный лес 0,60 Метод опорных векторов 0,74 Деревья решений 0,91 Наивный байесовский классификатор 0,70 Логистическая регрессия 0,77 NN LSTM 0,98 Средняя точность 0,98 По данным таблицы, самым точным алгоритмом классификации текстов коммуникации на основе трех групп местоимений являются нейронные сети (NN LSTM). Исходя из предыдущего анализа, который показал, что Стены ВК и Диалоги ВК сильно коррелируют между собой, мы объединили тексты этих типов жанровых форм и провели обучение модели с бинарной классификацией: Стена ВК и Диалоги ВКонтакте vs устная публичная коммуникация. Результаты анализа представлены в табл. 3. Как видно из разных вариантов классификаций, представленных в табл. 2, 3, наилучший результат показывает бинарная классификация (LSTM). При этом средняя точность бинарной классификации методами машинного обучения увеличилась на 0.01, что подтверждает гипотезу о равенстве частотности использования местоимений в Диалогах ВК и в 144 Степаненко А.А., Резанова З.И. Местоимения в автоматической атрибуции текстов Стенах ВК. Рекуррентные нейронные сети и в данном случае показывают большую точность. Т а б л и ц а 3 Формальная точность классификации текстов методами машинного обучения (две жанровые формы текстов) Модель машинного обучения F1 Линейный дискриминантный анализ 0,80 Случайный лес 0,92 Метод опорных векторов 0,74 Деревья решений 0,84 Наивный 0,88 Логистическая регрессия 0,90 NN LSTM 0,99 Средняя точность 0,99 Таким образом, статистическими методами была доказана зависимость использования групп местоимений от жанровой формы текста. Применение методов машинного обучения, проверка результативности моделей с использованием формальных метрик подтвердила значительную степень близости в использовании местоимений в текстах исследуемых жанровых форм (Стены ВК и Диалоги ВК), то, что интернет-коммуникация в этом аспекте противопоставлена жанровым формам устной публичной коммуникации. II. Автоматическая гендерная атрибуция текстов. Далее был проведен анализ маркирования гендерных различий в исследуемых типах текстов в той же последовательности, которая была применена для анализа жанровой дифференциации. Результаты сравнения относительных частот использования местоимений мужчинами и женщинами в исследуемых текстах представлены на рис. 4 (группы субъектов коммуникации маркированы по гендерному признаку: ж. - женщины и м. - мужчины). Как можно видеть на графиках, практически отсутствуют значительные различия в относительной частотности использования местоимений всех трех групп в исследуемых типах жанровых форм мужчинами и женщинами. Однако все же прослеживаются слабо проявленные различия в частоте их использования в Стенах ВК: женщины чаще используют местоимения групп «Я» и «Ты», однако меньше используют местоимений «Группы-Мы»; в «Диалогах ВК» женщины чаще используют местоимения «Группы-Я», а мужчины, наоборот, чаще используют местоимения «Группы-Ты», и, судя по медиане, местоимения «Группы-Мы». В устной публичной коммуникации гендерно обусловленные различия в использовании местоимений исследуемых групп не отмечены. Зафиксировав степень отличий в использовании групп местоимений в текстах трех жанровых форм, написанных мужчинами и женщинами, проведем корреляционный анализ, вычленив фрагменты текстов по гендерному признаку их авторов и установив характер попарных корреляций групп местоимений. 145 Лингвистика / Linguistics Рис. 4. Диаграмма размаха относительной частоты использования групп местоимений мужчинами и женщинами в текстах трех жанровых форм 1. В мужских фрагментах: «Группа-я» - «Группа ты», г = -0,47; «Груп-па-я» - «Группа-мы», г = -0,43; «Группа-ты» - «Группа-мы», г = -0,48. Для всех уровень выделенных групп установлена значимость р < 0,05. 2. В женских фрагментах: «Группа-я» - «Группа-ты», г = -0,61; «Группа-я» - «Группа-мы», г = -0,11 (отсутствует статистическая значимость); «Группа-ты» - «Группа-мы», г = -0,58. Для всех уровень значимости р < 0,05. Исходя из полученных значений корреляций можно предположить, что, во-первых, преобладает средний уровень корреляционной зависимости; во-вторых, сохраняется отрицательная динамика использования частот местоимений в мужских и женских фрагментах текста, т.е. увеличение частоты одной группы местоимений коррелирует с уменьшением частоты другой. Если сопоставить с предыдущим анализом о выявлении корреляций групп местоимений с учетом жанра, то можно предположить, что отрицательная динамика частоты групп местоимений будет зависеть не от гендерной принадлежности участника коммуникации, а от жанровой принадлежности текста, соотносимой со своеобразием коммуникативных стратегий и интенций коммуникантов, тем коммуникации. Однако есть различия в характере корреляционных связей в мужских и женских фрагментах в целом: в мужских фрагмента установлен близкий уровень корреляций (степень различии не превышает 0,05) , в женских наблюдаются различия: между «Группой-я» и «Группой-мы» отсутствует статистически значима корреляция, в то время как между «Группой-я» и «Группой-ты» установлен наиболее высокий уровень отрицательной корреляции (-0,61). Представим распределение частот местоимений во всех типах текстов, визуализировав двумя цветами частоты местоимений во фрагментах, написанных мужчинами (красный) и женщинами (синий) на рис. 5. 146 Степаненко А.А., Резанова З.И. Местоимения в автоматической атрибуции текстов Рис. 5. Диаграмма рассеивания относительной частоты групп местоимений в мужских и женских фрагментах трех типов жанровых форм Частоты всех типов местоимений в текстовых фрагментах, написанных мужчинами и женщинами, «сливаются» в одно пространство в текстах Стен ВК и Диалогов ВК) и одновременно противопоставляются устной публичной коммуникации. Частоты всех типов местоимений имеют отрицательную линейную зависимость от типа гендерной и жанровой принадлежности текста. Гендерная диверсификация не прослеживается: частоты расположены одном пространстве, нет условного визуального разграничения относительно гендерной принадлежности автора текста. Все текстовые фрагменты, авторами которых являются мужчины и женщины, расположены относительно друг друга в одном гиперпространстве, без визуальных отличий. Однако отмечаются незначительные отличия дисперсий во фрагментах текстов Стен ВК, написанных мужчинами и женщинами (в Стенах ВК прослеживаются различия в плотности распределения относительных частот). Это наблюдение подтверждается сравнением независимых выборок одной и той же генеральной совокупности с помощью непараметрического U-критерия Манна - Уитни (чем меньше значение критерия, тем вероятнее, что различия между значениями параметра в выборках достоверны). В качестве вывода выносим альтернативные гипотезы: а) Но - выбранные группы не имеют значимых разл
Земская Е.А., Китайгородская М.А., Розанова Н.Н. Особенности мужской и женской речи // Русский язык и его функционирование. М., 1993. С. 90-136.
Земская Е.А., Китайгородская М.А., Розанова Н.Н. О чем и как говорят женщины и мужчины // Русская речь. 1989. № 1. С. 2-46. URL: https://russkayarech.ru/ru/archive/1989-1/42-46
Колесов В.В. Язык и ментальность. СПб., 2004. 237 c.
Попова Е.А. Об особенностях речи мужчин и женщин // Русская речь. 2007. № 3. С. 40-49. URL: https://russkayarech.ru/ru/archive/2007-3/40-49
Новикова И.Н., Хамидулина Л.Ю. К вопросу об особенностях мужской и женской речи // Наука и современность - 2013. Филологические науки. Новосибирск, 2013. С. 78-83.
Беляева А.Ю. Особенности речевого поведения мужчин и женщин : На материале русской разговорной речи : автореф. дис.. канд. филол. наук. Саратов, 2002. 19 с.
Стернин И.А. Общение с разными типами собеседников. Воронеж : Истоки, 2012. 42 с.
Mukherjee A., Liu B. Improving Gender Classication of Blog Authors // Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, 2010. Р. 32-38.
Yan X., Yan L. Gender Classification of Weblog Authors // Computational Approaches to Analyzing Weblogs. AAAI, 2006. Р. 18-26.
Shlomo A. Gender, Genre, and Writing Style in Formal Written Texts // Shlomo Argamon, Moshe Koppel, Jonathan Fine, Anat Rachel Shimoni Springer, Sex Roles. 2010 Jun. № 62 (11-12). Р. 705-720.
Marcelo Luiz. Brocardo Authorship Verification for Short Messages using Stylometry, 2014. URL: https://www.deepdyve.com/lp/institute-ofelectrical-and-electronicsengineers/authorship-verification-for-short-messages-using-stylometry-JM5XWbkHyN (дата обращения: 07.07.2016).
Arroju M. Age, Gender and Personality Recognition using Tweets in a Multilingual Setting // 6th Conference and Labs of the Evaluation Forum (CLEF 2015): Experimental IR meets multilinguality, multimodality, and interaction. 2015. Р. 23-31.
Васильева А.В. Коммуникативно-прагматические аспекты проявления экспрессивности в мужских и женских коротких электронных сообщениях // Вестник науки Сибири. 2014. № 4 (14). C. 190-195.
Горошко Е. Особенности мужского и женского стиля письма // Преображение. Русский феминистский альманах. М., 1998. № 6. С. 48-64.
Кирилина А.В. Гендер: лингвистические аспекты. М. : Ин-т социологии РАН, 1999. 189 с.
Карасик В.В., Карасик В.И. О типах дискурса // Языковая личность: институциональный и персональный дискурс. Волгограда, 2000. С.5-20.
Алтухова Т.В. Социальная компьютерная сеть «ВКонтакте»: жанровая характеристика // Вестник Кемеровского государственного университета. 2012. № 4 (52). Т. 3: Филология. С. 21-25.
Марченко Н.Г. Социальная сеть «ВКонтакте»: лингвопрагматический аспект : автореф.. канд. филол. наук. Ростов н/Д, 2013. 21 с.
Кобрин Н.В. Твиттинг - новый социокоммуникативный жанр интернеткоммуникации // Филологические науки. Вопросы теории и практики. 2016. № 9 (63) : в 3 ч. Ч. 3. C. 109-111.
Ковальчукова М.А. Новостной анонс в сети Интернет как речевой жанр дискурса СМИ : автореф. дис.. канд. филол. наук. Ижевск, 2009. 24 с.
Кириллов А.Г. Трансформация жанра блога в программах обмена мгновенными сообщениями // Жанры речи. 2017. № 2 (16). С. 260-267.
Резанова З.И., Романов А.С., Мещеряков Р.В. Задачи авторской атрибуции текста в аспекте гендерной принадлежности (к проблеме междисциплинарного взаимодействия лингвистики и информатики) // Вестник Томского государственного университета. 2013. № 370. С. 24-28.
Дроздова Т.Н. Диагностические и классификационные задачи в автороведческой экспертизе блогов // Актуальные проблемы российского права. 2010. № 2 (15). С. 394-404.
Романов А. С. Методика и программный комплекс для идентификации автора неизвестного текста : автореф. дис.. канд. техн. наук. Томск, 2010. 27 с.
Pennebaker J.W., MR Mehl, Niederhoffer K.G. Psychological aspects of natural language use: Our words, our selves // Annual review of psychology. 2003. Р. 548-571.
Вольф Е.М. Грамматика и семантика местоимений. М. : Наука, 1974. 223 с.
Verhoeven B.X. TWISTY: A Multilingual Twitter Stylometry Corpus for Gender and Personality Profiling // Ben Verhoeven, Walter Daelemans and Barbara Plank CLiPS Research Center, University of Antwerp, Belgium University of Groningen, The Netherlands, 2015. Р. 1632-1637.
Баранов А.Н. Введение в прикладную лингвистику. М. : Эдиториал УРСС, 2001. 347 с.
Степаненко А.А. Гендерная атрибуция текстов компьютерной коммуникации: статистический анализ использования местоимений // Вестник Томского государственного университета. 2017. № 415. С. 17-25. doi: 10.17223/15617793/415/3
Резанова З.И. Подкорпус устной речи русско-тюркских билингвов Южной Сибири: типологически релевантные признаки // Вопросы лексикографии. 2017. № 11. C. 105-118. doi: 10.17223/22274200/11/7
Земская Е.А., Китайгородская М.В., Ширяев Е.Н. Русская разговорная речь: Общие вопросы. Словообразование. Синтаксис. М. : Наука, 1981.
Русская разговорная речь: Фонетика. Морфология. Лексика. Жест / отв. ред. Е.А. Земская. М. : Наука, 1983.
Лурия А.Р. Язык и сознание. Ростов н/Д, 1998. 416 с.
Резанова З.И., Мишанкина Н.А. Семиотический синтез в коммуникативном пространстве интернет-текстов (на материале чат-коммуникации) // Сибирский филологический журнал. 2006. № 1-2. С. 70-74.
Степаненко А.А., Резанова З.И. Экспрессивность как маркер гендерных различий компьютерной коммуникации (к проблеме автоматической гендерной атрибуции текста) // Вестник Томского государственного университета. 2018. № 433. С. 38-46. doi: 10.17223/15617793/433/5