Гендерная атрибуция текстов компьютерной коммуникации: статистический анализ использования местоимений | Вестник Томского государственного университета. 2017. № 415. DOI: 10.17223/15617793/415/3

Гендерная атрибуция текстов компьютерной коммуникации: статистический анализ использования местоимений

Представлены результаты применения методов количественного контент-анализа текстов интернет-коммуникации с целью установления гендерных маркеров методами компьютерной лингвистики. Приводятся результаты статистического анализа различий использования местоимений мужчинами и женщинами в компьютерной коммуникации, осуществляется поиск существующих закономерностей их использования в тексте при помощи кластерного анализа. Доказано наличие статистически значимых различий в использовании местоимений Я-группы в текстах мужчин и женщин.

Gender attribution in social network communication: the statistical analysis of pronouns frequency.pdf Атрибуция художественного текста - одно из наиболее интенсивно развивающихся направлений в лингвистике, которое сформировалось 40 лет назад и использует методы различных областей науки: лингвистики, логики и математики. Одним из результативных методов атрибуции текста является формально-количественный метод. К числу недавних исследований, в которых применялся данный метод, относится анализ известных классических произведений: «Гарри Поттер» Дж. Роуллинг, «Убить пересмешника» Харпер Ли. Анализ текстов серии произведений Дж. Роуллинг «Гарри Поттер» с использованием контент-анализа позволил автору на основе фиксации количественных показателей употребления языковых единиц подтвердить единое авторство всех произведений [1. C. 25]. Е. Гамерман, изучив на основе контент-анализа частот местоимений и предлогов роман Ли Харпер «Убить пересмешника», приходит к заключению, что произведение, возможно, изменялось и корректировалось редактором. В ходе анализа текста исследователь использовал специализированный пакет stylo в языке программирования R, который позволил визуализировать данные в виде деривационного анализа исследуемых единиц [2. C. 185-186]. Обычно стилеметрические исследования включают несколько этапов: (I) сложная многоуровневая первичная обработка текста, (II) выявление признаков, релевантных для определения авторского инварианта, (III) статистический анализ использования релевантных языковых единиц в тексте, (IV) интерпретация и представление результатов. Современная лингвистика владеет широким кругом методов стилеметрических исследований текстов, при этом главной проблемой выбора методов анализа и проведения стилеметрического исследования является определение начальных критериев и признаков, по которым будет проводиться количественный анализ. На данный момент уже выявлен ряд лексических и синтаксических критериев для анализа идиостиля, появляются новые и модифицируются старые критерии атрибуции текста (см., например, об этом [3. С. 31; 4. С. 42], а также [5. С. 279; 6. C. 20; 7. C. 86; 8. C. 246]). Как показывает анализ практики применения различных методов атрибуции текста, при их реализации исследователи в качестве маркеров опираются на определение частотности использования единиц синтаксического, лексико-фразеологического, стилистического уровней, значимыми признаются также признаки пунктуационного, орфографического аспектов текста. Использование в качестве маркеров единиц синтаксического и лексического уровней наиболее распространено в практике стилеметрического анализа и дает более точные результаты. Однако следует подчеркнуть, что исследователи, как правило, работают сразу с группой признаков для доказательства или опровержения какой-либо гипотезы относительно авторства текста. Вторая проблема, с которой сталкиваются исследователи, это выбор конкретных методик. В зависимости от поставленной гипотезы исследователи применяют несколько методов в атрибуции текста, конкретных статистических методик, что позволяет добиться более точного результата. Так, например, при исследовании частот лексических единиц следует учитывать их распределение, которое может быть параметрическим и непераметрическим. На рис. 1 приведены методы проверки статистических гипотез, применяемых в современных стилеметрических исследованиях. В качестве примера реализации данных методов можно привести программу «СМАЛТ», которая основывается на таких статистических методах, как критерии Колмогорова-Смирнова, Стьюдента и кластерный анализ, используемых при анализе особенностей синтаксических структур текста с использованием деревьев зависимостей и типов связей, деревьев зависимостей и мер сложности [9. С. 155-159]. Более точные результаты дает комбинация статистических методов и метода нейронных сетей. Примером таких исследований являются работы, выполненные с использованием программы В. В. Поддубного и А.А. Поликарпова «Лингвоанализатор», интегрирующей применение в анализе текста марковские цепи, нейронные сети прямого распространения, деревья решений, меры расстояния, например [10. С. 55-56]. В исследованиях, выполненных под руководством Л. В. Милова, атрибуция текстов проводится при помощи построения графов «сильных связей» по матрице частот парной встречаемости грамматических классов слов и осуществляется при помощи специальной компьютерной программы [11. C. 356]. Методы проверки статистических гипотез Параметрические: t-критерий Стьюдента. t-тест Уэлча. хи-квадрат Пирсона. Критерий Колмогорова-Смирнова. W-критерий Шапиро-Уилка Непараметрические: Для независимых выборок: U-критерий Манна-Уитни. Критерий серий Уалда-Вольфовица. Двухвыборочный критерий Колмогорова- Смирнова. Для нескольких независимых групп: Ранговый дисперсионный анализ Краскела- Уоллиса. Медианный тест. Между зависимыми выборками: Критерий Вилкоксона парных сравнений. Критерий знаков. Между несколькими независимымыми выборками: Ранговый дисперсионный анализ Фридмана. Q-критерий Кохрена Рис. 1. Методы проверки статистических гипотез Третья проблема, с которой сталкиваются ученые, - ограничения при отборе материала исследования: это требование к характеру текста (необходимое качество - однородность текстов) и к их объему (исключаются тексты небольшого объема). Стилеметрия как направление научных исследований формировалась и апробировала свои методы на материале художественных произведений, что во многом было мотивировано доступностью объемных текстов однотипной функциональной структуры. Это, в свою очередь, обусловлено тем, что процесс установления авторства формально-количественными методами при исследовании малого объема текста может показывать некорректный результат или вызвать ошибку. Особенно это касается подсчета биграмм символов. Согласно B.П. Фоменко, минимальный объем исследуемых текстов должен составлять не менее 8 000 символов [12. C. 769]. Д.В. Хмелев, использовавший энтропийный метод классификации (с помощью сжатия), основанный на цепях Маркова первого порядка, приходит к заключению, что данный метод показывает хорошие результаты на файлах большого объема и плохие, по сравнению с другими методами, в текстах длиной в 2 000-5 000 символов [13]. Однако следует отметить и программы, которые успешно работают на малом объеме выборки (500 слов), к числу которых относится «СМАЛТ» [9. С. 155-160]. В настоящее время методы, выработанные при анализе художественных произведений, переносятся на анализ текстов других функциональных типов. К числу приоритетных задач, решаемых в этом направлении, следует отнести установление авторства текстов компьютерной коммуникации, что мотивировано как мощным развитием в настоящее время этого средства коммуникации, опосредствующей все виды социальных практик современного человека, так и большими возможностями фальсификации авторства таких текстов по сравнению с другими типами коммуникации [14. С. 727-728]. В работах, посвященных атрибуции компьютерно созданных текстов, исследуются способы обнаружения как индивидуального автора (Т.А. Литвинова, О С. Поршнева, Х. Хьетсо) [15. C. 196-197; 16. C. 3839; 17. C. 182-188], так и модели типовых авторов, выделенных по каким-либо социально значимым параметрам (Т.Н. Дроздова, А.С. Романов) [18. C. 400401; 19. C. 26]. В ряду последних следует отметить и работы, в которых моделируются типовые авторы, противопоставленные по тендерному признаку. Большинство исследований компьютерной коммуникации, посвященных гендерной принадлежности автора текста, опираются на методологию атрибуции художественного текста, ограничивая параметры сравнения единицами синтаксического уровня [20. C. 27-28; 21. C. 33-35; 22. C. 23-26]. Подобную проблему решали лингвисты в сравнении выборок художественных и научных текстов. К таким исследованиям можно отнести работу Ш. Аргомона (Sh. Argamon) и М. Коппела (M. Koppel). Авторы, обратившись к материалам Британского национального корпуса, включающего в себя большой выбор жанров и используя метод нейронных сетей, установили различия между мужской и женской письменной речью. Ученые выявили классы лексических и синтаксических особенностей, отличающиеся в коммуникации мужчин и женщин и идентифицирующиеся в научных и художественных текстах. В частности, отмечаются существенные различия в использовании местоимений и некоторых существительных в мужских и женских текстах: женщины используют больше местоимений, а мужчины - больше специфичных существительных [23. C. 715-720]. Однако авторы подчеркивают, что применение тех же методов в исследованиях художественных текстов, направленных на поиск индивидуального стиля автора, дает более точные результаты, повышая вероятность принятия гипотезы до 98%, нежели при анализе текстов компьютерной коммуникации. Авторы делают вывод, что методы, применяемые в атрибуции компьютерной коммуникации, направленные на установление общих характеристик определенной группы авторов мужского или женского пола, имеют более высокую погрешность, нежели применяемые при определении индивидуальных особенностей стиля автора художественного текста. Данная, ещё не решённая проблема ставит под сомнение корректность «прямого» переноса методов стилемет-рии при атрибуции художественного текста на идентификацию гендерных субъектов компьютерной коммуникации и требует изменений в применении формально-количественных методов. При этом авторами по отношению к материалам данного, весьма специфического типа коммуникации также решаются и другие отмеченные выше проблемы применения сти-леметрических методов: проблема выбора единиц анализа, проблема ограничений объема текста и его однородности [24. C. 25-26]. М. Брокардо (M. Brocardo) предложил решение проблемы ограниченных исходных данных при установлении гендерной принадлежности автора текста в компьютерной коммуникации (общение в «Твиттере») на основе подсчета n-грамм (2-грамм, 3-грамм, 4-грамм, 5-грамм) символов и с использованием метода нейронных сетей [25]. Исследование отличается тем, что анализируемые сообщения не превышают 500 лексических единиц. Задачей исследователя является поиск наиболее точного определения автора, на основе разработанного алгоритма вероятных ошибок, возникающих в условиях малой выборки при поиске биграмм. Определяются три группы вероятных ошибок, позволяющих оптимизировать процесс установления гендера автора в компьютерной коммуникации: 1. False Acceptance Rate (FAR) - мера, в которой система неверно определяет истинного автора текста. 2. False Rejection Rate (FRR) - мера, где алгоритм не распознает автора сообщения. 3. Equal Error Rate (ERR) - точка, в которой FAR и FRR принимает равное значение и увеличивает точность определения автора анализируемого текста. Исследователь приходит к заключению, что любой частотный анализ n-грамм вызывает появление одной из вышеуказанных ошибок, но наиболее точными, в условиях ограниченной выборки, являются 5-граммы, где FRR = 14,71%, FAR = 13,93%. В своей работе мы учитываем преимущества и недостатки вышеуказанных исследований и применяем формально-количественные методы поиска авторского инварианта, разработанные и используемые М. Аррой (M. Arroju) [26. C. 23-31] в анализе текстов компьютерной коммуникации. Нашей основной задачей является выявление групповых гендерных различий авторского инварианта в компьютерной коммуникации. В качестве объекта исследования мы использовали текст компьютерной коммуникации из социальной сети «ВКонтакте», который представляет собой неформальную коммуникацию мужчин и женщин в возрасте 18-20 лет. Данное исследование включало несколько этапов: 1. Сбор текстового материала и выборка реплик диалогов компьютерной коммуникации (далее - объекты) по гендерному принципу (мужские и женские). 2. Определение переменных, по которым будут оцениваться объекты в выборке, т. е. поиск признакового пространства. 3. Определение того, существуют ли статистически значимые различия между двумя независимыми группами по отобранным признакам. 4. Подсчет частоты лексических единиц в качестве значений признаков, составляющих вектор, для проведения неиерархического метода кластерного анализа (k-средних) в объектах исследования. 5. В качестве вывода выносим альтернативные гипотезы: A. H0 - выбранные группы не имеют значимых различий по исследуемому признаку. B. H1 - выбранные группы значимо различаются по исследуемому признаку. Если эмпирическое значение равно или превышает теоретическое значение критерия, то отклоняем гипотезу H0 и принимаем гипотезу H1. Для расчета критериев применяем специализированные пакеты обработки статистических данных STATISTICA. На первом этапе нами было собрано 19 диалогов личных сообщений (межличностной коммуникации) «Мужчина - Женщина». Общее количество информантов - 38 человек в возрасте 18-20 лет. Размер каждого диалога составил 150-200 Кб (Один диалог - около 10 страниц печатного текста). Все тексты были собраны в рамках учебной практики студентов отделения Фундаментальной и прикладной лингвистики Томского государственного университета, выполняемой под руководством автора статьи. Извлечение диалогов из социальных сетей осуществлялось с согласия их авторов, которые, в соответствии с нормами регламента Этического комитета междисциплинарных исследований ТГУ (http://lab.tsu.ru/ cognitivestudies/node/14) и в соответствии с Федеральным законом № 152 РФ «О персональных данных», были проинформированы о целях проводимого исследования и о гарантиях анонимности предоставленных персональных данных, после чего были заполнены «Формы информированного согласия», в структуру которых были включены метаданные участников диалогов: пол, возраст, социальный статус. Для дальнейшей статистической обработки все диалоги были разделены на файлы, содержащие мужские и женские реплики по 49-50 Кб каждая. В исследуемых текстах нашей задачей является поиск характерных стилистических особенностей, гендерных маркеров стиля речи, принадлежащих мужчинам или женщинам. На данном этапе были получены также общие количественные данные о мужских и женских репликах диалогов (таблица). Как видно из таблицы, в процессе коммуникации при одинаковых условиях женщины используют больше слов, однако, средняя длина предложения значительно меньше, чем у мужчин. Следующий этап исследования заключался в поиске обоснованных переменных для проведения статистических исследований. В данной работе мы, поставив задачу выявления различий в принципах строения мужского и женского текста, ограничиваемся анализом использования местоимений. Основой выбора исследования местоимений послужили работы отечественных и зарубежных психологов, посвященных «Я-концепции» и самосознания в контексте общего развития личности. С точки зрения Л. С. Рубинштейна, «самосознание - осознание себя субъектом деятельности, сложное, инте-гративное, прижизненно формирующееся свойство психической деятельности личности, осознание собственных действий, результатов, поступков, мыслей, мотивов, ценностей, оценка себя и своего места в жизни» [27. С. 244]. Данная сложная структура психической деятельности объективируется в речевых практиках, в которых значимую роль играет позиционирование говорящим себя по отношению к другим участникам коммуникации. В лингвистических исследованиях местоимений учеными было доказано, что этот класс лексических единиц служит одним из значимых средств маркирования позиции говорящего по отношению к другим коммуникантам (Дж. Пеннебекер [28. C. 563565], Е.М. Вольф [29. С. 112] и др.). В работах же по гендерной лингвистике обыло отмечено различие в использовании местоимений мужчинами и женщинами. Так, Б. Верховен (Ben Verhoeven) доказывает на материале мультилингвальных электронных корпусов текстов, что женщины используют местоимение «Я» чаще, чем мужчины [30. С. 1632-1633]. Подобное исследование проводилось А.Н. Барановым в статистическом анализе использования местоимений в художественных текстах [31. С. 235]. Вслед за вышеуказанными исследователями мы выдвигаем гипотезу, что использование местоимений в текстах коммуникации социальных сетей может 7? /и 68 66 Г. 4 62 60 58 Г>Г> 54 быть маркером гендерных различий коммуникантов и выражает их «Я-позицию» в процессе коммуникации относительно участников диалога. При анализе местоимений в текстах мы исходим из того, что местоимения имеют, во-первых, собственное внеконтекстное постоянное значение и, во-вторых, контекстуальное (ситуативное) значение, определяемое дейктической (указательной) функцией. Учет типов ведущей референции местоимений, используемых говорящим в том или ином дискурсе, может, по нашему мнению, свидетельствовать о важных аспектах коммуникативных установок говорящих. Для нас в данном аспекте важны противопоставление направленности субъектов коммуникации на себя или ориентация на партнера по коммуникации. Личные местоимения выступают одним из ярких показателей эгоцентричной или партнерской направленности наряду с другими словообразовательными, лексическими и синтаксическими средствами. Наиболее ярким маркером выражения эгоцентризма в речи является соотношение групп местоимений, производных супплетивных форм «я» (первого лица единственного числа) - мой, мое, моя, мне и т. д. (далее условно их будем именовать «группой местоимений первого лица единственного числа от "Я"»), а также представляет интерес позиция говорящего, выраженная в системе других местоимений. Для проверки сформулированной гипотезы мы провели анализ частоты употребления местоимений в текстах нашей выборки. Результат подсчета употреблений всех групп местоимений в совокупности начальных и косвенных падежных форм представлен в следующей диаграмме, отражающей среднее значение (mean) абсолютных чисел местоимений, использованных мужчинами (м) и женщинами (ж) в проанализированных текстах (рис. 2). 69,44776 г,д.тг,я71 м ж Рис. 2. Среднее значение (mean) абсолютных чисел использования местоимений в проанализированных текстах Данные о мужских (М) и женских (Ж) репликах диалогов Показатель Ж М Всего букв 214 829 165 667 Всего слов 47 966 37 988 Всего предложений 3 161 1 771 Средняя длина слова 4,479 4,361 Средняя длина предложения 15,174 21,450 Диаграмма абсолютных чисел доказывает, что общего количества слов проанализированных текженщины чаще используют местоимения в про- стов показал противоположенный результат: мужцессе коммуникации (рис. 2). Однако анализ пока- чины чаще используют местоимения в тексте зателей использования местоимений относительно (рис. 3). ■ м ■ ж Рис. 3. Соотношение количества использованных местоимений и общего количества слов текста Анализ относительных переменных также указывает на статистически значимые различия в использовании местоимений мужчинами и женщинами относительно общего числа слов в тексте. Учитывая экспоненциальную функцию распределения местоимений (Критерий x2 = 3,477; p = 0,324), для проверки гипотезы был применен тест Уалда-Вольфовица. Изучив и проанализировав результат теста, мы приняли альтернативную гипотезу (Hi), где Z = 1,97; p = 0,048. Дальнейшим шагом анализа стала верификация различий в частоте использования местоимений мужчинами и женщинами относительно всех слов текста. Дисперсионный анализ ANOVA не выявил статистически значимых различий, что требует более детального изучения (рис. 4). Однако, как можно видеть на графике, совокупное количество использований местоимений всех групп хоть и незначительно, но преобладает в мужской коммуникации. Рис. 4. Частота использования местоимений мужчинами и женщинами относительно общего числа слов в тексте Учитывая значительные прагматические различия использования в коммуникации местоимений разных лексико-грамматических разрядов, мы выделили группы местоимений, противопоставленные по типу маркирования позиций коммуникантов в речи, и проанализировали частотность их употреблений в анализируемых текстах: 1. «Я-группа»: все словоформы местоимения 1-го лица ед. ч., а также словоформы притяжательного местоимения мой. 2. «Ты-группа»: все словоформы местоимения 2-го лица ед. ч., а также словоформы притяжательного местоимения твой. 3. «Мы-группа» - все словоформы местоимения 1-го лица мн. ч., а также словоформы притяжательного местоимения наш. 4. «Сам-группа» - все формы возвратных местоимений. Для проверки значимости различия между средними в разных группах с помощью сравнения дисперсий, мы применили анализ ANOVA. Результаты анализа представлены на рис. 5. Знак * обозначает статистически значимое различие, M-F m - количество используемых местоимений соответствующей группы в текстах мужчин, M-F f - количество используемых местоимений в текстах женщин. Как видно из рис. 5, обнаруживаются различия в распределении личных местоимений только «Я-груп-пы» по отношению ко всем другим группам личных местоимений в текстах мужчин и женщин. Однако данные о частотности использования личного местоимения единственного числа свидетельствуют о том, что в общении женщины возрастной группы 1820 лет чаще используют группу местоимений «Я», в то время как использование местоимений других функционально-семантических групп не выявляет статистически значимых различий. Данные показатели говорят об эгоцентричной коммуникации женщин, а также эксклюзивности, т. е. направленности в процессе коммуникации на себя. L5 Мил; I м-р m I M-F < р=.00750 EllKIIrt nv(KinSil5- СКЙП30511К/1 Vertical mrsdenolf tmandam frton 300 2M 200 ISO iM M a -w -100 -ISO 1 г « о Я Ты Мы Сам Рис. 5. Различия в использовании местоимений четырех функционально-семантических относительно общего числа слов в тексте Рис. 6. Кластерный анализ местоимений Достоверность результата была подтверждена при помощи многофакторного дисперсионного анализа ANOVA в коммуникативных группах местоимений. Анализ подтверждает статистически значимые различия в абсолютных числах в супплетивной группе местоимений «Я». P-значение удовлетворяет условию p < 0,05, где F = 4,36; 1; p = 0,0075, что позволяет принять гипотезу Нь Для подтверждения гипотезы мы провели дополнительный статистический анализ полученных данных. Во-первых, мы установили, что распределение является непараметрическим и, во-вторых, выбрали наиболее подходящий критерий проверки гипотезы - U-критерий Манна-Уитни, который используется для оценки различий между двумя независимыми выборками (мужчины и женщины) по уровню какого-либо признака (местоимения), измеренного количественно. Вычисленный критерий составил p = 0,0169. Так как вычисленное значение критерия меньше установленного 0,05, нулевая гипотеза (H0) отвергается на выбранном уровне значимости и различия между выборками признаются статистически значимыми. Таким образом, вывод о существовании различий, сделанный с помощью непараметрического критерия Манна-Уитни, подтверждается с помощью данного непараметрического метода, а значит, нами установлено, что имеются существенные различия использования мужчинами и женщинами местоимений в компьютерной коммуникации. Валидность эксперимента подтверждает также од-нофакторный дисперсионный анализ ANOVA, сравнивающий выборку употребления средних показателей местоимений (p = 0,0252), что также позволило отклонить нулевую гипотезу о равенстве дисперсий в изучаемых группах. P-значение удовлетворяет условию p < 0,05, где F = 7,53; 1; p = 0,025. Проведение кластерного анализа для выявления различий в использовании местоимений в исследуемом типе текстов мужчинами и женщинами не дало положительного результата. Исходные данные нашей задачи были представлены также в виде строковых типов переменных по 49-50 Кб отдельно попарно для женской и мужской коммуникации, хранимой в файле Microsoft Word. Данные были импортированы в среду STATISTICA, где подверглись предварительной обработке. Обработка заключалась в удалении всех лексических единиц, кроме местоимений. Выяснилось, что кластеры присваивались в зависимости от стиля и объема диалога между коммуникантами, но эти данные нестабильны и требуют дальнейшего исследования, а использование местоимений не было проинтерпретировано в качестве релевантно значимых признаков (см. рис. 6). Таким образом, проведение статистического анализа использования местоимений в компьтерно-опо-средствованной коммуникации (общение в социальной сети «ВКонтакте») позволяет сделать выводы об отсутствии статистически значимых различий в использовании местоимений в совокупности всех разрядов данной части речи, но выявляется значимое статистическое различие в использовании местоимений Я-группы, что согласуется с ранее сделанными в гендерной лингвистике выводами о более выраженной эгоцентричной направленности женской коммуникации, однако необходимо выявление групп лексики других лексико-грамматических классов, способных выявить данный аспект коммуникативных стратегий.

Скачать электронную версию публикации

Загружен, раз: 273

Ключевые слова

компьютерная коммуникация, статистика, атрибуция текста, гендер, network communication, statistics, authorship attribution, gender

Авторы

ФИО	Организация	Дополнительно	E-mail
Степаненко Андрей Александрович	Томский государственный университет	аспирант кафедры общего, славяно-русского языкознания и классической филологии	stepanenkone@mail.ru

Всего: 1

Ссылки

Patrick Juola. How a Computer Program Helped Show J.K. Rowling write A Cuckoo's Calling. Author of the Harry Potter books has a distinct linguistic signature // Scientific American. 2013. Р. 24-29.

Maciej Eder, Jan Rybicki. Go Set A Watchman while we Kill the Mockingbird in Cold Blood, with Cats and Other People // Digital Humanities. Krakow, 2016. Р. 184-186.

Мартыненко Г.Я. Основы стилеметрии. Л. : Изд-во Ленинград. ун-та, 1988. 173 с.

Резанова З.И., Романов А.С., Мещеряков Р.В. О выборе признаков текста, релевантных в автороведческой экспертной деятельности // Вестник Томского государственного университета. Филология. 2013. № 6 (26). C. 38-52.

Аверьянов Л.Я. Контент-анализ. М. : Изд-во РГИУ, 2007. 456 с.

Антонова И. Анализ количества деловой информации как инструмент маркетинга // Информационные ресурсы России. 2003. № 5. С. 18-20.

Марусенко М. А. Атрибуция анонимных и псевдонимных литературных произведений методами распознавания образов. Л. : Изд-во Ле нинград. ун-та, 1990. 164 с.

Гилилов И.М. Игра об Уильяме Шекспире, или Тайна Великого Феникса. М. : Междунар. отношения, 2007. 536 с.

Рогов А.А., Гурин Г.Б., Котов А.А., Сидоров Ю.В., Суровцова Т.Г. Программный комплекс СМАЛТ // Электронные библиотеки: пер спективные методы и технологии, электронные коллекции : тр. Х Всерос. науч. конф. «RCDL'2008». Дубна, 2008. 160 с.

Поликарпов А.А., Поддубный В.В., Кукушкина О.В., Кубарев А.И., Варламов А.А., Суровцева Е.В., Пирятинская Е.Ф. Комплексная тексто-аналитическая система «СтилеАнализатор-2», основанная на Web-технологиях: разработка, наполнение данными и тестирование на прикладных задачах. М., 2013. 66 с.

Милов Л.В. От Нестора до Фонвизина. Новые методы определения авторства. М. : Прогресс, 1994. С. 356.

Фоменко В.П. Авторский инвариант русских литературных текстов // Фоменко В.П., Фоменко Т.Г. Новая хронология Греции. Античность в Средневековье. М. : Изд-во Учебно-научного центра довузовского образования Моск. гос. ун-та, 1996. Т. 2. С. 820.

Хмелев Д.В. Классификация и разметка текстов с использованием методов сжатия данных. Краткое ведение. URL: http://compression.graphicon. ru/download/articles/classif/intro.html, свободный (дата обращения: 16.09.2016).

Azarbonyad H. Time-Aware Authorship Attribution for Short Text Streams // Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval. N.Y., 2015. Р. 727-730.

Литвинова Т. А. Русский письменный текст как носитель информации об индивидуально-личностных характеристиках его автора (на материале корпуса текстов нового типа Personality) // Известия ВГПУ. Сер.: Педагогические науки; Гуманитарные науки. 2015. Т. 266, № 1. С. 196-198.

Поршнева О.С. К вопросу об атрибуции текстов записей солдатских разговоров // Информационный бюллетень ассоциации «История и компьютер» / отв. ред. Л.И. Бородкин. М., 2002. № 30. С. 31-44.

Хьетсо Г. Кто написал «Тихий Дон»? М. : Книга, 1989. 186 с.

Дроздова Т.Н. Диагностические и классификационные задачи в автороведческой экспертизе блогов // Актуальные проблемы российского права. 2010. № 2 (15). С. 394-404.

Романов А.С. Методика и программный комплекс для идентификации автора неизвестного текста : автореф. дис.. канд. техн. наук. Томск, 2010. 130 с.

Мамаев М.М. Гендерная атрибуция переводных текстов как специфический случай исследования языкового сознания автора // Вестник МГОУ. Сер. Лингвистика. 2015. № 2. C. 25-31.

Mukherjee A., Liu B. Improving Gender Classication of Blog Authors // Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, 2010. Р. 32-38.

Yan X., Yan L. Gender Classification of Weblog Authors // Computational Approaches to Analyzing Weblogs. AAAI, 2006. Р. 18-26.

Shlomo Argamon Gender, Genre, and Writing Style in Formal Written Texts // Shlomo Argamon, Moshe Koppel, Jonathan Fine, Anat Rachel Shimoni Springer, Sex Roles. 2010 Jun. № 62 (11-12). Р. 705-720.

Резанова З.И., Романов А.С., Мещеряков Р.В. Задачи авторской атрибуции текста в аспекте гендерной принадлежности (к проблеме междисциплинарного взаимодействия лингвистики и информатики) // Вестник Томского государтсвенного универистета. 2013. № 370. С. 24-28.

Marcelo Luiz. Brocardo Authorship Verification for Short Messages using Stylometry, 2014. URL: https://www.deepdyve.com/lp/institute-of-electrical-and-electronics-engineers/authorship-verification-for-short-messages-using-stylometry-JM5XWbkHyN (дата обращения: 7.07.2016).

Arroju M. Age, Gender and Personality Recognition using Tweets in a Multilingual Setting // 6th Conference and Labs of the Evaluation Forum (CLEF 2015): Experimental IR meets multilinguality, multimodality, and interaction, 2015. Р. 23-31.

Рубинштейн С.Л. Основы общей психологии. М. : Педагогика, 1989. Т. 1. 720 c.

Pennebaker J.W., MR Mehl K.G. Niederhoffer Psychological aspects of natural language use: Our words, our selves // Annual review of psychology. 2003. Р. 548-571.

Вольф Е.М. Грамматика и семантика местоимений. М. : Наука, 1974. 223 с.

Verhoeven В.С. TWISTY: A Multilingual Twitter Stylometry Corpus for Gender and Personality Profiling // Ben Verhoeven, Walter Daelemans and Barbara Plank CLiPS Research Center, University of Antwerp, Belgium University of Groningen, The Netherlands, 2015. Р. 1632-1637.

Баранов А.Н. Введение в прикладную лингвистику. М. : Эдиториал УРСС, 2001. 347 с.