Attributive Collocations in the Gold Standard of Russian Collocability and Their Representation in Dictionaries and Corpora | Voprosy leksikografii – Russian Journal of Lexicography. 2021. № 21. DOI: 10.17223/22274200/21/2

Attributive Collocations in the Gold Standard of Russian Collocability and Their Representation in Dictionaries and Corpora

The article discusses how collocations are represented in Russian dictionaries and how information about them can be covered in a collocation database that is being developed. Such a resource (gold standard) can be in demand when developing applications for teaching or learning Russian as a foreign language and solving other theoretical and applied issues. The aim of the study was twofold: firstly, to analyze how explanatory and specialized dictionaries of the Russian language represent collocations and hence to what extent their data coincide with each other, and, secondly, to investigate how these dictionary collocations are reflected in text corpora. This allows tracing the relation between manually collected data and modern corpora. For the study, the author used the disambiguated subcorpus and the main corpus of the Russian National Corpus (RNC) with a volume of 6 million and 321 million words, respectively, as well as the large Internet corpus ruTenTen with a volume of more than 14.5 billion words. The author considered attributive phrases built according to the “adjective/participle + noun” model. She analyzed 120 collocations with different dictionary index, i.e. the number of dictionaries in which this phrase is given. The following hypothesis was tested: high collocation frequencies correspond to the fact that the item is recorded in several dictionaries. In the analysis, nonparametric analogues of analysis of variance (Friedman and Kruskal-Wallis tests) were used to assess the statistical significance of differences in quantitative data. The frequencies of collocations in corpora of different volume and in different dictionaries were compared. In total, more than 15 thousand examples were processed, less than 0.5% of them were presented in four of the six reviewed dictionaries (five printed and one electronic). The results show data heterogeneity, items selected for a dictionary do not coincide with their frequency characteristics and thus word combinations turn out to be low-frequency. About 34% of the examples are absent in the RNC corpus with removed ambiguity, and about 12% of analyzed collocations are rare (less than 0.01 ipm) even in the ruTenTen corpus. The presence of collocations in several dictionaries indicates their higher frequencies and hence reproducibility in speech. Explanatory dictionaries and collocation dictionaries show the smallest intersection of data. The results show that the amount of data is a crucial issue, and the very phenomenon of collocability should be studied on large corpora.

Download file
Counter downloads: 67

Keywords

collocations, collocability, attributive collocations, Russian language, dictionaries, text corpora, database

Authors

NameOrganizationE-mail
Khokhlova Maria V.Saint Petersburg State Universitym.khokhlova@spbu.ru
Всего: 1

References

Хохлова М.В. Экспериментальная проверка методов выделения коллокаций // Slavica Helsingiensia 34. Инструментарий русистики: Корпусные подходы / под ред. А. Мустайоки, М.В. Копотева, Л.А. Бирюлина, Е.Ю. Протасовой. Хельсинки, 2008. С. 343-357.
Ягунова Е.В., Пивоварова Л.М. Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов // Научно-техническая информация. Серия 2. Информационные процессы и системы. 2010. № 6. С. 30-40.
Pivovarova L., Kormacheva D., Kopotev M. Evaluation of collocation extraction methods for the Russian language // Quantitative Approaches to the Russian Language / ed. by M. Kopotev, O. Lyashevskaya, A. Mustajoki. London ; New York : Routledge, 2018. P. 137-157.
Khokhlova M. Similarity between the Association Measures: a Case Study of Noun Phrases // Proceedings of the Twelfth Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2018 / ed. by A. Horak, P. Rychly, A. Rambousek. Brno : Tribun EU, 2018. P. 21-27.
Enikeeva E., Mitrofanova O. Russian Collocation Extraction Based on Word Embeddings // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог» (Москва, 31 мая -3 июня 2017 г.). Вып. 16 (23) : в 2 т. М. : Изд-во РГГУ, 2017. URL: http://www.dialog-21.ru/media/3908/enikeevaevmitrofanovaoa.pdf (дата обращения: 09.07.2021).
Кобрицов Б.П., Ляшевская О.Н., Шеманаева О.Ю. Снятие лексикосемантической омонимии в новостных и газетно-журнальных текстах: поверхностные фильтры и статистическая оценка // Интернет-математика 2005. Автоматическая обработка веб-данных. М., 2005. С. 38-57.
Василисина А.А., Зарифян М.С., Казакова П.Н., Сударикова Е.А. Полисемия глаголов перемещения, движения и локализации (по результатам семантической разметки базы данных Активного словаря русского языка). URL: http://www.dialog-21.ru/media/3471/vasilisina.pdf (дата обращения: 09.07.2021).
Азарова И.В., Синопальникова А.А., Яворская М.В. Принципы построения wordnet-тезауруса RussNet // Компьютерная лингвистика и интеллектуальные технологии. Труды Международной конференции «Диалог 2004» (Верхневолжский, 2-7 июня 2004 г.). М., 2004. C. 542-547.
Большаков И.А. Кросс-Лексика - большой электронный словарь сочетаний и смысловых связей русских слов // Компьютерная лингвистика и интеллектуальные технологии : труды междунар. конф. «Диалог 2009». Вып. 8 (15). М. : РГГУ, 2009. С. 45-50.
Берков В.П. Двуязычная лексикография. 2-е изд. М. : АСТ, 2004. 236 с.
Atkins B. T.S., Rundell M. The Oxford Guide to Practical Lexicography. Oxford U.P, 2008. 554 p.
Benson M., Benson E., Ilson R. The BBI Combinatory Dictionary of English: A Guide to Word Combinations. Amsterdam, Philadelphia : John Benjamins, 1986. 462 p.
Kjellmer G. A dictionary of English collocations: based on the Brown corpus: in three volumes. Oxford ; New York : Clarendon Press: Oxford University Press, 1994. 2304 p.
Hanks P. Mapping meaning onto use: a Pattern Dictionary of English Verbs // Proceedings AACL 2008, Utah. 2008. URL: https://nlp.fi.muni.cz/projects/cpa/Pattern%20Dict%20Utah.ppt (дата обращения: 09.07.2021).
Pezik P. Graph-Based Analysis of Collocational Profiles // Phraseologie im Worterbuch und Korpus (Phraseology in Dictionaries and Corpora) / ed. by Vida Jesensek and Peter Grzybek. ZORA 97. Maribor ; Bielsko-Biala ; Budapest ; Kansas ; Praha : Filozofska fakuteta, 2014. P. 227-43.
Мельчук И.А., Жолковский А.К. и др. Толково-комбинаторный словарь современного русского языка. Опыты семантико-синтаксического описания русской лексики. Вена : Wiener Slavistischer Almanach, 1984. 992 с.
Дерибас В.М. Устойчивые глагольно-именные словосочетания русского языка. М. : Русский язык, 1983. 256 с.
Борисова Е.Г. Слово в тексте. Словарь коллокаций (устойчивых сочетаний) русского языка с англо-русским словарем ключевых слов. М. : Филология, 1995. 150 с.
Денисов П.Н., Морковкин В.В. Словарь сочетаемости слов русского языка. 3-е изд., испр. М. : АСТ, 2002. 688 с.
Апресян В.Ю., Апресян Ю.Д., Бабаева Е.Э., Богуславская О.Ю., Галактионова И.В., Гловинская М.Я., Иомдин Б.Л., Крылова Т.В., Левонтина И.Б., Птенцова А.В., Санников А.В., Урысон Е.В. Проспект активного словаря русского языка. URL: http://san.ruslang.ru/prospect_theory.pdf (дата обращения: 09.07.2021).
Национальный корпус русского языка. URL: http://ruscorpora.ru (дата обращения: 09.07.2021).
Бирюк О.Л., Гусев В.Ю., Калинина Е.Ю. Словарь глагольной сочетаемости непредметных имен русского языка. М., 2008. URL: http://dict.ruslang.ru/ abstr_noun.php.
Кустова Г.И. Словарь русской идиоматики. Сочетания слов со значением высокой степени. М., 2008. URL: http://dict.ruslang.ru/magn.php (дата обращения: 09.07.2021).
Lyashevskaya O. Bank of Russian Constructions and Valencies // Proceedings of the Seventh conference on International Language Resources and Evaluation (LREC’10). Valletta, 2010. P. 1802-1805.
Kopotev M., Escoter L., Kormacheva D., Pierce M., Pivovarova L., Yangarber R. CoCoCo: Online Extraction of Russian Multiword Expressions // The 5th Workshop on Balto-Slavic Natural Language Processing (10-11 September 2015, Hissar, Bulgaria). Sofia : INCOMA Ltd, 2015. P. 43-45.
Sharoff S., Nivre J. The proper place of men and machines in language technology: Processing Russian without any linguistic knowledge // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 25-29 мая 2011 г.). Вып. 10 (17). М. : РГГУ, 2011. С. 657-670.
База данных «Lexicograph». URL: http://lexicograph.ruslang.ru (дата обращения: 09.07.2021).
Словарь русского языка : в 4 т. / под ред. А.П. Евгеньевой. 4-е изд., стер. М. : Рус. яз., 1999.
Calzolari N., Fillmore Ch., Grishman R, Ide N., Lenci A., Macleod C., Zampolli A. Towards Best Practice for Multiword Expressions in Computational Lexicons // Proceedings of LREC - 2002. P. 1934-1940.
Лукашевич Н.В., Добров Б.В., Чуйко Д.С. Отбор словосочетаний для словаря системы автоматической обработки текстов // Компьютерная лингвистика и интеллектуальные технологии : труды международной конференции «Диалог-2008». М., 2008. С. 339-344.
Тестелец Я.Г. Введение в общий синтаксис. М. : РГГУ, 2001. 798 с.
Телия В.Н. Русская фразеология. Семантический, прагматический и лингвокультурологический аспекты. М. : Языки славянской культуры, 1996. 289 с.
Большой академический словарь русского языка % в 20 т. М. : Российская академия наук. Институт лингвистических исследований. Наука, 2004
Большой толковый словарь русского языка: А-Я / сост., гл. ред. С. А. Кузнецов. СПб. : Норинт, 1998. 1534 с.
Регинина К.В., Тюрина Г.П., Широкова Л.И. Устойчивые словосочетания русского языка : учеб. пособие для студентов-иностранцев / под ред. Л.И. Широковой. М. : Рус. яз., 1980. 296 с.
Убин И.И. Словарь усилительных словосочетаний русского и английского языков. М. : Рус. яз., 1987. 3об с.
Kallas J., Koeva S., Langemets M., Tiberius C., Kosem I. Lexicographic Practices in Europe: Results of the ELEXIS Survey on User Needs // Electronic lexicography in the 21st century. Proceedings of the eLex 2019 conference. 1-3 October 2019, Sintra, Portugal. Brno : Lexical Computing CZ, s.r.o., 2019. P. 519-536.
Виноградов В.В. Русский язык. М. : Высшая школа, 1972. 613 с.
Шанский Н.М. Фразеология современного русского языка : учеб. пособие для студ. филол. фактов. 3-е изд., испр. и доп. М. : Высшая школа, 1985. 160 с.
MyStem. URL: https://yandex.ru/dev/mystem/(дата обращения: 09.07.2021).
Oxford Collocations Dictionary for Students of English, 2nd edition / ed. by Colin Macintosh. Oxford : Oxford University Press, 2009. 992 p.
Quasthoff U. Worterbuch der Kollokationen im Deutschen. Berlin ; New York : Walter de Gruyter, 2011. 551 S.
Ляшевская О.Н., Шаров С.А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М., 2009. URL: http://dict.ruslang.ru/freq.php (дата обращения: 09.07.2021).
Jakubicek M., Kilgarriff A., Kovar V., Rychly P., Suchomel V. The TenTen Corpus Family // Proceedings of the 7th International Corpus Linguistics Conference CL 2013, the United Kingdom, July 2013. Р. 125-127 (2013).
Sinclair J. Corpus and Text - Basic Principles // Developing Linguistic Corpora: a Guide to Good Practice. Oxford : Oxbow Books, 2005. Р. 1-16. URL: http://users.ox.ac.uk/~martinw/dlc/chapter1.htm (дата обращения: 09.07.2021).
 Attributive Collocations in the Gold Standard of Russian Collocability and Their Representation in Dictionaries and Corpora | Voprosy leksikografii – Russian Journal of Lexicography. 2021. № 21. DOI: 10.17223/22274200/21/2

Attributive Collocations in the Gold Standard of Russian Collocability and Their Representation in Dictionaries and Corpora | Voprosy leksikografii – Russian Journal of Lexicography. 2021. № 21. DOI: 10.17223/22274200/21/2

Download full-text version
Counter downloads: 253