Where do the wild things live? Corpus method to detect anglicisms and their derivatives on Russian Internet
Many articles show the results of the study of anglicisms, and we must assume that as long as languages accept anglicisms, their study will remain topical. Nowadays, more and more attention is being paid to the issue of automated detection of English loanwords and their derivatives in different languages. This article describes the corpus method of detecting English loanwords and their derivatives in Russian fashion blogs by means of corpus manager Sketch Engine and its tool Keyword, which operates on TF-IDF principle. The relevance of the study is related to the following objectives: to detect the newest anglicisms that have no lexicographic fixation and to determine their number and frequency; to optimize the search of anglicisms and their derivatives; to reduce the human factor in the search of anglicisms and their derivatives. The structure of this article includes, first, an explanation of the terms anglicism and derivative and ways of anglicisms adaptation to Russian; second, a description of existing software methods for detecting anglicisms on the Internet (based on neural networks training and the use of AntConc corpus manager); third, a description of corpus method to detect anglicisms with Sketch Engine, which has not been used to search for anglicisms on Russian Internet, and an explanation of key terms necessary to understand the mechanism of the described method. A pilot research was conducted on a small number of fashion blog posts (174,213 words -218,091 tokens) from LiveJournal, in which 84 fashion loanwords (4,506 occurrences) and 32 derivatives (1,194 occurrences) were detected using the Keyword function: bini, bodi, nyud, skini, slipon; zamiksovat’, kezhual’shchik, nyudovyy etc. The pilot study has shown that the use of the Sketch Engine contributes to solving the problems of automating the search of anglicisms and their derivatives on Russian Internet. The implementation of the proposed method requires the preliminary preparation of a focus corpus and subsequent keyword analysis. A preliminary preparation implies: (1) selection of texts united by a common topic; (2) manual removal of hidden hyperlinks in the texts if the corpus is not compiled by crawling Internet pages, but by loading texts independently copied from Internet pages; (3) selection of a suitable reference corpus reflecting the colloquial language. Subsequent keyword analysis involves: (1) excluding irrelevant lexical units from the list of keywords; (2) lemmatising anglicisms and their derivatives and lemmatising individual word forms to lemmas where necessary. The proposed method can be applied not only to the search of English loanwords on Russian Internet but also to the texts in other languages covered by Sketch Engine. The prospect of further exploration of this method consists in studying the specifics of its use to search for anglicisms and their derivatives in other languages, other thematic areas and also on a larger array of texts. The author declares no conflicts of interests.
Keywords
corpus linguistics,
automatic detections,
loanwords,
anglicismsAuthors
Alyunina Yulia M. | Peoples’ Friendship University of Russia | aliunina-yum@rudn.ru |
Всего: 1
References
Merriam-Webster Dictionary. URL: https://www.merriam-webster.com/(дата обращения: 15.09.2021).
VBA Excel. Регулярные выражения (объекты, свойства, методы) // Время не ждёт. URL: https://vremya-ne-zhdet.ru/vba-excel/regulyarnyye-vyrazheniya/(дата обращения: 08.01.2022).
Anything for a quiet life // LiveJoumal. URL: https://olga-srb.livejoumal.com/(дата обращения: 03.01.2022).
Инструкция для пользователя Национальным корпусом русского языка // Studiorum: Образовательный портал НКРЯ. URL: https://studiorumruscorpora.ru/manual/basic/(дата обращения: 22.03.2021).
Дневник очаровательной киберледи // LiveJournal. URL: https://kibernetika.livejournal.com/367565.html?media (дата обращения: 03.01.2022).
Lena View // LiveJournal. URL: https://lena-view.livejournal.com/profile (дата обращения: 03.01.2022).
Блог визуальных осколков. Иллюстрированный журнал Алексея Наседкина // LiveJournal. URL: https://nasedkin.livejournal.com/(дата обращения: 03.01.2022).
LiveJournal. URL: https://www.livejournal.com/(дата обращения: 11.11.2021).
Стильные заметки, блог о стиле и моде // LiveJournal. URL: https://upryamka.livejournal.com/(дата обращения: 03.01.2022).
A Practical Handbook of Corpus Linguistics / ed. by Paquot M., Gries S.Th. Cham : Springer, 2020. 686 p.
Multitran. URL: https://www.multitran.com (дата обращения: 20.10.2021).
2015 IEEE International Professional Communication Conference (IPCC). URL: https://ieeexplore.ieee.org/xpl/conhome/7210374/proceeding (дата обращения: 29.09.2021).
Perez M.J.M. Measuring the degree of specialisation of sub-technical legal terms through corpus comparison. A domain-independent method // Terminology. 2016. Vol. 1 (22). Р. 80-102.
Яхина Р.Р., Ильдуганова Г.М. Особенности модификации заимствований англоязычного происхождения на материале экономической и финансовой терминологии // Вестник Вятского государственного университета. 2017. № 5. С. 67-71.
Белоусов К.И., Баранов Д.А., Зелянская Н.Л., Пономарёв Н.Ф., Рябинин К.В. Когнитивно-информационное моделирование социальной реальности: концепты, события, приоритеты // Вестник Томского государственного университета. Филология. 2021. № 72. C. 5-26.
Thomas J. Discovering English with Sketch Engine. 2nd ed. New Delhi : Versatile, 2017. 229 p.
Kilgarriff A.Comparing corpora // International journal of corpus linguistics. 2001. Vol. 6 (1). P. 97-133.
Simple maths. URL: https://www.sketchengine.eu/documentation/simple-maths/(дата обращения: 27.06.2021).
Brezina V. Statistics in Corpus Linguistics: A Practical Guide. Cambridge : Cambridge University Press, 2018. 314 p.
Moskvitcheva S. Prototypical Notions of Minority Languages in the Soviet Union and Russia: “Native Language” (rodnoj azyk) and “National Language” (nacional’nij azyk) // Minority Languages from Western Europe and Russia: Comparative Approaches and Categorical Configurations / ed. by S. Moskvitcheva, A. Viaut. Cham : Springer International Publishing, 2019. P. 49-67. URL: https://doi.org/10.1007/978-3-030-24340-1_5 (дата обращения: 23.11.2021).
Glossary. Sketch Engine. URL: https://www.sketchengine.eu/guide/glossary/(дата обращения: 19.04.2021).
Горина О.Г. Методика и математика ключевых слов // Открытое и дистанционное образование. 2017. Т. 2 (66). С. 44-51. URL: http://journals.tsu.ru//ou/&journal_page= archive&id=1579&article_id=35320 (дата обращения: 23.11.2021).
Словарь молодёжного сленга. URL: https://teenslang.su/(дата обращения: 07.01.2019).
Lab533/Anglicisms. URL: https://github.com/lab533/Anglicisms (дата обращения: 14.01.2020).
Дьяков А.И. Словарь англицизмов русского языка. URL: http://anglicismdictionary.ru/ (дата обращения: 01.05.2022).
AntConc. URL: https://www.laurenceanthony.net/software/antconc/(дата обращения: 19.10.2021).
7 одёжек. Свой гардероб - свои правила. URL: https://7odezhek.livejournal.com/(дата обращения: 14.01.2019).
Семантическое освоение заимствованных слов в русском языке. URL: http://www.textologia.ru/russkiy/leksikologia/slovo-proishozhdenie/semanticheskoe-osvoenie-zaimstvovannih-slov-v-russkom-yazike/1224/?q=463&n=1224 (дата обращения: 14.01.2020).
Национальный корпус русского языка. URL: http://www.ruscorpora.ru/new/ (дата обращения: 20.11.2021).
Володарская Э.Ф. Заимствование как отражение русско-английских контактов // Вопросы языкознания. 2002. № 4. C. 96-118. URL: https://vja.ruslang.ru/ru/archive/2002-4/96-118 (дата обращения: 04.01.2022).
Кожевникова Е.И. Фонетическая и грамматическая ассимиляция галлицизмов в современном английском языке // Известия Уральского государственного университета. Серия 1. Проблемы образования, науки и культуры. 2010. Т. 5 (84). С. 222-225. URL: https://elar.urfu.ru/handle/10995/18868 (дата обращения: 04.01.2022).
Рахманова Л.И., Суздальцева В.Н. Современный русский язык : учеб. пособие. М. : Изд-во МГУ, ЧеРо, 1997. 480 с.
Sketch Engine. URL: https://www.sketchengine.eu/(дата обращения: 04.03.2020).
Лингвистический энциклопедический словарь / под ред. В.Н. Ярцевой. М. : Советская энциклопедия, 1990. 685 c.
Маринова Е.В. Иноязычная лексика современного русского языка. М. : ФЛИНТА : НАУКА, 2012. 288 c.
Дьяков А.И. Словарь английских заимствований русского языка. Новосибирск : Новосибирское книжное издательство, 2010. 588 c.
Галь Н. Куда же идёт язык? // Слово живое и мёртвое. М. : АСТ, 2017. C. 65-79.
ЕлифёроваМ. Панталоныфракжилет. М. : Альпина Диджитал, 2020. 157 c.
Артамонов А. Татьяна Миронова: Переживать надо, когда лингвистика служит сокрытию деяний. URL: https://omiliya.org/article/tatyana-mironova-perezhivat-nadokogda-lingvistika-sluzhit-sokrytiyu-deyaniy (дата обращения: 03.07.2020).
Onysko A. Exploring discourse on globalizing English // English Today. 2009. Vol. 25 (1). P. 25-36. URL: https://www.cambridge.org/core/journals/english-today/article/abs/ex-ploring-discourse-on-globalizing-english/F0F61668C8BE8866C857AB45B11991FB (дата обращения: 04.01.2022).
Scherling J. Holistic loanword integration and loanword acceptance. A comparative study of anglicisms in German and Japanese // AAA - Arbeiten aus Anglistik und Amerikan-istik. 2013. Vol. 1 (38). P. 37-51.
Laursen A.L., Mousten B. Tracking Anglicisms in Domains by the Corpus-Linguistic Method - A Case Study of Financial Language in Stock Blogs and Stock Analyses // 2015 IEEE International Professional Communication Conference (IPCC). Limerick, 2015. P. 1-7. URL: https://ieeexplore.ieee.org/document/7235806?reload=true (дата обращения: 03.01.2022).
Fenogenova A.S., Karpov I., Kazorin V., Lebedev I. V.Comparative Analysis of Anglicism Distribution in Russian Social Network Texts // Материалы Международной конференции по компьютерной лингвистике и интеллектуальным технологиям «Диалог 2017» : в 2 Т. М. : Изд-во РГГУ. 2017. Т. 1. С. 65-74. URL: https://publications.hse.ru/books/206282438 (дата обращения: 03.01.2022).
Fenogenova A., Kazorin V., Karpov I. A General Method Applicable to the Search for Anglicisms in Russian Social Network Texts // Proceedings of the Artificial Intelligence and Natural Language AINL FRUCT 2016 Conference. Saint-Petersbourg, 2016. P. 31-36. URL: https://publications.hse.ru/en/chapters/194779964 (дата обращения: 03.01.2022).