What and how can a linguist get from digitized texts?
The article is devoted to the limits of applicability of the online tools for automatic processing of digital texts (search engines, corpora, Google Books Ngram Viewer) to a linguostatistic study. Despite the common opinion about the objectivity of the results obtained after automatic processing of the text array, there are limitations and distortions of the data due to many reasons. One of them is the frequent lack of linguists in the teams of developers of such machines. In the article, the analysis of the frequency of use of culturally significant names and their spelling variants, generic forms of the verb and the prepositional variants of the control according to the different automatic means of analysis of the texts shows the complexity of interpreting the results of automatic processing of text arrays.
Keywords
grammatical variation,
corpus linguistics,
word processing,
linguistic online tools,
linguistic statistics,
digital text,
грамматическая вариантность,
корпусная лингвистика,
онлайн-инструменты лингвистической обработки текстов,
лингвистическая статистика,
цифровой текстAuthors
Belikov V. I. | Moscow State University | otipl@philol.msu.ru |
Всего: 1
References
Язык и мысль: Современная когнитивная лингвистика. М.: ЯСК, 2015.
Эпштейн М. Н. Мысли в числах: Америка и Россия в зеркалах интернета // Философский век: Альм. Вып. 32: Бенджамин Франклин и Россия: к 300-летию со дня рождения. Ч. 2. СПб.: Центр истории идей, 2006.
Эпштейн М. Н. Слово недели: нумеризм // Дар слова. Проективный лексикон Михаила Эпштейна. 2003. № 71(111). 8 сент. URL: http://www.emory.edu/ INTELNET/dar71.html
Щерба Л. В. О трояком аспекте языковых явлений и об эксперименте в языкознании // Языковая система и речевая деятельность. Л.: Наука, 1974.
Словарь русского языка: В 4 т. / Под ред. А. П. Евгеньевой. 2-е изд., испр. и доп. М.: Рус. яз., 1981-1984.
Труды международной конференции «Корпусная лингвистика - 2015». СПб.: СПбГУ, 2015.
Кронгауз М. А. Самоучитель олбанского. М.: АСТ, 2013.
Кузнецов С. А. Языковая норма и правила речевой деятельности // Комментарий к Федеральному закону «О государственном языке Российской Федерации». Ч. 1: Доктринальный и нормативно-правовой комментарий. СПб.: Изд-во С.-Петерб. ун-та, 2009.
Беликов В. И., Копылов Н. Ю., Пиперски А. Ч., Селегей В. П., Шаров С. А. Корпус как язык: от масштабируемости к дифференциальной полноте // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегод. Междунар. конф. «Диалог». Вып. 12(19). Т. 1. М.: РГГУ, 2013.
Беликов В. И. К методике корпусного исследования лексики // Русский язык и новые технологии. М.: НЛО, 2014.
Беликов В. И. Словарь «Языки русских городов»: подбор примеров и Интернет // Компьютерная лингвистика и интеллектуальные технологии: Тр. Междунар. конф. «Диалог 2006». М.: ИПИ РАН, 2006.
Беликов В. И. Yandex как лексикографический инструмент // Компьютерная лингвистика и интеллектуальные технологии: Тр. Междунар. конф. «Диалог’ 2004». М.: Наука, 2004.
Беликов В. И. Интернет и орфография // Компьютерная лингвистика и интеллектуальные технологии: Тр. Междунар. конф. «Диалог’2003». М.: Наука, 2003.