On the Corpus of Dialectal Texts in the Russian National Corpus | Voprosy leksikografii – Russian Journal of Lexicography. 2017. № 11. DOI: 10.17223/22274200/11/5

On the Corpus of Dialectal Texts in the Russian National Corpus

The paper deals with the present state of the Corpus of Dialectal Texts within the Russian National Corpus. The Dialectal Corpus is available online at the site http://www.ruscorpora.ru/search-dialect.html. It is searchable since December 2006. As time passed the markup team has changed and so did the tenets of the markup. The new team has developed a new standard of formatting the dialectal texts. According to the latter, texts should be included into the corpus in a phonetic representation, with marked stress, and the user should have the opportunity to work both with fragments and with whole texts. In the paper the main principles of grammatical, semantic and metatext markup of the dialectal texts are described, as well as the guidelines for online search. The metatext markup consists of three levels: 1) provenance of a text; 2) phonetic markup; 3) genre and topic. A subcorpus can be customized basing on any combination of these sets of parameters. It is possible to select the texts with orthographical rendering and/or with audio recording available. All the texts within the Dialectal Subcorpus are with resolved morphological ambiguity, with full morphological markup, including the dialectal characteristics. The search, as within the bulk of the RNC, is operated in two regimes: as an exact (sub)string and by lemmata and grams. The semantic annotation is two-tiered, represented both in the metatext tagging and as a part of the word-by-word annotation. The topic (aboutness) of the text is determined on the metatext level. A separate lexeme can be also tagged semantically. A word is "translated" into the standard Russian language only if the text has a dictionary or notes annexed by the transcriber. It is possible also to add derivates to find other dialectal words with the same root. In 2016 the Dialectal Subcorpus was updated and now has 300 thousand items. The Dialectal Subcorpus of the RNC supposes inclusions of every sort of dialectal texts available in Russian, from the historical Russian area (Central European Russia), from the early colonization area (North European Russia) and late colonization area (Siberia, Far East, the Don, the South Volga), as well as the Russian diaspora, mostly Old Believers and Protestants (Latgale, Azerbaijan, Romania, Australia, Canada, the United States and others). The texts are provided by dialectologists who do fieldwork. They can provide transcripts from their personal notes or audio recordings, as well as published texts. The authors hope that the Dialectal Corpus will soon become a representative collection and will be widely accessed by users.

Download file
Counter downloads: 204

Keywords

русская диалектология, корпусная лингвистика, лексическая семантика, электронные ресурсы, морфологическая разметка, Russian dialectology, corpus linguistics, lexical semantics, electronic resources, morphological marking

Authors

NameOrganizationE-mail
Kachinskaya Irina B.Lomonosov Moscow State Universitykacza@yandex.ru
Sichinava Dmitry V.Vinogradov Institute of the Russian Language of the Russian Academy of Sciencesmitrius@gmail.com
Всего: 2

References

Школьный диалектологический атлас «Язык русской деревни». - URL: http://gramota.ru/book/village (Институт русского языка им. В.В. Виноградова РАН, (дата обращения: 20.12.2016).
Фонетика русских диалектов. - URL: http://dialect.philol.msu.ru/index.php (МГУ им. М.В. Ломоносова (дата обращения: 2012.2016).
Диалектная фонетика. Акустическая база данных по русским говорам. - URL: http://dialect-phon.ruslang.ru/ (Институт Славяноведения РАН) (дата обращения: 20.12.2016).
Информационный центр «Русская диалектология». - URL: http:// www.ruslang.ru/agens.php?id=rus_dialectology, (Институт Русского языка им. В.В. Виноградова РАН (дата обращения: 20.12.2016).
Электронная библиотека русских народных говоров. - URL: http://dialekt.rx5.ru/index.html (Казанский (Приволжский) федеральный университет (дата обращения: 20.12.2016).
Лингвогеографическая система «Диалект». - URL: http://io.udsu.ru/dl/common.logon (Ижевск, Удмуртский госуниверситет (дата обращения: 20.12.2016).
Говор бассейна Устьи: Корпус севернорусской диалектной речи. - URL: http://www.slavist.de/Pushkino/login.php (Ustja River Basin Corpus Query interface, Р.фон Вальденфельс, Берн, Швейцария и Н.Р. Добрушина и М.А. Даниэль, Высшая школа экономики, Москва (дата обращения: 20.12.2016).
Электронные базы данных по русским народным говорам. - URL: http://starling.rinet.ru/cgi-bin/main.cgi?root=ruscorpora&encoding=utf-rus (тексты, записанные в деревнях Харовского района Вологодской обл. и Шатурского района Московской обл., С.А. Крылов и А.В. Тер-Аванесова (дата обращения: 20.12.2016).
Региональная этнолингвистика. - URL: http://www.ethnolex.ru/ (русские говоры Кубани, дата обращения: 2012.2016).
Летучий А.Б. Корпус диалектных текстов: задачи и проблемы // Национальный корпус русского языка. - М., 2003-2005. - С. 215-232.
Летучий А. Б. Диалектный корпус: состав и особенности разметки // Национальный корпус русского языка. - Новые результаты и перспективы. - СПб., 20062008. С. 114-128.
Качинская И.Б. Корпус Диалектных Текстов в Национальном корпусе русского языка: состояние и перспективы // Лексический атлас русских народных говоров: материалы и исследования. 2009. - СПб., 2009. -С. 57-68.
Качинская И.Б., Моисеева Е.В. Диалектный Подкорпус НКРЯ. Новый стандарт подачи. Новое рабочее место // Русская устная речь: материалы междунар. науч. конф. «Баранниковские чтения. Устная речь: русская диалектная и разговорно-просторечная культура общения». Межвузовское совещание «Проблемы создания и использования диалектных корпусов», Саратов, 15-17 ноября 2010 г. / ред. О.Ю. Крючкова, А.И. Буранова, В.Е. Гольдин, Л.В. Балашова. - Саратов, 2011. -С.245-255.
Качинская И.Б., Сичинава Д.В. Корпус диалектных текстов в национальном корпусе русского языка: сегодняшнее состояние и перспективы // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Междунар. конф. «Диалог», Бекасово, 4-8 июня 2014 г. - М., 2014. - Вып. 13 (20). - С. 593-600.
Качинская И.Б., Сичинава Д.В. Диалектный подкорпус сегодня // Тр. Института русского языка им. В.В. Виноградова. - Вып. 6. - М., 2015. - С. 142-162.
Словарь русских народных говоров. - URL: http://iling.spb.ru/vocabula/srng/srng.html (дата обращения: 20.12.2016).
Архангельский областной словарь. - URL: http://www. philol.msu.ru/~dialectology/dictionary/ (дата обращения: 20.12.2016).
 On the Corpus of Dialectal Texts in the Russian National Corpus | Voprosy leksikografii – Russian Journal of Lexicography. 2017. № 11. DOI:  10.17223/22274200/11/5

On the Corpus of Dialectal Texts in the Russian National Corpus | Voprosy leksikografii – Russian Journal of Lexicography. 2017. № 11. DOI: 10.17223/22274200/11/5

Download full-text version
Counter downloads: 1446