The project of Tomsk dialect corpus in keeping with trends of corpus linguistics development | Sibirskii Filologicheskii Zhurnal - Siberian Journal of Philology. 2018. № 3. DOI: 10.17223/18137083/64/18

The project of Tomsk dialect corpus in keeping with trends of corpus linguistics development

The concept of the dialect corpus representing the Russian dialect speech of the Middle Ob region is proposed. The authors demonstrate that the project of Tomsk dialect corpus corresponds to the key trends of modern corpus linguistics: the involvement of oral speech materials; attention to the regional variation of the language; the study of dialect as part of the traditional culture; multimodality. The novelty of the resource is determined by the material - it is one of the few corpuses that include the speech of residents of the vast Siberian region: the archive includes the results of a 70-year expedition survey of about 400 villages - and lexicocentric and textocentric orientation: the possibility of access to full texts is fundamentally important. The problem of representativeness and balance of the dialect corpus which has not been studied in the scientific literature is considered. Today, Tomsk dialect corpus includes approximately 700 000 words, allowing it to be considered as a fairly representative collection of dialect texts. At the same time, the special characteristics of the material result in the corpus being not strictly balanced. The texts are presented in spelling with some phonetical features of the dialect. The structure of the new electronic resource involves 3 types of markup: passport, thematic and type of text. Passport metamarkup includes extra-linguistic data about the texts: the place of recording, the date, the information about the informant (sex, age, place of birth, level of education, occupation). Thematic meta-markup is made by means of an inductive analysis of the discursive practices of old-timers. The list of topics is hierarchical, with each topic being three levels deep maximum. The principle of «soft» markup is used, with the possibility of simultaneously assigning several themes to the one text fragment. At the first level of the hierarchy, 16 macro-themes are marked (Work, Food, Nature, etc.), on the second - 64 topics. Firstly, the markup by type of text at this stage includes the degree of the spontaneity of speech events and, secondly, the most frequent speech genres. The prospects for using the resource are the study of Middle Ob dialects in linguocultural, genre, communicative, cognitive, linguopersonological and other aspects; the creation of new dialect dictionaries; the investigation of traditional culture and folklore, customs and rituals, history of the region.

Download file
Counter downloads: 153

Keywords

Russian dialects of Siberia, Tomsk dialect corpus, corpus linguistics, русские говоры Сибири, Томский диалектный корпус, корпусная лингвистика

Authors

NameOrganizationE-mail
Zemicheva S. S.Tomsk State Universityoptysmith@gmail.com
Ivantsova E.V.Tomsk State Universityekivancova@yandex.ru
Всего: 2

References

Zu Y., Chen Y., Zhang Y., Zhou L., Shen M., Huang J. A Super phonetic system and multi-dialect Chinese speech corpus for speech recognition // Proc. of Intern. Conf. on Spoken Language Processing. 2002. URL: http://www.colips.org/conferences/ iscslp2006/anthology/2002/Papers/048.PDF
Newman J., Lin J., Butler T., Zhang Е. The Wenzhou spoken corpus // Corpora. 2008. Vol. 2, iss. 1. P. 97-109. URL: http://dx.doi.org/10.3366/cor.2007.2.1.97
Perkuhn R., Keibel H., Kupietz M. Korpuslinguistik. Paderborn: Wilhelm Fink Verl., 2012. 144 p.
Anders C. A., Hundt M., Lasch A. Perceptual Dialectology. Neue Wege der Dialectologie. Berlin: Degruyter, 2010. 449 p.
Johannessen J. B., Priestley J., Hagen K., Nøklestad A., Lynum A. The Nordic dialect corpus // Proc. of the Eighth Intern. Conf. on Language resources and Evaluation. 2012. P. 3387-3392. URL: http://www.lrec-conf.org/proceedings/lrec2012/pdf/ 773_Paper.pdf
Трегубова Е. Н. Многоуровневая тематическая разметка как инструмент этнолингвистической репрезентации диалектного дискурса в электронном текстовом корпусе // Вестн. Том. гос. ун-та. Филология. 2015. № 1(33). С. 66-77.
Томская диалектологическая школа: Историографический очерк / Под ред. О. И. Блиновой. Томск: Изд-во Том. ун-та, 2006. 392 с.
Русский язык повседневного общения: особенности функционирования в разных социальных группах / Отв. ред. Н. В. Богданова-Бегларян. СПб.: Лайка, 2016. 244 с.
Русские говоры Среднего Приобья / Под ред. В. В. Палагиной. Ч. 1. Томск: Изд-во Том. ун-та, 1984. 208 с.
Ростова А. Н. Метатекст как форма экспликации метаязыкового сознания. Томск: Изд-во Том. ун-та, 2000. 193 с.
Резанова З. И. Лингвистический корпус «Томский региональный текст»: типологически релевантные параметры сбалансированности и репрезентативности // Вестн. Том. гос. ун-та. Филология. 2015. № 1(33). С. 38-50.
Летучий А. Б. Корпус диалектных текстов: задачи и проблемы // Национальный корпус русского языка: 2003-2005. Результаты и перспективы. М., 2005. C. 215-233. URL: http://ruscorpora.ru/sbornik2005/13letuchy.pdf
Москвина Т. Н. Методы и подходы корпусной лингвистики в исследованиях семантики диалектной лексики // Современные проблемы науки и образования. 2014. № 6. URL: http://www.science-education.ru/ru/article/view?id=15784 (дата обращения 10.05.2017).
Крючкова О. Ю., Гольдин В. Е. Корпус русской диалектной речи: концепция и параметры оценки // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегод. междунар. конф. «Диалог», 25-29 мая 2011 г., Бекасово. Вып. 10(17). М., 2011. С. 359-367. URL: http://www.dialog-21.ru/media/ 1437/36.pdf
Крючкова О. Ю. Электронный корпус русской диалектной речи и принципы его разметки // Изв. Саратов. ун-та. Новая сер. Филология. Журналистика. 2007. Т. 7, вып. 1. С. 30-34. URL: http://sarteorlingv.narod.ru/dialekt/elektr_korpus.html
Качинская И. Б., Сичинава Д. В. Диалектный подкорпус сегодня // Тр. Ин-та рус. яз. им. В. В. Виноградова. Т. 6. М., 2015. С. 142-162.
Захаров В. П. Корпусная лингвистика: Учеб.-методич. пособие. СПб., 2005. 48 с.
Задумина П. Н. О некоторых особенностях создания мультимедийного корпуса региональных текстов // Молодые исследователи - регионам: Материалы междунар. науч. конф. Т. 3. Вологда, 2004. С. 194-196.
Ерофеева Е. В., Вардёй Б., Краузе М., Пост М. Звуковой корпус региональной русской речи как инструмент изучения региолектов и их оценки наивными носителями языка // Русский язык и литература в пространстве мировой культуры: Материалы XIII конгр. Междунар. ассоциации преподавателей рус. яз. и литературы (МАПРЯЛ), 13-20 сент. 2015 г., Гранада, Испания. СПб.: МАПРЯЛ; Гранада, 2015. Т. 2. С. 84-88.
Гольдин В. Е., Крючкова О. Ю. Тематическая разметка и тематический анализ диалектного текстового корпуса // Языковая личность - текст - дискурс: Теоретические и прикладные аспекты исследования: Материалы междунар. научн. конф.: В 2 ч. Ч. 1. Самара, 2006. С. 71-80.
Беридзе М. М., Надараиа Д. В. Словарь как текстовый компонент корпуса (Корпус грузинских диалектов) // Тр. междунар. конф. «Корпусная лингвистика 2011», 27-29 июня 2011 г., С.-Петербург. СПб., 2011. С. 92-97. URL: https:// events.spbu.ru/eventsContent/files/corpling/corpora2011/Beridze_92.pdf
Александров О. А. Диалектология восприятия: инновации в зарубежной лингвистике // Вестн. Иркут. гос. лингвистического ун-та. 2013. № 3(24). С. 52-58. URL: https://lib.mgpu.ru/materials/10/10912.pdf
 The project of Tomsk dialect corpus in keeping with trends of corpus linguistics development | Sibirskii Filologicheskii Zhurnal - Siberian Journal of Philology. 2018. № 3. DOI: 10.17223/18137083/64/18

The project of Tomsk dialect corpus in keeping with trends of corpus linguistics development | Sibirskii Filologicheskii Zhurnal - Siberian Journal of Philology. 2018. № 3. DOI: 10.17223/18137083/64/18