Tomsk Dialect Corpus: substantiation of the concept and prospects of development
The creation of a dialectal corpus is one of the topical problems for the Tomsk Dialectology School, the oldest research center for studying the folk speech culture of Siberia. The paper describes the general concept of the corpus, the substantiation of its purposes, the characteristics of the principles of meta-markup: the objectives of developing the new resource in the near and distant future are outlined. The concept of the Tomsk Dialect Corpus is developed taking into account the key directions of the school on the study of folk speech that correlate with the achievements of the modern science of language, and with the nature of the materials available to dialec-tologists. The orientation of the new electronic resource can be defined as lexis- and text-centric. The main form of representation of the Middle Ob dialects in the corpus is a text with an orthographic representation of separate features of oral speech. Reliance on this principle will allow to unify the representation of the diverse archive: from the first manuscript expedition notebooks to digital audio recordings of recent years. The chosen method of representation of the sounding dialect speech can be considered universal for lexicological, linguocultural, discursive and lexicographic research. Refusal from transcription is partly compensated by the possibility of accessing the existing audio records and scanned manual records of early expeditions. The main types of meta-markup of texts entered into the corpus are developed: passport, thematic and markup by type of text. Passport meta-markup includes extra-linguistic data about the texts entered in the corpus: instructions on the place and time of the recording, information about the informant, the type of recording (by hand / from the tape / recorder), the presence / absence of audio and video files, etc. Thematic meta-markup is made on the basis of an inductive analysis of the discursive practice of old-timers, with the identification of particular topics and their generalization to macro-topics. Each topic is three levels deep maximum. The principle of "soft" thematic division of the fixed speech stream is used with the possibility of overlapping the boundaries of the extracted texts and/or simultaneous attribution of one fragment of the text to several topics. Markup by type of text at this stage implies: a) indications of text varieties that differ in the degree of the spontaneity of speech manifestations (dialogues between dialect speakers, situational inclusions arising from deviations from a purposeful conversation with dialectologists, episodic metatexts, answers to questionnaires); b) the most frequent speech genres (autobiographical story, recollection, stories about other people, stories about an event, folklore genres). The first step on the way to lexical marking will be an opportunity to give an interpretation of the meaning of nonliterary units included in the differential dictionaries of the Middle Ob region. Prospects for the development of the corpus include development of the indicated types of meta-markup, introduction of lexical markup, the integration of its data with the created electronic library of dialect dictionaries and other auxiliary resources.
Keywords
русские говоры Сибири,
Среднее Приобье,
диалектный корпус,
концепция,
Russian dialects of Siberia,
Middle Ob region,
dialect corpus,
conceptAuthors
Ivantsova Ekaterina V. | Tomsk State University | ekivancova@yandex.ru |
Всего: 1
References
Юрина Е.А. Томский диалектный корпус: в начале пути // Вестн. Том. гос. унта. Филология. - 2011. - №2 (14). - С. 58-63. URL: http://vital.lib.tsu.ru/vital/access/manager/Repository/vtls:000458543
Юрина Е.А., Толстова М.А. Проект диалектного корпуса старожильческих говоров Среднего Приобья // Русская устная речь: материалы междунар. науч. конф. «Баранниковские чтения. Устная речь: русская диалектная и разговорно-просторечная культура общения» и межвуз. совещания «Проблемы создания и использования диалектологических корпусов», Саратов, 15-17 ноября 2010 г. - Саратов, 2011. - С. 269-276.
Трегубова Е.Н., Емельянова М.В. Региональный лингвокультурологический корпус как электронный ресурс изучения народной аксиологии // Россия и славянский мир в контексте многополярности: материалы VII междунар. науч. конф., 69 августа 2010 г., Славянск-на-Кубани. - Ч. 2, разд. 2. - Славянск-на-Кубани, 2010. -С. 142-150. - URL: http://www.ethnolex.ru/2014-11-12-19-24-30/75-2014-10-09-20-33-55.html
Кубрякова Е.С. Эволюция лингвистических идей во второй половине ХХ века (опыт парадигмального анализа) // Язык и наука конца ХХ века. - М., 1995. - С. 144238.
Летучий А.Б. Корпус диалектных текстов: задачи и проблемы // Национальный корпус русского языка: 2003-2005: Результаты и перспективы. - М., 2005. -С.215-233.
Качинская И.Б., Сичинава Д.В. Диалектный подкорпус сегодня // Тр. Ин-та русского языка им. В.В. Виноградова РАН. - 2015. - № 6 (6). - С. 142-163.
Трегубова Е.Н. Многоуровневая тематическая разметка как инструмент этнолингвистической репрезентации диалектного дискурса в электронном текстовом корпусе // Вестн. Том. гос. ун-та. Филология. - 2015. - № 1 (33). - С. 66-77. URL: http://vital.lib.tsu.ru/vital/access/manager/Repository/vtls:000502349
Задумина П.Н. О некоторых особенностях создания мультимедийного корпуса региональных текстов // Молодые исследователи - регионам: материалы между-нар. науч. конф. - 2004. - Т. 3. - С. 194-196. - URL: http:// sno.vstu.edu.ru/wp-content/uploads/2014/09/t-3.pdf
Крючкова О.Ю., Гольдин В.Е. Корпус русской диалектной речи: концепция и параметры оценки // Компьютерная лингвистика и интеллектуальные технологии: Тр. междунар. конф. «Диалог-2011». - С. 359-367. - URL: http://www.dialog-21.ru/digests/dialog2011/materials/html/36.htm
Русские говоры Среднего Приобья / ред. В.В. Палагина. - Томск: Изд-во Том. ун-та, 1985-1989. - Ч. 1. URL: http://vital.lib.tsu.ru/vital/access/manager/Repository/vtls:000040233
Русские говоры Среднего Приобья / ред. В.В. Палагина. - Томск: Изд-во Том. ун-та, 1985-1989. - Ч. 2. URL: http://vital.lib.tsu.ru/vital/access/manager/Repository/vtls:000109795
Томская диалектологическая школа: историографический очерк / под ред. О.И. Блиновой. Томск: Изд-во Том. ун-та, 2006. - 392 с. URL: http://vital.lib.tsu.ru/vital/access/manager/Repository/vtls:000222288
Словарь русских старожильческих говоров средней части бассейна р. Оби / ред. В.В. Палагина. - Томск: Изд-во Том. ун-та, 1964. - Т. 1. - 143 с. URL: http://vital.lib.tsu.ru/vital/access/manager/Repository/vtls:000131153
Гольдин В.Е., Крючкова О.Ю. Тематическая разметка и тематический анализ диалектного текстового корпуса // Языковая личность - текст - дискурс: теоретические и прикладные аспекты исследования: материалы междунар. науч. конф.: в 2 ч. -Ч. 1. - Самара, 2006. - С. 71-80.
Буранова А.И. Тематическая организация диалектной речи: квантитативный анализ // Изв. Сарат. гос. ун-та. - Нов. сер. - Сер. Филология и журналистика. -2012. - Т. 12, вып. 3. - С. 35-38.
Косицина Ю.В. Статико-динамическая модель тематической организации диалектного монологического текста: автореф. дис.. канд. филол. наук. - Кемерово, 2013. - 26 с.
Иванцова Е.В. Живая речь русских старожилов Сибири: сб. текстов. - Томск, 2007. - 104 с. URL: http://vital.lib.tsu.ru/vital/access/manager/Repository/vtls:000241033
Ростова А.Н. Метатекст как форма экспликации метаязыкового сознания (на материале русских говоров Сибири). - Томск: Изд-во Том. ун-та, 2000. - 194 с.
Апресян Ю.Д., Богуславский И.М., Иомдин Б.Л. и др. Синтаксически и семантически аннотированный корпус русского языка: современное состояние и перспективы // Национальный корпус русского языка: 2003-2005: Результаты и перспективы. - М., 2005. - С. 193-214.