Dialect Corpus Thematic Markup: The Experience of Tomsk Dialectologists
The article discusses an urgent problem in the field of corpus linguistics: the implementation of text markup by topic. It presents the experience of implementation of such a markup in the Tomsk dialect corpus. The research team has achieved impressive results: at the moment, the Tomsk dialect corpus contains 1,600 texts, divided into more than 20,000 thematic fragments, and is the most representative resource of this kind in Russia. The authors of the article interpret the practical experience of Tomsk researchers in a broad context against the background of decisions made by the developers of the Russian National Corpus and the emerging Russian dialect corpora. The authors identify factors that give rise to difficulties in the implementation of thematic markup of dialect texts by subject areas. The factors include: the oral nature of dialect communication (thus, a close connection of the text with the situation of its generation, overlapping or intersection of themes); in some cases, a weak degree of coherence of texts due to the peculiarities of fixing the material, difficulties in understanding the texts of local culture “from outside”, lack of a unified methodology for thematic markup. An analysis of the available developments in the field of creating regional corpora makes it possible to identify general techniques used in practice. The techniques include: manual thematic markup; hierarchy of the thematic list, which generally includes two levels of generalization; markup of the topic of separate text fragments, not the text as a whole; use of “soft” markup with the ability to assign several thematic labels to the same fragment and partial overlap of text fragments. The developers of the Tomsk dialect corpus propose specific methodological steps to implement thematic markup. The markup includes 3 stages: the person doing the markup (1) intuitively breaks the text into fragments united by a common content and determines these fragments’ boundaries preparatively; (2) determines the keywords of the fragment (based on the lists of keywords from the instructions) and, in some cases, the semantic dominant of the text; (3) identifies the final boundaries of the fragment and the choice of a topic from the available list. The list of topics for the markup in the Tomsk dialect corpus currently includes 77 items; it is not exhaustive and is gradually updated in the course of work. The potential content of the texts on each topic and the thematic belonging of the “controversial” fragments are determined as a result of group discussions. The user of the corpus can learn the details of these discussions by referring to the instructions posted on the website. The authors also briefly describe the technical side of thematic markup, provide samples of marked-up text fragments. The presented experience can be applied to create other corpus resources and used in the field of theoretical studies of dialect speech from the standpoint of discourse analysis.
Keywords
dialect corpus,
thematic markup,
Russian dialects of SiberiaAuthors
Zemicheva Svetlana S. | Tomsk State University | optysmith@gmail.com |
Ivantsova Ekaterina V. | Tomsk State University | ekivancova@yandex.ru |
Всего: 2
References
Текстовая разметка Томского диалектного корпуса // Томский диалектный корпус: Инструкция для пользователя. URL: http://losl.tsu.ru/sites/default/files/docs/ Topics_result.docx (дата обращения: 15.06.2020).
Матвеева Т.В. Функциональные стили в аспекте текстовых категорий: синхронно-сопоставительный очерк. Свердловск : Изд-во Урал. ун-та, 1990. 170 с.
Иванцова Е.В. Томский диалектный корпус: обоснование концепции и перспективы развития // Вестник Томского государственного университета. Филология. 2017. № 11. С. 54-70.
Юрина Е.А. Томский диалектный корпус: в начале пути // Вестник Томского государственного университета. Филология. 2011. № 2 (14). С. 58-63.
Задачи и принципы семантической разметки лексики в НКРЯ / Е.В. Рахилина [и др.] // Национальный корпус русского языка: 2006-2008. Новые результаты и перспективы. СПб., 2009. С. 215-239.
Буранова А.И. Тематическая организация диалектной речи : квантитативный анализ // Известия Саратовского университета. Новая серия. Сер. Филология. Журналистика. 2012. Т. 12, вып. 3. С. 35-38.
Косицина Ю.В. Статико-динамическая модель тематической организации диалектного монологического текста : автореф. дис.. канд. филол. наук. Кемерово, 2013. 26 с.
Банкова Т.Б. Словарь сибирского свадебного обряда. Томск : Изд-во Том. ун-та, 2018. Т. 1. 198 с.
Крючкова О.Ю., Гольдин В.Е. Корпус русской диалектной речи: концепция и параметры оценки // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог», Бекасово, 25-29 мая 2011 г. М., 2011. Вып. 10 (17). С. 359-367.
Словарь детства: говоры Среднего Приобья (с лингвокультурологическим комментарием) / под ред. М.М. Угрюмовой. Томск : Изд-во Том. ун-та, 2018. 200 с.
Иванцова Е.В. Вариативность реализации ключевого концепта ХЛЕБ в разных типах русской речевой культуры // Актуальные проблемы и перспективы русистики: материалы по итогам Международной конференции русистов в Барселонском университете, 20-22 июня 2018. Barcelona, 2018. С. 1172-1181.
Смирнов Е.С. Ценностные доминанты ангарцев в устных текстах о «своих» // Известия Волгоградского государственного педагогического университета. 2019. № 6 (139). С. 140-143.
Демешкина Т.А. Мир природы в зеркале диалекта (на материале концепта «Болото») // Вестник Томского государственного университета. Филология. 2019. № 62. С. 85-103.
Демешкина Т.А «Ссылка» как феномен сибирской лингвокультуры // Вестник Томского государственного университета. Филология. 2018. № 56. C. 34-46.
Волошина С.В., Толстова М.А. Репрезентация концепта «Богатство» в диалектном дискурсе: константы и трансформации // Вестник Томского государственного университета. Филология. 2018. № 55. С. 17-28.
Земичева С.С. Взаимосвязь тематики диалектного текста и пола говорящего (на материале Томского диалектного корпуса) // Актуальные проблемы и перспективы русистики: материалы по итогам Международной конференции русистов в Барселонском университете, 20-22 июня 2018. Barcelona, 2018. С. 491-500.
Земичева С.С. Новые темы диалектного дискурса (на материале Томского диалектного корпуса) // Труды международной конференции «Корпусная лингвистика-2019». СПб., 2019. С. 280-287.
Лавров Д.Н., Харламова М.А., Костюшина Е.А. Представление разметки корпуса народной речи Среднего Прииртышья // Математические структуры и моделирование. 2018. № 4 (48). С. 85-91.
Диалектный подкорпус. // Электронный текстовый корпус лингвокультуры северного Приангарья. URL: http://angara.sfu-kras.ru/?page=dialect# (дата обращения: 02.05.2020).
Диалектный корпус // Региональная этнолингвистика. URL: https://ethnolex.ru/ kubdk/ (дата обращения: 12.03.2020).
Трегубова Е.Н. Многоуровневая тематическая разметка как инструмент этнолингвистической репрезентации диалектного дискурса в электронном текстовом корпусе // Вестник Томского государственного университета. Филология. 2015. № 1 (33). С. 66-77.
Качинская И.Б. Диалектный подкорпус НКРЯ: Новый стандарт подачи. Новое рабочее место // Русская устная речь: материалы международной научной конференции «Баранниковские чтения. Устная речь: русская диалектная и разговорно-просторечная культура общения» и межвузовского совещания «Проблемы создания и использования диалектологических корпусов», Саратов, 15-17 ноября 2010 г. Саратов, 2011. С. 239-248.
Саратовский диалектный корпус: новый научный и образовательный ресурс: Концепция, методические материалы / сост. Крючкова О.Ю., Гольдин В.Е. Саратов, 2010. 39 с.
Гольдин В.Е., Крючкова О.Ю. Тематическая разметка и тематический анализ диалектного текстового корпуса // Языковая личность - текст - дискурс: теоретические и прикладные аспекты исследования: материалы международной научной конференции : в 2 ч. Самара, 2006. Ч. 1. С. 71-80.
Гольдин В.Е. Теоретические проблемы коммуникативной диалектологии : дис.. д-ра филол. наук в виде науч. докл. Саратов, 1997. 52 с.
Летучий А.Б. Корпус диалектных текстов: задачи и проблемы // Национальный корпус русского языка: 2003-2005. М., 2005. С. 215-232.
Шаров С.А. Представительный корпус русского языка в контексте мирового опыта // Научно-техническая информация. Серия «Информационные процессы и системы». 2003. № 6. С. 9-18. URL: http://lamb.viniti.ru/sid2/sid2free?sid2=J0338267X35 (дата обращения: 10.05.2020).
Савчук С.О. Метатекстовая разметка в Национальном корпусе русского языка: базовые принципы и основные функции // Национальный корпус русского языка: 20032005. Результаты и перспективы. М., 2005. С. 62-88.
Копотев М.В. Введение в корпусную лингвистику : учебное пособие для студентов филологических и лингвистических специальностей университетов. Прага : Animedia Company, 2014. 195 с.
Topic // EAGLES. Preliminary Recommendations on Text Typology. EAG-TCWG- TTYP/P. Version of Jun 1996. URL: http://www.ilc.cnr.it/EAGLES96/texttyp/node21.html# SECTION00070000000000000000 (дата обращения: 15.05.2020).