Томский диалектный корпус: в начале пути
В статье представлен проект создания машинного корпуса текстов говоров Среднего Приобья, нацеленный на перевод диалектного архива в формат электронного корпуса с возможностями разноаспектного поиска. Дается краткая характеристика диалектного архива; определяются актуальные задачи и этапы работы; рассматриваются параметры разметки текстового массива. Подробно характеризуются параметры метаразметки, включающие паспортизацию текста, тематические и жанровые определители.
Tomsk dialectal corpora: the starting point.pdf Подзаголовок «в начале пути» в контексте без малого семидесятилетнейнаучной деятельности Томской диалектологической школы звучит парадок-сально. Первые наблюдения относительно говоров Среднего Приобья былисделаны А.Д. Григорьевым в 1917-1918 гг. А начало их комплексного иссле-дования датируется 1946 г. Именно в этом году состоялась первая послевоен-ная диалектологическая экспедиция, которую проводили томские лингвистыв соответствии с планом работ Института русского языка АН СССР по сборуматериалов к «Диалектологическому атласу русского языка». Для обследова-ния были выбраны старожильческие сёла, основанные первопоселенцами:Томский район - сёла Вершинино и Батурино; Туганский район - сёла Хал-деево, Турунтаево, Подломск и др. Источником изучения выступала живаяразговорная речь сельских жителей.Со временем определились типичные фонетические, лексические и грамма-тические черты речи сибирских старожилов: аканье (па нача`м), иканье (гри-чи`ха), долгие твердые шипящие (та`шшыт), стяжённые формы местоимений,прилагательных и глаголов (така` харо`ша) и др. О.И. Блиновой была предло-жена трактовка термина «русский старожильческий говор Сибири» с опорой насовокупность фонетико-грамматических и лексических черт [1]. Полная харак-теристика исследуемых говоров, представляющих собой особый тип вторичногосибирского старожильческого говора с северной диалектной основой, изложенав коллективной монографии «Русские говоры Среднего Приобья» [2, 3]. В книгеописаны типологические черты среднеобского диалекта и дана языковая харак-теристика каждой группы говоров в его составе: Нарымской, Прикетской, При-обской, Притомской, Причулымской [2. С. 30-33].Первые тетради были записаны в транскрипции: «па фс'о`j но`чигул'а`jут / д'ефк'и да роб'а`ты…» (1946 г.). Впоследствии речь информантазаписывалась на магнитофон, а затем расшифровывалась в так называемой«полутранскрибции». В этих записях употреблялисьударение, если оно не отличалось от литературного, ставились знаки препи-нания, писались заглавные буквы.В результате за 66 лет работы коллективом томских диалектологов былообследовано свыше 400 населенных пунктов Томской и Кемеровской облас-тей. На сегодня архив представлен 1500 тетрадями с записями диалектнойречи, отражающей русские старожильческие говоры Среднего Приобья. Набазе данного материала были созданы картотеки диалектных словарей болеечем на 1 000 000 единиц: «Среднеобского диалектного дифференциальногословаря» [4, 5], «Словаря диалектно-просторечной лексики» [6], «Полногословаря говора села Вершинино» [7], «Полного словаря диалектной лично-сти» [8] и целого ряда других словарей разного типа (мотивационного, об-разных слов и выражений, антонимов и др.). Библиотека среднеобских слова-рей насчитывает 46 томов.Материалы архива являют собой уникальный памятник народной речевойкультуры, бесценный источник исследования истории и современного со-стояния диалектной формы русского национального языка. На базе словарей,картотек и текстовых записей проводится широкий круг разноаспектных ис-следований, связанных не только с описанием процессов и феноменов диа-лектного дискурса, но и с решением важнейших теоретических и методоло-гических вопросов лингвистики. Это такие проблемы, как мотивированностьязыкового знака, лексико-семантические категории (мотивированность, об-разность, интенсивность, оценочность, экспрессивность), категории традици-онной народной и речевой культуры, языковое миромоделирование, жанрыречи, языковая личность диалектоносителя, метаязыковое сознание личности,лексикографический метод, метод полевого исследования языковых катего-рий и др. (см. подробнее в [9]).Задача создания электронного варианта текстового архива говоров Сред-него Приобья, а также компьютерного словаря среднеобского диалекта на-зрела давно. Её актуальность была осознана уже двадцать лет назад, в периодстановления отечественной компьютерной лингвистики. Именно в конце1980-х гг. Г.А. Раков, заведовавший кафедрой русского языка ТГУ с 1990 по1994 г., начал исследовательскую деятельность, связанную с созданием ма-шинного идеографического словаря среднеобских говоров [10-12]. Им былаорганизована работа исследовательской группы, в которую входили молодыепреподаватели кафедры М.В. Курышева, Г.В. Калиткина, В.Г. Наумов, аспи-ранты С.Г. Комков, студенты С. Родионова, И. Колмыкова. Велись работыпо компьютерному набору диалектных текстов, автоматическому созданиюконкорданса, семантической разметке словарного массива. К сожалению,разработки были прерваны в связи с трагическим уходом из жизни этого за-мечательного человека и ученого, а созданные в то время электронные мате-риалы утрачены.За последние десятилетия компьютерные технологии шагнули далековперед. Мы наблюдаем расцвет корпусной лингвистики на базе интернет-технологий. В 2004 г. начал функционировать Национальный корпус русско-го языка [13]. Работа над созданием электронных корпусов русской диалект-ной речи ведется во многих научных центрах России: Институте русскогоязыка РАН в рамках проекта «Национальный корпус русского языка» [14], вИнституте лингвистических исследований РАН, Санкт-Петербургском, Сара-товском [15, 16] и других государственных университетах.Создание диалектного корпуса на материале говоров Среднего Приобьякрайне необходимо. Уже имеется некоторый задел в виде базы электронныхтекстов (около 10% от имеющегося рукописного архива), компьютерный на-бор которых осуществлен диалектологами-исследователями и студентами,проходившими диалектологическую практику. И если 20 лет назад, в периодстановления компьютерной лингвистики, актуальность исследований быласвязана с поиском и разработкой методов компьютерной обработки тексто-вых массивов, то сегодня перед Томской диалектологической школой стоятне менее актуальные задачи прикладного характера. Они состоят в эффек-тивном использовании уже имеющихся в арсенале корпусной лингвистикитехнологий, позволяющих сохранить архив, наиболее ранние записи которо-го находятся в аварийном состоянии; создать максимально полные текстовуюи словарную базы данных и осуществлять их ведение; оптимизировать поискданных, их статистическую обработку и анализ при помощи современнойпрограммной платформы (составление конкордансов, словников, подкорпу-сов, соответствующих исследовательским задачам). Применение имеющихсяв арсенале корпусной лингвистики методов позволит вывести исследованияТомской диалектологической школы на новый уровень, соответствующийсовременным техническим возможностям.Для решения поставленной задачи в 2010 г. группой томских диалектоло-гов и программистов (Е.А. Юрина, В.В. Поддубный, С.В. Волошина,М.А. Толстова, О.Г. Шевелев) разработан проект создания диалектного Кор-пуса говоров Среднего Приобья. В результате работы планируется полныйперевод рукописных текстов на электронные носители, проведение лингвис-тической разметки текстов с целью последующей машинной обработки, соз-дание программ по автоматизированной разметке текстов, машинному поис-ку, анализу результатов поиска(дошш, дожжа`, ешшо`); для обозначения мягкости согласных используетсясимвол ь (зерькало); мягкое [ш'] передается буквой щ (тащмя`-то); у несло-говое передаётся символом ў (война когда быўа`); г фрикативное обозначает-ся как γ; твердость согласных перед гласными переднего ряда передается бу-квами, обозначающими соответствующие гласные непереднего ряда: э, ы, а(вобшэ`-то). В словах с диалектными особенностями проставляется ударение.Например: «И`гры вся`ки ра`зны были. Пляса`ля ши`бко. У нас был Введе`нье[праздник]. Отку`пишь дом на три-четыре дня. Деньги соберёшь с молодё-жья. Отдашь хозяину. Поу`жинашь вечером и на вечёрку. В дома`-то таки`.Для молодёжу» (с. Вершинино Том. обл., Вершинин И.В., 1909 г.р.).2. Проведение метаразметки массива диалектных текстов, задающей пара-метры паспортизации текстов, квалификации тематики и жанровой специфики.Паспортная часть включает сведения об информантах, о времени и месте за-писи, собирателе, номере тетради. Далее параметризацию метаразметки продол-жает квалификация тематики и жанровой специфики диалектного текста.Тематическая характеристика включает указание на время описываемыхсобытий (двадцатые 20в; тридцатые 20в; сороковые 20в и т.д.) и собственнотематику, которая задается через указание на ключевой концепт, определяю-щий смысловое единство текста (Война, Семья, Огород, Колхоз, Дом т.д.).Анализ тематики диалектных записей выявил ключевые понятия традицион-ной крестьянской культуры, актуализированные в дискурсивной практике си-бирских старожилов. Номинации этих концептов составляют основной списокмаркеров тематической метаразметки, в который также включаются определе-ния тем, связанных с оценкой жизни и оценкой человека, с происшествиями, идругими явлениями, составляющими обыденную жизнь крестьянина.Приведем полный список тематических определителей: Семья. Одно-сельчане. Любовные связи. Чужие (буряты, хакасы, татары, ссыльные, город-ские и т. д.). История села. Город. Дом. Постройки. Труд. Колхоз. Орудиятруда. Профессия. Огород. Сенокос. Картофель. Лён. Животноводство. Пче-ловодство. Кедровый промысел. Рыбалка. Охота. Лесозаготовка. Строитель-ство. Ремесло. Ягоды. Грибы. Цветы и травы. Болезни и лечение. Еда. Посу-да. Одежда. Пьянство. Церковь. Колдовство и суеверия. Приметы. Обряды.Сватовство. Свадьба. Похороны. Крестины. Праздники. Развлечения. Погода.Природа. Политика. Исторические личности. Война. Революция. Коллекти-визвция. Происшествия. Оценка современности. Оценка человека.Жанровая характеристика текста задается через указание на жанр текста,обусловленный типом речи и характером речевого произведения в целом.Опираясь на результаты исследований О.А. Казаковой [16] и С.В. Волошиной[17], мы выделили такие жанры, как биографический рассказ, сюжетный рас-сказ, описание, рассуждение, интервью, сказка, песня, частушка, пословица.Завершает жанровую квалификацию указание на реализованный в текстесубжанр (речевой жанр). В метаразметке используется следующая парамет-ризация реализованных в диалектном тексте субжанров:Информативные: сообщение о событии, сообщение о намерении, сооб-щение о мнении, сообщение-цитирование, предположение, объяснение, жа-лоба, предупреждение.Императивные: просьба, распоряжение, поручение, приказ, предложение,совет.Ритуальные: приветствие, прощание, извинение, благодарность, пригла-шение, угощение, пожелание.Оценочные: похвала, осуждение, самооценка, оценка.Образец записи: Информ_сообщение о намерении, Импер_поручение,Ритуал_извинение, Оцен_похвала.Паспортная часть и другие параметры метаразметки предваряют диа-лектный текст в следующей записи:#МестоЗаписи с. Вершинино, Томский район, Томская область#МестоЗаписиКоротк Верш#ДатаЗаписи 1991#Информант Вершинин Иван Васильевич#ИнформантКоротк ВершининИВ#ИнформантПол муж#ИнформантГодРожд 1906#ИнформантМестоРожд Неизв_информантместорожд#ИнформантОбразов Неграмотн#Собиратель МихалеваЕВ#Тетрадь 1168#Тематика Семья, Война, Свадьба, Праздники, Развлечения, Кедровыйпромысел, Труд#ВремяСобытий двадцатые 20в, сороковые 20в#Жанр Биографический рассказ#Субжанр Информ_сообщение о событииДалее за паспортной частью следует запись диалектного текста. Приве-дем в качестве примера короткий фрагмент записи речи указанного диалек-тоносителя:Я-то на Курской дуге воевал. Орёл - Ку`рска дуга. У-у, деточки мое`, все-го там насмотрелись. Чего только не ви`дывали. Взя`тый в сорок второмгоду был. А так оставляли все по семейному положению. Дети были. Чё.Пришел в ноябре сорок пятого. Везде были, все видели. В Литве был, в Гер-мании был, в Норвегии был. В лагере, в плену. Ехали через Швецию, Финлян-дию. Старуха не ждала уж. Всё, грит, по`мер, наверно. ...Пой там ей-ей.Было. Самолеты, орудия, минометы. Дело было горя`че. Орёл... Ку`рска дуга.3. Создание сводного электронного словаря говоров Среднего Приобья.Решение этой задачи предполагает формирование базы электронных версийвсех диалектных среднеобских словарей, а также создание и разметку свод-ного словника. Сводный словарь будет включать список всех лексем и ихвариантов (акцентологических, фонематических, словообразовательных, мор-фологических); список морфологических форм лексем; указание постоянныхи изменяемых морфологических признаков; толкование лексических значе-ний; квалификацию единицы с точки зрения соотношения с формами нацио-нального языка (общерусское, диалектное, диалектно-просторечное, диа-лектный вариант общерусского слова); квалификацию семантическихсвойств слова (мотивированное/немотивированное, экспрессивное/нейтраль-ное, образное, оценочное, интенсивное и т.д.); стилистическую маркирован-ность (народно-поэтическое, сниженное, бранное).4. Разработка и создание программной платформы корпуса, позволяющейосуществлять автоматизированную разметку текстов, хранить лингвистиче-ские базы данных, осуществлять многоаспектный поиск по заданным пара-метрам языковых единиц, проводить статистическую обработку материала,сохранение результатов поиска.Решение намеченных в начале исследовательского пути задач связано сосуществлением большого объема практической работы. И тот факт, что к еёосуществлению с большим энтузиазмом подключаются студенты и аспиран-ты филологического факультета ТГУ, внушает разработчикам чувство опти-мизма и уверенность в успехе.
Ключевые слова
Томский диалектный корпус,
параметры метаразметки,
говоры Среднего Приобья,
Tomsk dialectal corpora,
meta-tagging parameters,
the Middle-Ob dialectsАвторы
Юрина Елена Андреевна | Томский государственный университет | д-р филол. наук, профессор кафедры русского языка | yourina2007@yandex.ru |
Всего: 1
Ссылки
Блинова О.И. О термине «старожильческий говор Сибири» // Вопросы языкознания и сибирской диалектологии. Томск, 1971. Вып. 2. С. 3-8.
Русские говоры Среднего Приобья / О.И. Блинова, Л.Г. Гынгазова, Л.А. Захарова и др.; ред. В.В. Палагина. Ч. 1. Томск: Изд-во Том. ун-та, 1985. 205 с.
Русские говоры Среднего Приобья / О.И. Блинова, О.И. Гордеева, М.Н. Янценецкая и др.; ред. В.В. Палагина. Ч. 2. Томск: Изд-во Том. ун-та, 1989. 324 с.
Словарь русских старожильческих говоров средней части бассейна р. Оби / сост. О.И. Блинова, Ф.П. Иванова, В.В. Палагина, О.М. Соколов, М.Н. Янценецкая; ред. В.В. Палагина. Томск: Изд-во Том. ун-та, 1964. Т. 1: А-Е. 143 с.; 1965. Т. 2: Ж-О. 233 с.; 1967. Т
Среднеобский словарь: (Дополнение) / сост. Л.Г. Гынгазова, Т.А. Демешкина, Н.Г. Не- стерова и др.; ред. В.В. Палагина. Томск: Изд-во Том. ун-та, 1983. Ч. 1: А-К. 180 с.; 1986. Ч. 2: П-Я. 212 с.
Словарь просторечий русских говоров Среднего Приобья / Сост. О.И. Блинова, В.В. Палагина, С.В. Сыпченко и др.; ред. О.И. Блинова. Томск: Изд-во Том. ун-та, 1977. 183 с.
Вершининский словарь / сост. Т.Б. Банкова, О.И. Блинова, Е.В. Иванцова, В.В. Палагина и др.; Гл. ред. О.И. Блинова. Томск: Изд-во Том. ун-та, 1998. Т. 1: А-В. 308 с.; 1999. Т. 2: Г-З. 309 с.; 2000. Т. 3: И-М. 318 с.; 2001. Т. 4: Н-О. 368 с.; Т. 5: П. 512
Полный словарь диалектной языковой личности / сост. О.И. Гордеева, Л.Г. Гынгазова, Е.В. Иванцова и др.; под ред. Е.В. Иванцовой. Томск: Томск: Изд-во Том. ун-та, 2006. Т. 1: А-З. 358 с.; Т. 2: И-О. 338 с.; Т. 3: П-Р. 324 с.
Томская диалектологическая школа: историограф. очерк / под ред. О.И. Блиновой. Томск: Изд-во Том. ун-та, 2006. 392 с.
Раков Г.А. Принципы отбора языковых данных при составлении словаря народного говора на машинном носителе // II Всесоюз. конф. по созданию Машинного фонда русского зыка. М., 1987.
Раков Г.А. Автоматический словарь народного говора как фрагмент Машинного фонда русского языка // III Всесоюзн. конф. по созданию Машинного фонда русского зыка. М., 1989.
Раков Г.А. Диалектные словари и ЭВМ: Подготовка данных и некоторые результаты сравнения // Русские говоры Сибири: Семантика. Томск, 1995. С. 53-62.
http://www.ruscorpora.ru
Летучий А.Б. Корпус диалектных текстов: задачи и проблемы // Национальный корпус русского языка: 2003-2005. Результаты и перспективы. М., 2005. с. 215.
Гольдин В.Е. К проекту текстового диалектологического подфонда Машинного фонда русского языка // Докл. III Всесоюз. конф. по созданию машинного фонда русского языка. М., 1990.
Казакова О.А. Диалектная языковая личность в жанровом аспекте. Томск: Изд-во Том. политехн. ун-та, 2007. 196 с.
Волошина С.В. Речевой жанр автобиографического рассказа (на материале диалектной речи) // Вестн. Том. гос. ун-та. Филология. 2010. № 2 (10). С. 5-10.