Подкорпус русской речи билингвов лингвистического корпуса «Томский региональный текст»: Принципы разметки и метаразметки корпуса
В статье представлено описание подкорпуса речи русскоязычных билингвов лингвистического корпуса «Томский региональный текст»: характеризуются особенности материала (тип двуязычия), предопределяющие необходимость коррекции разметки и метаразметки подкорпуса по отношению к основному корпусу. Цель создания подкорпуса речи билингвов - выявление грамматической и семантической интерференции первого языка (L1) в рамках второго (русского - в данном случае) языка (L2). Для этого в разметку корпуса вводятся специальные теги, которые маркируют факты интерференции.
Meta-data and annotation design of the Russian-speaking bilinguals speech subcorpus in the structure of the Tomsk Region.pdf Данная статья является продолжением серии публикаций, посвящённых Томскому региональному корпусу текстов, разрабатываемому в Лаборатории когнитивных исследований языка филологического факультета Томского государственного университета. Ранее были описаны ключевые параметры построения корпуса: принцип региональности [1], сбалансированность и репрезентативность [2, 3]. В рамках настоящей публикации обсуждаем проблемы разметки и метаразметки подкорпуса русской речи билингвов. Цель проекта по созданию корпуса «Томский региональный текст» - представить структуру общения на региональном варианте русского языка, характерном для Томска и Томской области. Корпус стремится к отображению полидискурсивности и к пропорциональному представлению языковой ситуации в регионе. Поскольку в настоящее время территорию Томской области населяют представители более 120 национальностей (русские -92,1%, татары - 1,7%, украинцы - 1,1%, немцы - 0,9%, чуваши -0,4%, узбеки - 0,4%, азербайджанцы - 0.4%, белорусы - 0.3% и др.) и функционирует более 40 национально-культурных объединений, включая 6 региональных и 15 местных национально-культурных автономий8, невозможно не учесть би- и полилингвизм как компонент языковой ситуации региона. Таким образом, появление подкорпуса обусловлено стремлением отразить языковое своеобразие Томской области. Подкорпус речи билингвов наследует некоторые черты учебных корпусов (learner corpora), эритажных корпусов (heritage language corpora) и корпусов ошибок (error corpora). Среди известных работ в этом направлении, на которые мы ориентировались, можно назвать корпус русского как иностранного и русского как эритажного языка RLC [7], международный корпус английского языка как иностранного ICLE [8], корпус немецкого языка Falko [9] и работы S. Granger [10, 11]. Специфика проектируемого нами подкорпуса считают в том, что в нём будет представлена речь людей, для которых русский язык не является первым, но уровень его освоения стремится к уровню владения первым языком. Кроме того, это не коллекция текстов, созданных в результате учебных заданий, а свободные беседы на определённые темы (работа, семья, язык). 1. Параметры метаразметки Цель создания подкорпуса речи билингвов - формирование лингвистически размеченного собрания текстов, отражающих специфику русского языка в условиях его существования в билингвальных ситуациях, а также ряд социокультурных характеристик билингвов, потенциально способных повлиять на способы функционирования языка. Специфика русской речи билингвов находит отражение в фиксации в системе разметки подкорпуса фактов языковой интерференции, которая проявляется в ошибках использования языковых единиц разного типа. В ме-таразметке корпуса фиксируется информация об этно- и социокультурных характеристиках билингвов - типе второго языка, степени овладения им, а также ряде социальных характеристик (см. далее). Соотнесение параметров разметки и метаразметки дает возможность пользователю подкорпуса делать целенаправленные выборки текстов, позволяющих соотнести тип языковой интерференции и социокультуные характеристики билингва. Своеобразие билингвальных ситуаций заключается в языке контактирования, который обусловливает влияние как на структуру русского языка, так и на речевую реализацию этого влияния. Поэтому нас интересует тип языка, который является контактирующим в каждой конкретной ситуации. Как следствие, в метаразметке подкорпуса появляется два особых параметра, а именно: этническая принадлежность говорящего и языки, которыми он владеет. Так как этническая принадлежность определяется человеком в силу самосознания и отнесения себя к какому-либо этносу, значение этого параметра для каждого текста определяется: а) в аудиозаписях - прямым опросом информантов; б) в архивных документах и виртуальных текстах - исходя из анализа косвенных текстовых данных. В исследованиях, посвящённых изучению параметров билингвизма, часто встаёт вопрос обозначения языковой пары. Существуют следующие пары терминов: родной - неродной (иностранный), первый - второй. Поскольку при попытке определить родной язык мы сталкиваемся с целым набором критериев, такими как первоочерёдность усвоения языка, принадлежность к определённому этносу, язык окружающего общества, уровень владения языком [12], из которых лишь первоочерёдность является неоспоримой, нам представляется разумным придерживаться пары терминов первый и второй языки, обозначив их, как это принято при исследовании билингвизма, соответственно L1 и L2. При этом язык исследуемого этноса может занимать любую из этих позиций. Аналогично данным об этнической принадлежности информанта данные о L1 и L2 информантов выявляются для устных текстов методом прямого опроса, в отношении архивных документов -предположительно исходя из анализа косвенных текстовых данных. При этом по аналогии со снятой и неснятой омонимией пользователь корпуса получает возможность работать как с текстами, где точно определены языковые пары, так и с текстами с неснятой неопределённостью. При изучении процессов овладения L2 важны социальная среда, тип овладения языком - бытовой, естественный, в ходе контактов с носителями или же учебный, системный, способ овладения языком. Значимым является не только путь, но и степень овладения языком. Согласно выработанным Советом Европы общеевропейским компетенциям выделяют три широких уровня владения языком: A (элементарное владение), B (самостоятельное владение) и C (свободное владение) - и два подуровня в каждом из них - A1 (уровень выживания), A2 (предпороговый уровень), B1 (пороговый уровень), B2 (пороговый продвинутый уровень) C1 (уровень профессионального изучения), C2 (уровень владения в совершенстве) [13]. Уровень владения языком, несомненно, влияет на степень интерференции, однако на данном этапе, без проведения специализированных тестов, мы можем оценить уровень владения тем или иным языком для каждого информанта лишь относительно. Согласно Вайнрайху этот относительный уровень владения можно определить, установив, какой язык является доминирующим вследствие того, что одним из языков билингв владеет лучше [14]. По сравнению с метаразметкой, приводимой для корпуса ICLE [8], мы не включаем в рассмотрение языковую технику автора текста и условия обучения, однако оставляем прочие параметры. Метаразметка подкорпуса билингвов включает: данные о месте и времени записи текста, Ф.И.О. собирателя, данные об информанте (Ф.И.О., пол, год рождения, образование, социальное положение, национальность, используемые языки L1, L2 и относительный уровень владения ими), данные о тексте (форма, тип, дискурс, субжанр, жанр, тема) (табл. 1). По сравнению с параметрами описания L1 и L2, приведёнными в корпусе немецкого языка Берлинского университета им. Гумбольдта Falko, мы не указываем время освоения L2 и языковое окружение, поскольку при рассмотрении письменных текстов начала XX в. эти данные точно установить невозможно. Таблица 1. Пример метаразметки в подкорпусе Информация о месте записи текста Томск Информация о времени записи текста Ноябрь 2014 Собиратель NNN Информант • ФИО NNN • Пол мужской • Год рождения 1935 • Образование среднее специальное • Социальное положение пенсионер • Этническая принадлежность татарин • L1 • Уровень владения татарский доминирующий • L2 русский • Уровень владения второстепенный Форма текста устный Тип текста диалог Дискурс личностный Группа субжанров информативные Жанр беседа Тема Семья (приезд внука) Таблица 2. Типология ошибок и тэги разметки Интерференционные ошибки по уровням языка Интерференционные ошибки в конкретных категориях и процессах #ДЕР# Деривационные ошибки #ПРЕ# #СУФ# Префиксация Суффиксация #ГР# Грамматические ошибки #РОД# #ЧИС# #ПАД# #НКЛ# #ВИД# #ВИД# #ЗЛГ# #РЕФ# Род Число Падеж Наклонение Вид Время Залог Рефлексивность #ЛЕКС# Лексические ошибки #ЗНЧ# #СОЧ# #L1# #L2# #L1+L2# Неверное значение Неверная лексическая сочетаемость Калькирование из первого языка Калькирование из второго языка Модифицированное заимствование, имеющее компоненты первого и второго языка #СИН# Синтаксические ошибки #ПОР# Неверный порядок слов В морфологической разметке в подкорпусе, как и в основном корпусе, фиксируются следующие параметры: морфологические категории, лексико-грамматические категории. К этому мы добавляем фиксирование отклоняющихся грамматических категорий. (1) кое-какое #ГР# #РОД# подвижка (2) больше пять #ГР# #ПАД# лет (3) Вот он у меня проучил #ГР# #РЕФ# там сентябрь, октябрь На лексическом уровне в основном корпусе предусматривается только распределение слов по лексико-семантическим группам. В подкорпусе маркируем заимствования из L1 или L2. Следовательно, вводится помета заимствованных слов: #L1#, #L2#: (4) Конечно / кызым #L1# / сейчас сложнее// Кроме того, при помощи тэгов будут отмечаться отклонения от лексического значения слова при интерферентных ошибках в лексико-семантической сочетаемости, изменение формы слова: (5) Какой он переводчик? Ну так/ для обзора #ЛЕКС# #ЗНЧ#. (6) ну отпишитесь дусларчики #ЛЕКС# #L1+L2#/// (7) Однако, в большинстве своем, танцам в Татарстане характерны #ЛЕКС# #СОЧ# светлые и добрые замыслы #ЛЕКС# #ЗНЧ#. Синтаксическая разметка в основном корпусе ориентирована на передачу дискурсивных особенностей речи в регионе и предполагает членение текста на формально-содержательные единицы (текст, блок, предложение) и характеристику риторических связей между ними (в соответствии с теорией риторической структуры У. Манна и С. Томпсон [18, 19]), обеспечивающих связность текста. В подкорпусе русской речи билингвов целевая направленность обусловливает введение дополнительных компонентов разметки, связанных с проявлением в структуре текста интерференционных влияний. Несмотря на то, что в русском языке нет устойчивого порядка слов, при нарушении устойчивых конструкций, обусловленном синтаксическими особенностями иного языка, данные факты размечаются тэгами #СИН#, #ПОР#: (8) Тот короче путь. #СИН# #ПОР# Выводы Итак, основным принципом разметки и метаразметки подкорпуса русской речи билингвов корпуса «Томский региональный текст» является в первую очередь соответствие принципам основной разметки и метаразметки всего корпуса. В метаразметке данного подкорпуса учитываются параметры «национальность» и «L1», «L2» - языки, которыми владеет информант. Для каждого из языков указывается приблизительный уровень владения. Для грамматической, семантической и синтаксической разметки подкорпуса русской речи билингвов важным является учёт фактов интерференции на всех уровнях языка. С этой целью была разработана классификация ошибок, которые могут быть обусловлены интерференцией, выявляемых на каждом уровне языка. На данный момент собрана начальная база текстов и ведётся её разметка. В ближайшей перспективе запланировано включение первичной разметки в программную оболочку (созданную под руководством В.В. Поддубного, см. [20]) и её тестирование. Апробация может привести к необходимости скорректировать изначальные параметры.
Ключевые слова
regional linguistics,
bilingual-ism,
language interference,
Russian,
linguistic corpora,
markup,
corpus linguistics,
русский язык,
языковая интерференция,
билингвизм,
региональная лингвистика,
лингвистическая разметка,
лингвистический корпус,
корпусная лингвистикаАвторы
Резанова Зоя Ивановна | Томский государственный университет | д-р филол. наук, зав. кафедрой общего, славянорусского языкознания и классической филологии, зав. лабораторией когнитивных исследований языка | resso@rambler.ru; resso@mail.tsu.ru |
Веснина Галина Юрьевна | Томский государственный университет | ассистент кафедры общего, славяно-русского языкознания и классической филологии, мл. науч. сотр. лаборатории когнитивных исследований языка | galina.y.vesnina@gmail.com |
Всего: 2
Ссылки
Литвиненко А.О. Описание структуры дискурса в рамках теории риторической структуры: применение на русском материале // Труды Междунар. семинара Диалог'2001 по компьютерной лингвистике и ее приложениям. - Аксаково, 2001. - С. 159-168.
Поликарпов А.А., Поддубный В.В., Кукушкина О.В., Кубарев А.И., Варламов А.А., Суровцева Е.В., Пирятинская Е.Ф. Комплексная тексто-анали-тическая система «СтилеАнализатор-2», основанная на Web-технологиях: разработка, наполнение данными и тестирование на прикладных задачах // Сайт лаборатории общей и компьютерной лексикологии и лексикографии МГУ, 2014,http://istina.msu.ru/ publications/ article/5848839/
Granger S. Error-tagged Learner Corpora and CALL:A Promising Synergy // CALICO Journal, 20 (3). - P. 465-480.
Mann William, Matthiessen Christian, Thompson Sandra A. Rhetorical structure theory: A Framework for the Analysis of Texts. Reprinted from IPRA Papers in Pragmatics. - Vol. 1. - Washington, 1987. - 22 р.
Diaz-Negrillo Ana & l Angel Garcia-Cumbreras M. A tagging tool for error analysis on learner corpora International Computer Archive of Modern and Medieval English. - URL: http:// clu.uni.no/icame/ij31/ij31-page197-204.pdf.
Вайнрайх У. Языковые контакты. - Киев: Вищ. шк., 1979. - 364 с.
Al-Jarf R. Spelling error corpora in EFL // US-China Foreign Language. Sino-US English Teaching. Vol. 7, No.1 (Serial No.73). - P. 6-15.
Common European Framework of Reference for Languages Learning, Teaching, Assessment. - Council of Europe, Language Policy Unit, Strasbourg, 1986. - URL: http://www.coe.int/lang-CEFR
Granger S. Corpus d'apprenants, annotation d'erreurs et ALAO: une synergie prometteuse // Cahiers de Lexicologie. - Vol. 91, no. 2. - P. 117-132. - URL: http:// hdl.handle.net/2078.1/75650 (дата обращения: 16.11.2014).
Granger S. The Learner Corpus: A Revolution in Applied Linguistics // English Today 39, Vol. 10, no. 3. - P. 25-29 (1994). - URL: http://hdl.handle.net/2078/75699. (дата обращения: 16.11.2014).
Чиршева Г.Н. Родной и неродной языки в условиях формирования раннего детского билингвизма // Филологический класс. - 2014. - №1 (35). - С. 101-104. -URL: http://cyberleninka.ru/article/n/rodnoy-i-nerodnoy-yazyki-v-usloviyah-formi rova niya- rannego-detskogo-bilingvizma (дата обращения: 17.11.2014).
Das Falko-Handbuch Korpusaufbau und Annotationen, Version 2.01 - Reznicek, Marc; Ludeling, Anke; Krummes, Cedric und andere (2012). - URL: http://www.linguistik.hu-berlin.de/institut/professuren/korpuslinguistik/forschung/falk (дата обращения: 16.11.2014).
International Corpus of Learner English v2. - URL: https://www.uclouvain.be/en-277586.html (дата обращения: 16.11.2014).
The Russian Learner Corpus (RLC). URL: http://web-corpora.net/ RussianLearner Corpus/search/ (дата обращения: 16.11.2014).
Официальный сайт Томского отделения "Росстата" [Электронный ресурс]. -URL: http://tmsk.gks.ru/wps/wcm/connect/rosstat_ts/tmsk/ru/statistics/ (дата обращения: 16.11.2014).
Резанова З.И. Дискурсивные стратегии презентации национально-культурной идентичности // Вестн. Том. гос. ун-та. Культурология и искусствоведение. - 2012. -№ 4 (8). - С. 40-54.
Национальные объединения. Администрация Томской области [Электронный ресурс]. - URL: http://tomsk.gov.ru/ru/grazhdanskoe-obschestvo/natsionalnye-ob-edineniya (дата обращения: 16.11.2014).
Резанова З.И. Лингвистический корпус «Томский региональный текст»: типологически релевантные параметры сбалансированности и репрезентативности // Вестн. Том. гос. ун-та. Филология. - 2015. - №1(33). - C. 38-50.
Мишанкина Н.А. Лингвистический корпус «Томский региональный текст»: теоретико-методологическое обоснование проекта // Вестн. Том. гос. ун-та. - 2014. -№ 389. - C. 28-37.
Sologub Olga, Rezanova Zoya, Temnikova Irina. The Concept of the Tomsk Regional Corpus: Balance and Representativeness // The XXV annual international academic conference, Language and culture, 20-22 October 2014 / Procedia - Social and Behavioral Sciences, 154 (2014). - P. 175-178.