Meta-data and annotation design of the Russian-speaking bilinguals speech subcorpus in the structure of the Tomsk Regional Corpus..29 Sidorenko K.P. On the principles of the dictionary of intertextual units from I.A. Krylov's fables
This article continues a series of publications devoted to the Tomsk Regional Corpus of texts developed by the Laboratory for Cognitive Studies of Language of the Faculty of Philology, Tomsk State University. The purpose of the project of the Tomsk Regional Corpus is to present the structure of communication in the regional version of the Russian language typical of Tomsk and Tomsk Oblast. The corpus tends to display the polydiscursivity and the proportional representation of the linguistic situation in the region. The subcorpus of bilinguals' speech inherits some features of learner corpora, heritage language corpora and error corpora. The article describes the Russian-speaking bilinguals speech subcorpus of the Tomsk Regional Text corpus: features of the material (type of bilingualism) that determine the need for markup and meta-markup correction of the subcorpus in relation to the main corpus are characterized. The meta-markup of the bilinguals' subcorpus includes: data on the place and time of text recording, the collector's name, data about the informant (name, gender, year of birth, education, social status, nationality, languages used (L1, L2) and their level), data about the text (form, type, discourse, subgenre, genre, topic). The purpose of the bilinguals speech subcorpus is to identify the grammatical and semantic interference of the first language (L1) with the second (Russian in our case) language (L2). Thus, the morphological markup of the subcorpus, like that of the main corpus, registers the following parameters: morphological categories, lexical and grammatical categories. The authors also register the deviating grammatical categories. The syntactic markup in the main corpus is focused on the reflection of the discursive features of speech in the region, and involves division of the text into formal and substantive units (text, block, sentence) and description of rhetorical links between them that ensure coherence of the text. The purpose of the subcorpus of the Russian speech of bilinguals requires the introduction of additional markup components connected with the interference effects that show in the structure of the text. The corpus markup uses special tags that mark the facts of interference.
Keywords
regional linguistics,
bilingual-ism,
language interference,
Russian,
linguistic corpora,
markup,
corpus linguistics,
русский язык,
языковая интерференция,
билингвизм,
региональная лингвистика,
лингвистическая разметка,
лингвистический корпус,
корпусная лингвистикаAuthors
Rezanova Zoya I. | Tomsk State University | resso@rambler.ru; resso@mail.tsu.ru |
Vesnina Galina Yu. | Tomsk State University | galina.y.vesnina@gmail.com |
Всего: 2
References
Литвиненко А.О. Описание структуры дискурса в рамках теории риторической структуры: применение на русском материале // Труды Междунар. семинара Диалог'2001 по компьютерной лингвистике и ее приложениям. - Аксаково, 2001. - С. 159-168.
Поликарпов А.А., Поддубный В.В., Кукушкина О.В., Кубарев А.И., Варламов А.А., Суровцева Е.В., Пирятинская Е.Ф. Комплексная тексто-анали-тическая система «СтилеАнализатор-2», основанная на Web-технологиях: разработка, наполнение данными и тестирование на прикладных задачах // Сайт лаборатории общей и компьютерной лексикологии и лексикографии МГУ, 2014,http://istina.msu.ru/ publications/ article/5848839/
Granger S. Error-tagged Learner Corpora and CALL:A Promising Synergy // CALICO Journal, 20 (3). - P. 465-480.
Mann William, Matthiessen Christian, Thompson Sandra A. Rhetorical structure theory: A Framework for the Analysis of Texts. Reprinted from IPRA Papers in Pragmatics. - Vol. 1. - Washington, 1987. - 22 р.
Diaz-Negrillo Ana & l Angel Garcia-Cumbreras M. A tagging tool for error analysis on learner corpora International Computer Archive of Modern and Medieval English. - URL: http:// clu.uni.no/icame/ij31/ij31-page197-204.pdf.
Вайнрайх У. Языковые контакты. - Киев: Вищ. шк., 1979. - 364 с.
Al-Jarf R. Spelling error corpora in EFL // US-China Foreign Language. Sino-US English Teaching. Vol. 7, No.1 (Serial No.73). - P. 6-15.
Common European Framework of Reference for Languages Learning, Teaching, Assessment. - Council of Europe, Language Policy Unit, Strasbourg, 1986. - URL: http://www.coe.int/lang-CEFR
Granger S. Corpus d'apprenants, annotation d'erreurs et ALAO: une synergie prometteuse // Cahiers de Lexicologie. - Vol. 91, no. 2. - P. 117-132. - URL: http:// hdl.handle.net/2078.1/75650 (дата обращения: 16.11.2014).
Granger S. The Learner Corpus: A Revolution in Applied Linguistics // English Today 39, Vol. 10, no. 3. - P. 25-29 (1994). - URL: http://hdl.handle.net/2078/75699. (дата обращения: 16.11.2014).
Чиршева Г.Н. Родной и неродной языки в условиях формирования раннего детского билингвизма // Филологический класс. - 2014. - №1 (35). - С. 101-104. -URL: http://cyberleninka.ru/article/n/rodnoy-i-nerodnoy-yazyki-v-usloviyah-formi rova niya- rannego-detskogo-bilingvizma (дата обращения: 17.11.2014).
Das Falko-Handbuch Korpusaufbau und Annotationen, Version 2.01 - Reznicek, Marc; Ludeling, Anke; Krummes, Cedric und andere (2012). - URL: http://www.linguistik.hu-berlin.de/institut/professuren/korpuslinguistik/forschung/falk (дата обращения: 16.11.2014).
International Corpus of Learner English v2. - URL: https://www.uclouvain.be/en-277586.html (дата обращения: 16.11.2014).
The Russian Learner Corpus (RLC). URL: http://web-corpora.net/ RussianLearner Corpus/search/ (дата обращения: 16.11.2014).
Официальный сайт Томского отделения "Росстата" [Электронный ресурс]. -URL: http://tmsk.gks.ru/wps/wcm/connect/rosstat_ts/tmsk/ru/statistics/ (дата обращения: 16.11.2014).
Резанова З.И. Дискурсивные стратегии презентации национально-культурной идентичности // Вестн. Том. гос. ун-та. Культурология и искусствоведение. - 2012. -№ 4 (8). - С. 40-54.
Национальные объединения. Администрация Томской области [Электронный ресурс]. - URL: http://tomsk.gov.ru/ru/grazhdanskoe-obschestvo/natsionalnye-ob-edineniya (дата обращения: 16.11.2014).
Резанова З.И. Лингвистический корпус «Томский региональный текст»: типологически релевантные параметры сбалансированности и репрезентативности // Вестн. Том. гос. ун-та. Филология. - 2015. - №1(33). - C. 38-50.
Мишанкина Н.А. Лингвистический корпус «Томский региональный текст»: теоретико-методологическое обоснование проекта // Вестн. Том. гос. ун-та. - 2014. -№ 389. - C. 28-37.
Sologub Olga, Rezanova Zoya, Temnikova Irina. The Concept of the Tomsk Regional Corpus: Balance and Representativeness // The XXV annual international academic conference, Language and culture, 20-22 October 2014 / Procedia - Social and Behavioral Sciences, 154 (2014). - P. 175-178.