История развития корпусной лингвистики (на примере англоязычных корпусов) | Вестник Томского государственного университета. Филология. 2020. № 63. DOI: 10.17223/19986645/63/8

История развития корпусной лингвистики (на примере англоязычных корпусов)

Предложена авторская периодизация формирования и развития англоязычных корпусов, выделяем 1960-х по 2000-е гг. базирующаяся на принципах Г. Кеннеди (1998), в соответствии с которой четыре основных периода: доэлектронный - До 1960-х гг. (архивы), I - с 1990-е гг. (корпусы), II - с 1990-х по 2000 г. (мегакорпусы), III началось в (гигакорпусы). Предложено описание периодов разработки программного обеспечения корпусов: программ-конкордансеров и автоматизированной обработки текстов.

The History of Corpus Linguistics (On the Example of the English Language Corpora).pdf Корпусная лингвистика как наука зародилась в конце 1970-х гг., однако методы, лежащие в ее основе, были известны с XIII в. Так, в зависимости от объема и принципов отбора текстов в развитии корпусов выделяют несколько периодов [1, 2]2. Эпоха доэлектронных корпусов началась в XIII в. и завершилась к началу 1960-х гг. [1-3]. Понятие «корпус» в его лингвистическом значении появилось только к концу доэлектронной эпохи, поскольку им признавалось отдельное религиозное или литературное произведение или собрание сочинений одного автора, к которому вручную составлялся конкорданс3, формируемый преимущественно для теологических, литературоведческих и лексикографических исследований. А. Круден называет конкордансами словарь или указатель к Библии, в котором все слова, использованные в «боговдохновенном писании», расположены в алфавитном порядке, а также указано место, в котором употребляется данное слово, чтобы можно было легко найти стих с этим словом и сравнить несколько значений, в которых оно употребляется [4]. Все конкордансы доэлектронной эпохи отличались от современных и представляли собой некий указатель места употребления слова или словосочетания. Такого рода конкордансы также именуют каталогами или алфавит- 1 Исследование выполнено при финансовой поддержке Российского научного фонда, грант № 18-18-00436. 2 Здесь и далее перевод с английского выполнен авторами статьи. 3 В настоящее время конкордансом называют алфавитн^ій список всех употреблений конкретного слова в корпусе. Обязательн^ім является также указание контекста слова, как правило, от двух до пяти, реже семь слов справа и слева от искомого слова [2. Р. 42]. Определяя задачи конкорданса, П. Бейкер, А. Харди и Т. Макинери обращаются к учению Дж.Ферса (1957) о коллокациях как «реальн^іх словах» в привычном окружении. По их мнению, конкорданс призван определить наиболее частотн^іе коллокации [Ibid. Р. 36]. История развития корпусной лингвистики 133 ными указателями (indexes), а сам процесс - индексацией (indexing) [1]. Конкорданс состоит из «узловых слов» (node words) и контекста их употребления [5]. Объем контекста конкорданса обычно ограничивался восемью - десятью словами, поэтому объем конкорданса к Библии составил 2 370 000 словоупотреблений и по объему превышал объем Библии [6]. Первый конкорданс был составлен в XIII в. монахом Антонием Падуанским к латинской версии Библии V в. «Vulgate». Этот конкорданс назывался Concordantiae Morales. Примерно в то же время в Париже кардинал Гуго де Сен-Шер с помощью монахов прихода Святого Джеймса за два года составили алфавитный указатель слов к Библии Vulgate [7. Р. 3]. Также известны попытки создания конкорданса в XV в. Джоном Марбеком [6. Р. 2]. В 1737 г. А. Круден опубликовал первое издание «Полного конкорданса к Святому Писанию», в котором узловое слово располагалось на отдельной строке, а далее следовало указание названия книги и главы в Библии, где употреблено данное слово [4]. В тексте цитаты узловое слово сокращено до первой буквы. Все цитаты представлены на отдельной строке. Левосторонний и правосторонний контексты не превышают двух - пяти слов. «Полный конкорданс к Святому Писанию» А. Крудена также содержит полную цитату из Библии с данным словом (рис. 1). DRY Ezek.17.241. Made d.tree flourish a. devour every d.tree 30. 12 I will make the rivers dry 37.2 bones d. || 4. O ye d. bones Рис. 1. A. Cruden A Complete Concordance to Holy Scriptures (1737) А. Круден отдельно выделял словоформы: например, глагол «dry» и его форма прошедшего времени «dried» указывались отдельно. В качестве узловых в конкордансе А. Крудена выделялись как однословные единиц^і (существительное, глагол), так и многословные (устойчивые сочетания) (рис. 2). DRY ground DRY verb Job. 12.13. waters, they d.up flame d.up his branches Isa. 42.15. will d.up herbs, pools d. up thy rivers || 50.2. sea DRIED Gen.b.l3 face of the ground was d. E.red. 14.16. on d.gr. in sea Josh.3.17. Riests stood firm on d.ground in Jordan 2. Kin.2.8. Elisha went over on d.g. Psal. 107.33. water-springs into d.g. Рис. 2. Конкордансы к устойчивым словосочетаниям А. Крудена 1 Элементы метаразметки, включающие название книги, главу и стих, представлены на каждой строке. 134 М.И. Солнышкина, Г.М. Гатиятуллина В 1890 г. Дж. Стронг публикует «Исчерпывающий конкорданс к Библии» (Strong's Exhaustive Concordance of the Bible), в котором приведены этимологические сведения для 8 674 слов из Ветхого Завета, корни которых происходят из иврита, и 5 624 слова с корнями греческого происхождения в Новом Завете. К каждому слову дается информация о количестве (частотности) и месте употребления [8]. После публикации первого издания конкорданса А. Крудена в 1737 г. по такому же принципу стали составляться конкордансы к произведениям великих писателей. Так, важной работой для развития корпусной лингвистики стал «Конкорданс к произведениям У. Шекспира во всех редакциях» (1 787) А. Беккета, поскольку в нем помимо информации о месте употребления того или иного слова (пьесы, акта и действия) был представлен отрывок произведения, в котором употреблялось данное слово (рис. 3). Узловое слово содержало все словоформы. Например, вместе со словом «dream» указана и форма множественного числа «dreams». Объем иллюстрирующего отрывка по усмотрению автора мог содержать от одной до пяти строк [9. Р. 167-183]. DREAM I have heard (but not believ'd) the spirits of the dead May walk again; if such things be, thy mother Appeared to me last night; for ne'er was dream So like a walking. Winter's Tale A.3, S.3 My spirits as in a dream are all bound up Tempest, A.1, S.2 - we are such stuff As dreams are made on, and our little life Is rounded with sleep. Tempest, A.4, S. 1 - Dreams are toys: Yet, for this once, yea, superstitiously, I will be squar'd by this Winter's Tale, A.3, S.3 Рис. 3. A. Becket “A Concordance to Shakespeare suited to all the editions” (1787) Известны также конкордансы к произведениям У. Шекспира, состав-ленн^іе М. Коуден-Кларк (1847) и С. Ойскотом (1790). Статья конкорданса С. Ойскота содержит следующие зоны: узловое слово, контекст, а также место употребления данного слова (пьеса, акт, сцена, страница, колонка и строчка). Узловое слово также содержит все словоформы (рис. 4) [10]. A. S. P. C. L. Henry V. 5 5 533 1 45 2 Henry Vi 5 2 601 2 29 Lear. 2 4 944 2 53 M.Ado About Noth 3 2 133 2 59 Mids. Night's Dream 3 2 186 2 31 Disorder, that hath spoil'd us, befriend us now - Fear frames disorder, and disorder where it should guard - But his own disorders deferv'd much less advancement Disparage. I will disparage her no farther - not the faith thou dost not know Рис. 4. S. Ayscough “Dramatic works with Explanatory notes” (1790) Конкоданс, предлагаемый М. Коуден-Кларк, также создан по типу конкорданса А. Крудена, однако как и в конкордансе С. Ойскота, узловое слово представляет все словоформы (рис. 5) [11]. История развития корпусной лингвистики 135 FEMALE - poor females mad Mid.N's Dream, iii.2. the female ivy so enrings the..........- iv.1 a female. or for thy Love's I...Lost, 3.1. (letter) the boy is fair, of female favour.. As you like it, iv.3. of this female, which in the common .. - v.1. abandon the society of this female . - v.1. Рис. 5. M. Cowden-Clarke (1845) The Complete Concordance to Shakespeare. Being a Verbal Index to All the Passages in the Dramatic Works of the Poet1 Традиция составления конкордансов вручную к произведениям художественной литературы сохранялась вплоть до 1995 г. и была реализована в следующих работах. Конкоданс к «Секретному агенту» Дж. Конрада The Concordance to Conrad's The Secret Agent (Bender, 1979), Конкорданс к «Дейзи Миллер» Генри Джеймса A Concordance to Henry James's Daisy Miller (Bender, 1987), Конкорданс к полному собранию пьес и поэм Т.С. Эллиота A Concordance to the Complete Poems and Plays (Dowson, 1995) [12. Р. 169]. На рубеже XIX и ХХ вв. было организовано несколько проектов по сбору эмпирического материала для лексикографических целей. На их основе были составлены «Словарь американского варианта английского языка» под редакцией Н. Вебстера (Noah Webster's An American English Dictionary) (1828) и «Оксфордский словарь английского языка» (The Oxford English Dictionary, OED) (1884). Для создания исследовательской базы «Оксфордского словаря» две тысячи читателей-добровольцев собрали около пяти миллионов цитат общим объемом примерно 50 миллионов словоупотреблений для того, чтобы проиллюстрировать значения и употребление 414 825 слов в словаре. На основе собранных текстов английской диалектной речи Дж. Райт составил «Словарь английских диалектов» The English Dialect Dictionary (1898-1905) [1]. Эмпирический материал О. Есперсена, который включал фрагменты из произведений O. Хаксли, Дж. Остин, У. Черчилля, Ч. Дарвина, Г. Филдинга, Э. Хемингуэя, Р. Киплинга, Дж. Локка, Г. Менкена, П. Шилли, Дж. Пристли, Х. Уолпола, В. Вульф, имел особое значение для преподавания практической грамматики английского языка, основанной на дескриптивных, не предписывающих принципах [13]. Поворотным моментом в истории развития конкордансов стала разработка методики использования ключевых слов (key words) в системе Keyword out of context (KWOC) ключевых слов вне контекста или Keyword in title ключевые слова в названии (1856) А. Крестадоро для систематизации каталогов в государственной библиотеке г. Манчестера. В 1958 г. Х.П. Лун доработал данную методику и ввел в компьютерную технологию под названием keywords in context (KWIC) «ключевые слова в контексте», в соответствии с которой ключевое слово располагалось в центре, а линии конкорданса можно было расположить слева или справа от ключевого сло- 1 В иллюстрациях сохранена пунктуация первоисточника. 136 М.И. Солнышкина, Г.М. Гатиятуллина ва, включая необходимый контекст [14. Р. 151]. Формат KWIC дает возможность составить список коллокаций слова в алфавитном порядке, а также список частотности каждого словоупотребления. П. Бейкер, А. Харди и Е. Макинери считают термин конкорданс синонимичным термину «ключевые слова в контексте» (key words in context, KWIC). Электронный конкорданс Index Tomisticus общим объемом более 10,6 миллиона словоупотреблений, созданный монахом Р. Бусой к трудам Фомы Аквинского, стал первой работой, в которой были применен^і элементы машинной обработки текстов [15]. Конкорданс создавался в течение пяти лет: с 1962 по 1966 г. Для удобства работы с конкордансом и его краткости Р. Буса решил представить в нем к качестве ключевого слова только лемму, или заголовочное слово, со всеми ее словоформами. Для этого он осуществил лемматизацию текстов, которая проходила в два этапа: объединение всех словоформ с флексиями под одной леммой и прикрепление кода с соответствующей частью речи для каждой леммы и ее словоформы. Лемматизация проводилась на основе Латинского машинного словаря Lexicon Electronicum Latinum, который Р. Буса и десять священников составляли в течение двух лет. Электронный словарь представлял собой таблицу с леммами, на основе которой компьютер осуществлял лемматизацию текстов. Данный метод работы на основе электронного словаря или списка позже во многом определил принцип электронной обработки текстов. В 1973 г. был опубликован первый том Index Tomisticus, в 1970-е гг. было опубликовано более 40 томов Index Tomisticus с алфавитными указателями, таблицами с указанием частотности слов и др. [17]. Последним корпусом доэлектронной эпохи стал смешанный корпус устной и письменной речи Р. Кверка «Обзор практического употребления английского языка» The Survey of English Usage, SEU, Р. Кверка, разработанный в Лондонском университете [16]. Р. Кверк называл собранный исследовательский материал «исходным материалом» или «текстами». Я. Свартвик утверждает, что в 1960 г. термин «корпус» почти не употреблялся и на конференции ученые долго спорили о множественном числе слова «корпус» (corpuses, corpora или даже corpi) [17. Р. 15]. Данный корпус оказался наиболее хорошо структурированн^ім и систематическим корпусом доэлектронной эпохи. Устная и письменная формы речи были представлены текстами различн^іх жанров, при этом источниками служили как сфера формального, так и неформального общения. Корпус состоял из 200 фрагментов текстов, каждый объемом 5000 словоупотреблений. Данный корпус ознаменовал собой переход из доэлектронной эпохи в электронную. Таким образом, в доэлектронную эпоху были созданы все предпосылки перехода к корпусам электронной эпохи. Были разработаны первые конкордансы, которые понимались как синоним словарей и указателей. Первые конкордансы имели огромное значение для дальнейшего развития корпусной лингвистики, поскольку в составе статьи конкорданса обязательными считались указание искомого слова, места его употребления, История развития корпусной лингвистики 137 контекст использования зафиксированн^іх единиц языка. Кроме того, была разработана система иллюстраций контекста в конкордансе «ключевое слово в контексте». В корпусах отсутствовали единый принцип сбора текстов, единые правила составления конкордансов. Их объем и источники также сильно различались: корпусом могли быть тексты священн^іх книг (переводы Библии, произведения богословов), а также отдельные произведения художественной литературы. С современной точки зрения, такого рода тексты являются не корпусами, а архивами или собраниями отдельных текстов. Отсутствовал также и сам термин «корпус». Электронная эпоха (с 1960-х гг. по настоящее время). C. Йоханссон утверждает, что, несмотря на уже опубликованные в 1960-х гг. работы Р. Бусы и появление первого электронного корпуса, учен^іе стали активно интересоваться корпусной лингвистикой лишь в 1970-е гг. [18. Р. 39]. По его мнению, настоящая корпусная лингвистика зародилась именно в 1970-е гг. с созданием первых лабораторий и центров, в которых над общими проблемами лингвистики и способами обработки текстов стали работать лингвисты и программисты. Центры компьютерной лингвистики, нацеленные на сбор, хранение и обработку текстов корпуса, были открыты в Италии, США, Англии, Германии, Канаде, Франции, Швеции, Норвегии. К середине 1970-х гг. были созданы первые базы для хранения и распространения электронных корпусов: Оксфордский архив машиночитаемых текстов ОТА (Oxford Text Archive) (1976) и Международный архив электронных текстов современного английского языка ICAME (International Computer Archive of Modern English) (1977). Корпусы первого поколения. В начале 60-х гг. ХХ в. впервые появились электронные корпусы. Первым электронным корпусом признан так называемый «Брауновский корпус» (The Brown corpus), названный по имени университета США The Brown University, штат Род-Айленд. Его название официально включало термин «корпус». Группа ученых под руководством Г. Кучеры и Н. Френсиса работала над созданием корпуса в период с 1961 по 1964 г. [19]. В создании данного корпуса также приняли участие Р. Кверк, П. Оконнор и Дж. Керролл, а также Филипп Б. Гоув, редактор третьего издания словаря Уэбстера [1]. Брауновский корпус был корпусом письменной американской английской речи и содержал один миллион словоупотреблений из 500 текстов, изданных только в 1961 г. В корпусе представлены следующие пятнадцать жанров письменной речи американского варианта английского языка: газетные статьи, научные труды, объявления, книги о хобби, религиозная литература, биография, эссе, художественная литература (детективы, приключения и вестерны, научно-популярная литература, любовные романы, фельетоны). Тексты в «Брауновском корпусе» наносились на перфокарту, которая содержала информацию о месте расположения текста, его названии, а также о количестве строк в тексте. В 1968 г. Ф. Бэгли впервые ввел термин «метаразметка» (metadata) для обозначения всех данн^іх о текстах в корпусе [20. Р. 195]. С середины 1960-х гг. появились первые программы-конкордансеры на основе KWIC: 138 М.И. ( олнышкина, Г.М. Гатиятуллина «Атлас создания конкорданса и подсчетов корпуса» (COCOA, COunt and Concordance Generation Atlas) (1967) и «Коллокации» (CLOC, CoLOCation) (1978) [5. Р. 2]. При их создании машинная обработка текстов сопровождалась ручной разметкой, т.е. «прикреплением» кода (или тега) к единице текста с информацией о ней [2. Р. 154]. Об автоматической разметке текста стали говорить, когда в 1971 г. Б. Грин и Дж. Рабин написали программу автоматизированной разметки текстов TAGGIT, первая апробация которой представляла собой разметку Брауновского корпуса. TAGGIT осуществляла разметку при помощи 86 тегов, выделяющих в тексте знаменательные и служебные слова, знаки препинания и отдельные морфемы. Программа «не снимала омонимию», и 23% слов в корпусе оказались размеченными одновременно несколькими тегами [3]. В 1978 г. А. Эллегард осуществил синтаксическую разметку части Брауновского корпуса вручную: было выделено три уровня синтаксической разметки - простые предложения внутри сложных предложений (clause structures in sentences), составляющие клаузальных конструкций (constituent structures of clauses), часть речи каждого слова (word class of individual word). После нескольких лет проверок и исправлений работа по частеречной разметке Брауновского корпуса в 1979 г. была завершена. Б. Грин и Дж. Рубин опубликовали все данн^іе о морфологическом анализаторе TAGGIT с тем, чтобы другие ученые могли ее доработать и усовершенствовать [18. Р. 46]. Программы-конкордансеры первого поколения COCOA и CLOC создавались для каждого отдельного компьютера и отдельной задачи, т.е. всякий раз «приходилось заново изобретать колесо» [3. С. 35]. Именно эта проблема поставила необходимость создания кон-кордансеров следующего, второго поколения. Ученые считают, конец 1970-х гг. временем официального признания термина «корпусная лингвистика» [17. Р. 12]. В 1980-х гг. продолжается доработка и усовершенствование программы TAGGIT, в 1983 г. в университете Ланкастера группа ученых под руководством грамматиста Дж. Лича и программиста Р. Гарсайда апробировала и внедрила обновленный вариант морфологического анализатора под названием CLAWS (the Constituent Likelihood Automatic Word-tagging System, букв. Автоматическая система разметки составляющих на основе сходства) [3]. «Брауновский корпус» стал стандартом для составления корпусов как по объему, так и по спектру представленных в нем стилей и жанров письменной речи. С публикацией «Брауновского корпуса» в середине 1970-х гг. стали появляться подобные корпусы сначала в Великобритании, потом и в других странах. Например, в 1976 г. был опубликован совместный корпус университетов Ланкастера, Осло и Бергена (The Lancaster-Oslo-Bergen corpus (LOB) (1961-1978) [21]. В начале 1990-х гг. стали создаваться аналогичные корпусы объемом не менее одного миллиона словоупотреблений, состоящие из 500 текстов пятнадцати различн^іх жанров письменной речи. При этом в каждом тексте должно было быть представлено не менее 2000 словоупотреблений. Такими являлись, например, корпус Австралий- История развития корпусной лингвистики 139 ской английской речи, The Australian Corpus of English, ACE (1986), Веллингтонский корпус новозеландской английской речи, The Wellington Written English, WWE (1986), Корпус американской английской речи университетов Фрайбурга и Брауна, The Freiburg-Brown Corpus, FROWN (1991-1992), Корпус британской английской речи университетов Фрайбурга, Лондона, Осло и Бергена, The Freiburg London-Oslo / Bergen corpus, F-LOB, (1991-1992), Колхапурский корпус индийского варианта письменной английской речи, The Kolhapur corpus Indian English (1978) [1, 2]. Эти корпусы получили общее название «Семейство корпусов Браун» [22]. Различие данн^іх корпусов состояло лишь в том, что корпусы содержали тексты одного из вариантов письменной английской речи: американского, британского, австралийского, новозеландского, индийского (таблица). Содержание и объем корпусов Семейства Браун (The Brown Family) Корпусы Код IBrown IFrown ∣LOB | F-LOB | Pre-LOB | Kolhapur ∣ACE ∣WWC ∣LCMC Количество текстов отдельн^іх жанров A 44 44 44 44 44 44 44 44 44 B 27 27 27 27 27 27 27 27 27 C 17 17 17 17 17 17 17 17 17 D 17 17 17 17 17 17 17 17 17 E 36 36 38 38 38 38 38 38 38 F 48 48 44 44 44 44 44 44 44 G 75 75 77 77 77 77 77 77 77 H 30 30 30 30 30 37 30 30 30 J 80 80 80 80 80 80 80 80 80 K 29 29 29 29 29 59 29 29 29 L 24 24 24 24 24 24 15 24 24 M 6 6 6 6 6 2 7 6 6 N 29 29 29 29 29 15 8 29 29 P 29 29 29 29 29 18 15 29 29 R 9 9 9 9 9 9 15 9 9 S - - - - - - 22 - - W - - - - - - 15 - - Код соответствует следующим жанрам: А - репортаж, В - редакторская колонка, С -обзорная статья, D - религиозн^ій текст, Е - хобби и полезн^іе советы, F - массовая культура, G - биография и эссе, H - отчет^і и документы, J - научная проза, K - художественная литература, L - детектив, M - научная фантастика, N - вестерн и приключенческий роман, P - роман и любовная проза, R - сатира и юмор, S - исторический роман, W - женский роман [24]. Корпусы устной речи. Корпусы устной речи появились значительно позже письменных, их впервые начали публиковать в 1990-е гг. Корпус London-Lund (LLC) был разработан в период с 1975 по 1990 г. Я. Свартвиком, Р. Кверком, С. Гринбаумом и К. Хофландом на основе двух проектов: корпус SEU (1959-1989) (см. доэлектронную эпоху) и Корпус устной английской речи (SSE, 1975). Корпус LLC состоит из 100 за-транскрибированн^іх текстов устной монологической и диалогической ре- 140 М.И. Солнышкина, Г.М. Гатиятуллина чи по 5000 словоупотреблений каждый. Диалогическая речь зафиксирована в текстах разговорного стиля между друзьями и коллегами, в беседах и телефонных разговорах. Монологическая речь представлена спонтанной (комментарии и рассказы), а также подготовленной речью, не читаемой с листа [22. Р. 408-409]. Помимо грамматической разметки тексты в корпусе размечены на просодическом уровне, т.е. содержат информацию о тоновых единицах, начале звука (onset), места ядра (слова, синтагмы), направлении ядерных тонов (восходящий, нисходящий, ровный, восходященисходящий), высоте тона, паузе (короткая и длинная), ударении (обычное и выделенное). Тексты из проекта SEU имеют детальную просодическую разметку: указания на различный уровень громкости и темпа (быстрая, прерывистая, манерно-растянутая), модификации качественных характеристик голоса (высота, ритм, напряжение и т.д.), дополнительные характеристики (шепот, хрип) [23]. Источником корпуса устной английской речи (The Spoken English Corpus, SEC) общим объемом 53 000 словоупотреблений послужили тексты эфиров радиовещания, записанн^іе в период с 1984 по 1987 г. и характеризующиеся жанровым многообразием: комментарии, новости, лекции для небольшой аудитории, лекции для большой аудитории, радиопередачи на религиозные темы, включая литургии, репортажи о светской жизни, теле-фонн^іе разговоры с радиослушателями и др. [22]. Одним из первых размеченн^іх (или аннотированных) корпусов устной английской речи является также машиночитаемый вариант корпуса SEC, MARSEC (Machine readable spoken English corpus) (1992-1994) - совместный проект Лаборатории компьютерных исследований английского языка (Тhe Unit for Computer Research on the English Language, UCREL), университетов Ланкастера и Лидза, а также научного центра IBM в Винчестере. MARSEC в отличие от SEC был доработан фонологической разметкой: были размечены паузы, длина слова во временном отрезке, звуковое содержание, а также тоновое ударение [Ibid. Р. 408-409]. С разработкой Брауновского корпуса появилось понятие «референтный корпус», которым стали характеризовать все перечисленные корпусы, поскольку исследователи проверяли свои предположения и теории (так называемые “intuitive data”) с помощью этих корпусов. Референтный корпус определяли как корпус, создаваемый для проведения частотного анализа текстов, а также для сравнения текстов большого спектра жанров или источников [2. Р. 137]. Именно в этот период было доказано, что объем в миллион словоупотреблений нерепрезентативен для изучения низкочастотных слов, поскольку они могут отсутствовать в корпусе [1]. Кроме того, в этот период начинает формироваться ряд устных корпусов для распознавания и синтеза устной речи, разрабатываемых по заказу Агентства Министерства оборонні исследовательским проектам (Defense Advanced Research Projects Agency, DARPA). США по передовым научно- История развития корпусной лингвистики 141 В 1984 г. компанией Texas Instruments была собрана база данн^іх устной английской американской речи TI-DIGITS, которая содержала 77 зачитанных вслух цифровых последовательностей. В качестве дикторов выступили 111 мужчин, 114 женщин, 50 мальчиков и 51 девочка. Данный корпус был создан для автоматического распознавания цифровых последовательностей в устной речи [24, 25]. В 1990 г. для акустико-фонетических исследований, разработки и оценки автоматических систем распознавания речи был создан корпус устной слитной речи TIMIT Acoustic-Phonetic Continuous Speech Corpus. В разработке корпуса принимали участие Массачусетский технологический институт (MIT), Стэнфордский научно-исследовательский институт (SRI) и компания Texas Instruments. Корпус содержит тексты на восьми основных диалектах устной английской американской речи 630 дикторов (70% мужчин и 30% женщин), которые зачитывали вслух по десять предложений. Для тестирования систем распознавания речи корпус TIMIT включает три типа текстов: диалектные (1 260 предложений), фонетически насыщенные (compact), т.е. покрывающие весь фонематический состав и отдельные сочетания фонем, представляющие определенную трудность распознавания (3 150 предложений), и фонетически разнообразные тесты (diverse) с повтором каждой фонемы в различном контексте (1 890 предложений). Для третьей части корпуса TIMIT использовались тексты Брауновского корпуса, а также из диалогов театральн^іх постановок того времени. Данный корпус включает орфографическую, подробную фонетическую транскрипцию, а также транскрипцию каждого отдельного слова с временной соотнесенностью. Каждый диктор зачитывал пять предложений из подкорпуса с фонетически насыщенными текстами, три предложения из подкорпуса с фонетически разнообразными текстами и по два предложения из подкорпуса диалектных текстов. Корпус TIMIT поделен на две части: 20-30% корпуса составляет оценочно-тестовая часть и 70-80% - тренировочная. Повтор предложений и дикторов как в тестовой, так и в тренировочной частях был минимизирован. Тестовая часть была также поделена на две части: основная оценочная подборка Core Test Set (192 текста, произнесенных 24 дикторами: 16 мужчинами и 8 женщинами) и подборка для заключительной оценки Complete Test Set (1 344 предложений или 168 дикторов (112 мужчин и 56 женщин) по 8 предложений). Тренировочная часть включает весь языковой материал, не вошедший в тестовую часть. Тренировочная часть содержит 4 620 предложений, зачитанных 462 дикторами (73% дикторов корпуса) [26]. Корпус Управление ресурсами (Resource management corpus) (1988) для тестирования систем распознавания слитной речи включает более 25 000 высказываний более 160 респондентов, говорящих на различн^іх региональных диалектах американского варианта английского языка. Корпус включает два подкорпуса: RM1 и RM2. Подкорпус RM1 состоит из трех частей. Тренировочная часть с подбором говорящего (Speakerdependent) включает речь 12 лиц, каждый из которых зачитывает вслух 142 М. И. Солнышкина, Г.М. Гатиятуллина 600 «тренировочных» предложений на двух диалектах и десять предложений для «быстрой адаптации» (rapid adaptation sentences). 600 предложений подобраны таким образом, что они покрывают 97% лексического материала корпуса. Общий объем данного подкорпуса составляет 7 344 предложения. Подкорпус “Speaker independent” содержит 3 360 предложений, зачитанных вслух 80 лицами на двух диалектах, и по 40 предложений, взятых из основного корпуса RM. Тестовая часть RM содержит 1 600 предложений, зачитанных вслух двумя дикторами. Тестовая часть снабжена диагностическим и оценочн^ім программным обеспечением. Подкорпус RM2 представляет собой дополненную версию подборки RM1 Speaker-dependent. Подкорпус содержит 10 508 предложений, зачитанных двумя мужчинами и двумя женщинами (по 2 652 предложения каждый). В данный подкорпус вошли 600 стандартн^іх тренировочных предложений из подкорпуса RM1, 2 диалектных предложения, 10 предложений быстрой адаптации, 1800 дополнительных тренировочных предложений, 120 дополнительных предложений для промежуточн^іх испытаний (development-test sentences), 120 оце-ночн^іх предложений (evaluation test sentences) [27]. Корпус информационной службы (Air Travel Information Service Corpus, ATIS) (1990) был разработан для изучения спонтанной речи и синтеза речи. Корпус также делится на тренировочную и тестовую части. ATIS содержит тексты разговора людей с автоответчиком “I would like a ticket to...”, “I want to fly to Boston from New York next week”. На основе данного корпуса позже были созданы диалоговые системы, которые могли ответить на вопросы типа “Does Air Canada fly from Toronto to Dallas?” [28]. Данн^іе корпусы, разработанные по военному заказу, показали возможность обучения машин автоматическому распознаванию речи и дали новые термины. токенизация (разделение слитной речи на отдельные слова), сегментация (разделение слитной речи на предложения и синтагмы), парсер (синтаксический анализатор), нормализация (приведение к фонетической норме слов, произнесенн^іх с различными индивидуальными особенностями говорящего) на основе временной соотнесенности фразы (time alignment). Характеризуя типы корпусов, Г. Кеннеди утверждает, что все корпусы текстов отдельных жанров различных исторических эпох, тексты речи представителей отдельных профессиональн^іх сообществ, возрастных групп либо региональных диалектов являются примерами корпусов первого поколения, поскольку их цель заключается в изучении речи отдельной формы языка, а не языка в целом во всем его многообразии [1]. Таким образом, согласно его классификации мультимедийные корпусы, которые стали разрабатываться с середины 2000-х гг., вне зависимости от их технической составляющей считаются корпусами первого поколения, так как являются специальными корпусами и преимущественно репрезентируют отдельные жанры устной речи. В 1960-1990-е гг. постепенно формируются требования к корпусам. обязательным стало привлечение текстов письменной речи общим объемом до миллиона словоупотреблений. Однако при этом привлекались пре- История развития корпусной лингвистики 143 имущественно тексты наиболее распространенн^іх жанров письменной речи, объем каждого фрагмента текста составлял примерно 2 000 словоупотреблений. Характерным признаком этого времени является также тот факт, что корпусы содержали не полные тексты письменной речи, а фрагменты с фиксированным объемом слов. 1970-е гг. стали определяющими в развитии корпусной лингвистики: появились центры и лаборатории по разработкам электронных средств обработки текстов. Методика KWIC позволила систематизировать форму представления конкорданса, позднее появились первые программы-конкордансеры, такие как COCOA (COunt and COncordance Generation Atlas) и CLOC (CoLOCation). Электронная обработка корпусов поставила перед учеными проблему точности электронной обработки текстов, которая давала хорошие результаты только совместно с ручной разметкой. К середине 1970-х гг. с развитием техники и, как следствие, доступности записи звучащей речи начали формироваться корпусы для более широкого спектра исследовательских целей. В 1980-х гг. разработан морфологический анализатор текстов CLAWS (the Constituent Likelihood Automatic Word-tagging System). К 1990-м гг. были опубликованы два корпуса устной речи, при этом спектр представленных жанров не был богат и сводился к следующим: беседы в неформальной обстановке, разговоры по телефону, радио, выступления на лекции. Объем корпусов также значительно уступал письменным. Создание корпусов устной речи поставило вопросы адекватной транскрипции и разметки. Корпусы устной речи также составлялись в военных целях для разработки систем распознавания и синтеза живой звучащей речи. В данный период закрепилось современное толкование значений таких терминов, как «корпус», «корпусная лингвистика», «разметка», «метаразметка», «конкордансер», «морфологический анализатор». При изучении устной речи появились термина! «токенезация», «токены», «сегментация^}, «нормализация^}, «временная соотнесенность» (time alignment). Корпусы второго поколения, мегакорпусы. В начале 1980-х гг. был разработан язык разметки текстов, или метаязык SGLM (Standard Generalized Markup Language, букв. Единый стандартный язык разметки), который представляет собой набор тегов, стандартизирующий разметку текстов [2. Р. 149]. Данный формат оставался эталонным до 2007 г., когда ему на смену пришел упрощенный формат XML с более унифицированной и строгой формой разметки для предотвращения дублирования разметки, как это имело место в SGML [Ibid. Р. 71; 3. С. 76-77]. В 1990-х гг. ученые Университета Ланкастера разработали ряд программ для следующих уровней разметок: разметка анафорических референтных связей (1992), просодическая разметка (1993), семантическая разметка (1993), (2004), художественно-стилистическая (1996 и 2004), прагматическая разметка (2003) и разметка ошибок говорящих (1999, 2003) [3. Р. 78, 83; 29]. Изучение устной речи показало необходимость исследования описания прагматики высказывания, поскольку смысл высказывания в полной мере 144 М.И. Солнышкина, Г.М. Гатиятуллина может быть понят и представлен при условии фиксации речи (текста) в прагматическом контексте с указанием повышения или понижения голоса, жестикуляции, движения головы и др. [30, 31]. Прорывной явилась разработка программы ELAN (EUDICO Linguistic Annotator, 2006), позволяющая размечать тексты на уровне жестов, однако решение этой проблемы подняло вопрос этики [32, 33]. Т. Макинери и А. Харди утверждают, что 1990-е стали эпохой про-грамм-конкордансеров второго поколения. Конкордансеры второго поколения работали на платформе IBM, поэтому могли использоваться на персональных компьютерах, поддерживающих операционную систему IBM. Конкордансеры второго поколения, такие как Micro-OCP (1988), Longman Mini-Concordancer (1989), Kaye concordancer (1990), также работали на основе методики KWIC и осуществляли следующие функции: составление алфавитного списка конкордансов с контекстным окружением слов справа и слева, составление списка слов корпуса, элементарные описательн^іе статистические данн^іе, такие как подсчет словоупотреблений, соотношение количества слов и словоупотреблений (type-token ratio). Совмещение функций отрицательно сказалось на мощности и производительности кон-кордансеров второго поколения. В качестве дополнительных причин такого положения указываются следующие: отсутствие единого формата, стандартов представления символов и разметок [3. Р. 40]. В 1987 г. на конференции в Колледже Вассара в г. Пафкипси, штат Нью-Йорк, было основано сообщество Инициатива по кодированию текстов (Text Encoding Initiative, TEI), которое поставило проблему разработки един^іх стандартов составления, транскрипции и разметки корпусов [34]. Появление большого количества корпусов, созданных на основе раз-личн^іх типов текстов, привело к необходимости создания единого свода правил, в котором бы содержались все правила по сбору, транскрипции и аннотации текстов как устного, так и письменного дискурсов. Кроме того появились вопросы этики и передачи авторских прав. Так, если в 1970-е гг. использование скрытых микрофонов для записи речи, указание личн^іх имен и адресов считалось приемлемым, то к 1990-м гг. использование подобных методов стало вызывать вопросы [1. Р. 76-78; 3. Р. 60-69]. Таким сводом правил стали выпущенные Инициативой TEI документы TEI (Text Encoding Initiative Principles1) [2. Р. 157]. В 1991 г. некоммерческая компания «Уникод консорциум» разработала стандарт кодирования символов Уникод (Unicode) для ASCII (American Standard Code for Information Interchange), предназначенный для всех типов письменн^іх языков мира, а также для кодирования непечатных символов 1 В период с 1990 по 2018 г. Инициатива TEI опубликовала пять редакций данного документа с соответствующей нумерацией P1-P5. В редакциях Р1-Р3 (1990-1999) SGML был рекомендованным языком разметки. В редакции Р4 (2002) составителям предоставлялся выбор между SGML и XML. В редакции Р5 (2007) единственно рекомендованным языком разметки является XML. С ноября 2007 г. документ TEI стал обновляться дважд^і в год [35, 36]. История развития корпусной лингвистики 145 (транскрипции, математических формул и др.). В настоящее время UTF-8 является наиболее распространенной спецификацией Unicode [2, 37, 38]. Попытки стандартизации составления корпусов были также предприняты Европейской консультационной группой по стандартам обработки языка - Expert Advisory Group on Language Engineering Standards (EAGLES) (1993), которая предложила свой стандарт сбора и разметки текстов в корпусе Corpus Encoding Standard (CES) (1998), имевший в своей основе сначала язык разметки SGML (1998), в настоящее время - язык разметки XML - XCES (2000) [2. Р. 50]. Для решения вопроса о необходимости стандартизации разметок для всех языков в четвертой редакции TEI Р4 (2002) составителям предоставлялся выбор между SGML и более строгим и унифицированн^ім языком разметки XML. В пятой редакции TEI Р5 (2007) единственно рекомендованным языком разметки является XML [3]. В 1993 г. Дж. Лич опубликовал максимы для составления метаразметки, т.е. метатекста, или текста о тексте, с указанием полной экстралингвисти-ческой информации. По мнению Дж. Лича, метаразметка должна соответствовать установленным требованиям и включать следующую информацию о критериях и источниках отбора текстов: 1) возможность доступа к исходному варианту материала; 2) отдельное хранение метатекста от основного текста; 3) перечисление всех использованн^іх принципов разметки в отдельном документе; 4) доступность информации об авторах разметки и основные характеристики разметки (ручная / автоматизированная1, программное обеспечение и т.д.); 5) понимание разметки как авторской интерпретации, ее относительности; 6) обязательное изложение в разметке максимально полной информации о тексте на основе общепринятых лингвистических принципов; 7) недопустимость признания ни одной разметки как эталонной [39]. Во вторую эпоху развития корпусной лингвистики с конца 1990-х гг. по 2000-е гг. были разработаны и внедрены конкордансеры третьего поколения (WordSmith 0.4 (1996), MonoConc (2000), AntConc (2005)). Данные программы характеризуются способностью обрабатывать большой объем текстов любой письменности, а также выполнять сложный статистический анализ. Кроме того, программы-конкордансеры начала XXI в. отличает их высокая функциональность: одна программа способна быстро составить список ключевых слов, конкордансы, выполнить частотный анализ и анализ коллокаций [3. Р. 35]. Таким образом, с начала 1990-х гг. технические возможности позволили ученым компилировать и разрабатывать кор

Скачать электронную версию публикации

Загружен, раз: 280

Ключевые слова

история лингвистики, корпусы текстов, корпусная лингвистика, поколения корпусов, классификация корпусов, history of linguistics, text corpora, corpus linguistics, corpus generations, corpus classification

Авторы

ФИО	Организация	Дополнительно	E-mail
Солнышкина Марина Ивановна	Казанский (Приволжский) федеральный университет	д-р филол. наук, профессор кафедры германской филологии	mesoln@yandex.ru
Гатиятуллина Галия Маратовна	Казанский (Приволжский) федеральный университет	аспирант кафедры германской филологии	ggaliya-m@mail.ru

Всего: 2

Ссылки

Kennedy G. An Introduction to Corpus linguistics. Addison Wesley Longman limited, 1998. 315 p.

Baker P., Hardie A., McEnery T. Glossary of Corpus Linguistics. Edinburgh University Press, 2006. 192 p.

McEnery T., Hardie A. Corpus Linguistics: Method, theory and practice. Cambridge university press, 2012. 312 p.

Cruden A. A Complete Concordance to Holy Scriptures of Old and New Testament. 1737. 756 p.

Stubbs J. Notes on the History of Corpus Linguistics and Empirical Semantics // Collocations and Idioms / eds by M. Nenonen, S. Niemi. Joensuu: Joensuun Yliopisto, 2007. P. 317-329.

Meyer Ch.F. Pre-electronic corpora // Corpus Linguistics: An International Handbook / ed. by A. Ludeling, M. Kyto. 2008. P. 1-14.

McCarthy M., O'Keeffe A. Historical perspective: What are corpora and how have they evolved? // The Routledge handbook of corpus linguistics / ed. by A. O'Keeffe and M. McCarthy. 2010. P. 3-13.

Strong J. Strong's Exhaustive Concordance of the Bible. 1890. 1807 p.

Becket A. A concordance to Shakespear. suited to all the editions. 1787. 470 p.

Dramatic Works with Explanatory Notes. A New Ed., to which is Now Added a Copious Index to the Remarkable Passages and Words by Samuel Ayscough. 1790. Vol. 2. 558 p.

Cowden Clarke M. V. The Complete Concordance to Shakespeare. being a verbal index to all the passages in the dramatic works of the poet. 1847. 890 p.

Tribble C. What are concordances and how are they used // The Routledge handbook of corpus linguistics / ed. by A. O'Keeffe, M. McCarthy. 2010. P. 167-183.

Jespersen O. A modern English grammar. on historical principles. 1949. 542 p.

Korycinski C., Newell A.F. Text indexing. the problem of significance // Computers and writing. State of the Art / ed. by P.O. Holt [et al.]. 1992. P. 149-171.

Busa R. The Annals of Humanities Computing. The Index Tomisticus // Computers and the Humanities. 1980. Vol. 14. P. 83-90.

Quirk R. A grammar of contemporary English. 1972. 1120 p.

Svartvik J. Corpus linguistics 25+ years // Corpus Linguistics 25 Years On / ed. by R. Faccinetti. 2007. P. 11-27.

Johansson S. Some aspects of the development of corpus linguistics in the 1970-s and 1980-s // Corpus Linguistics. An International Handbook / ed. by A. Ludeling, M. Kyto. 2008. P. 33-53.

The Brown Corpus. URL. https./Zwww!.essex.ac.uk/linguistics/external/clmt/w3c/ corpus ling/content/corpora/list/private/brown/brown.html (дата обращения. 20.06.2018).

Nguen T.H., Nunavath V., Prinz A. Big Data Metadata Management in small Grids // Big Data and Internet of Things. A Roadmap for Smart Environments. 2014. P. 189-215.

The LOB Corpus. URL. http://www.helsinki.fi/varieng/CoRD/corpora/LOB/index.html (дата обращения. 20.06.2018).

Xiao R. Well-known and influential corpora // Corpus Linguistics. An International Handbook / ed. by A. Ludeling, M. Kyto. 2008. P. 383-457.

The LLC. URL. http://www.helsinki.fi/varieng/CoRD/corpora/LLC/index.html (дата обращения. 20.06.2018).

Lamel L., Cole R. Spoken Language Corpora // Survey of the State of the Art in Human Language Technology. 1997. P. 338-391.

TIDIGITS. URL. https./Zcatalog.ldc.upenn.edu/LDC93S10 (дата обращения. 20.06.2018).

DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus. CD-ROM / J.S.Garofolo [et al.]. 1993. 94 p.

Resource Management Corpus. URL. https://catalog.ldc.upenn.edu/LDC93S3C (дата обращения. 20.06.2018).

Tur G. Spoken Language Understanding. Systems for Extracting Semantic Information from Speech / ed. by G. Tur, R. De Mori. 2011. 470 p.

Corpus annotation. URL. http./Zucrel.lancs.ac.uk/annotation.html (дата обращения. 20.06.2018).

McNeill D. Hand and Mind. What Gestures Reveal About Thought. Chicago. University of Chicago Press, 1992.

Rowley-Jolivet E. Visual discourse in scientific conference papers A genre-based study // English for Specific Purposes. 2002. Vol. 21, iss. 1. P. 19-40.

ELAN. URL. https./Ztla.mpi.nl/tools/tla-tools/elan/release-notes (дата обращения. 20.06.2018).

Crawford Camiciottol B., Fortanet-Gomez I. Multimodal Analysis in Academic Settings. From Research to Teaching. Routledge, 2015. 251 p.

Lou Burnard. The Evolution of the Text Encoding Initiative. From Research Project to Research Infrastructure // Journal of the Text Encoding Initiative. June 2013. Is. 5. Online since 21 June 2013, connection on 01 April 2018. URL. http.Z/iournals.openedition.org/ jtei/811; DOI. 10.4000/itei.811

TEI Guidelines. URL. http./Zwww.teic.org/Guidelines (дата обращения. 20.06.2018).

Introducing the guidelines. URL: https://tei-c.org/support/learn/introducing-the-guidelines/. (дата обращения: 20.06.2018).

Meyer Charles F. English Corpus Linguistics: An Introduction. Cambridge University Press, 2004. 168 p.

Kubler H., Zinsmeister S. Corpus linguistics and linguistically annotated corpora. 2015. 320 p.

Leech G. Corpus annotation schemes // Literary and Linguistic Computing. 1993. № 8 (4). P. 275-281.

The history of COBUILD. URL: https://www.collinsdictionary.com/cobuild/ (дата обращения: 20.06.2018).

Sinclair J. Corpus, Concordance, Collocation. Oxford University Press, 1991.

Word Bank Online (Bank of English) режим доступа. URL: https://corpus.byu.edu/coca/old/help/compare boe.asp (дата обращения: 20.06.2018).

Biber D., Conrad S., Reppen R. Corpus linguistics: Investigating language structure and use. Cambridge University Press, 1998.

Biber D. Representativeness in corpus design // Literary and Linguistic computing. 1993. Vol. 8 (4). P. 243-257.

Sinclair J. Corpus and Text - Basic Principles // Developing Linguistic Corpora: a Guide to Good Practice / ed. by M. Wynne. 2005. P. 1-16.

Tognini-Bonelli E. Corpus linguistics at work. Amsterdam : John Benjamins, 2001.

The Longman Corpus Network. URL: http://www.longmandictionari-esusa.com/longman/corpus (дата обращения: 20.06.2018).

The British National Corpus. URL: http://www.natcorp.ox.ac.uk (дата обращения: 20.06.2018).

Leech G. A brief users' guide to the grammatical tagging of the British National Corpus. URL: http://www.natcorp.ox.ac.uk/docs/gramtag.html (дата обращения: 20.06.2018).

UCREL CLAWS5 tagset. URL: http://ucrel.lancs.ac.uk/claws5tags.html (дата обращения: 20.06.2018).

Introduction by word-class to the claws7 tagging scheme. URL: http://www.natcorp. ox.ac.uk/docs/claws7.html# Toc334867959 (дата обращения: 20.06.2018).

UCREL Semantic Analysis System (USAS). URL: http://ucrel.lancs.ac.uk/usas/ (дата обращения: 20.06.2018).

The International Corpus of English. URL: http://www.ucl.ac.uk/english-usage/projects/ice.htm (дата обращения: 20.06.2018).

Laurence A. A critical look at software tools in corpus linguistics // Linguistic Research. 2013. № 30 (2). P. 141-161.

Davies M. Corpora: an introduction // The Cambridge handbook of Corpus Linguistics / ed. by D. Biber, R. Reppen. Cambridge University Press, 2015. P. 11-31.

Mauranen A. Speaking professionally in L2 // Variation and change in spoken and written discourse: Perspectives from Corpus Linguistics / ed. by J. Bamford, S. Cavalereri, G. Diani. 2013. P. 5-31.

Kuebler S., Zinsmeister H. Corpus Linguistics and Linguistically Annotated Corpora. London : Bloomsbury Publishing, 2015. 320 p.

Flowerdew L. The argument for using English specialized corpora to understand academic and professional language // Discourse in professions: perspectives from Corpus Linguistics / ed. by U. Connor, T. Upton. 2004. P. 11-33.

Biber D. University Language: A Corpus-based Study of Spoken and Written Registers. Amsterdam : John Benjamins, 2006. 261 p.

Hyland K. As it can be seen: Lexical bundles and disciplinary variation // English for Specific Purposes. 2008. Vol. 27. P. 4-21.

Rayson P. Computational tools and methods for corpus compilation and analysis // The Cambridge handbook of English corpus linguistics / ed. by D. Biber, R. Reppen. Cambridge university press, 2015. P. 32-49.

The Corpus of Contemporary American English.URL: https://corpus.byu.edu/coca/ (дата обращения: 20.06.2018).

The Google Books Corpora. URL: http://www.helsinki.fi/varieng/CoRD/corpora/GoogleBooks/ (дата обращения: 20.06.2018).

Google Books. URL: https://googlebooks.byu.edu/ (дата обращения: 20.06.2018).

Google Books Ngram Viewer. URL: https://books.google.com/ngrams/info (дата обращения: 20.06.2018).

GloWbE. URL: https://corpus.byu.edu/glowbe/ (дата обращения: 20.06.2018).

Koester A. Building small specialized corpora // The Routledge handbook of corpus linguistics. 2010. P. 66-80.