ТЕХНОЛОГИЯ БАЗ ДАНН ЫХВ СОЦИОГУМАНИТАРНЫХ ИССЛЕДОВАНИЯХ
Обсуждается проблемы создания структурированных массивов лингвисти-ческой информации. Приводится типология лингвистических БД. Проводитсяанализ перспектив их применения.
DATABASE TECHNOLOGY IN SOCIALRESEARCH.pdf Современный мир может быть назван гиперинформационным. Пе-риод общественного развития со второй половины XX - начала XXI в.тесно связан с изменением представлений о роли информации в жизникак отдельного человека, так и общества в целом. Появление и активноеразвитие новых технологий обработки информации повлекло за собойкардинальное изменение ценностных ориентаций общества - информа-ция как ресурс стала приобретать все большую значимость. Это, в своюочередь, привело к резкому увеличению информационных потоков иформированию банков информации. Необходимость хранения большихобъемов информации повлекла за собой такую актуальную проблему какее организация и систематизация.Создание информационных систем связано, в первую очередь, с тем,что широкий доступ к необходимой информации позволяет осуществлятьболее результативные действия в самых разных областях, эффективноуправлять информационными потоками. В этой связи актуальной зада-чей становится разработка междисциплинарных методик, позволяющихосуществлять аналитическую обработку информации и поиск способовее структурирования для эффективного хранения и обработки.Наиболее адекватными в этом аспекте представляются комплексныеметодики, позволяющие создавать базы данных - структурированные Гуманитарная информатика. 2011. Вып. 6 111информационные массивы, используемые для создания эффективных ин-формационных систем.Итак, предпосылками разработки технологии и создания баз данныхможно считать насущную необходимость в решении следующих задач: Создание информационных систем (процедуры первичногоанализа информации технологии структурирования и органи-зации информационных массивов). Исследование когнитивной деятельности (методики иссле-дования концептуализации действительности основываются напринципах представления информации в базах данных и ведутк формированию «Моделей - онтологий» - «комплексных разно-сторонне формализованных представлений предметной областии знаний синтез лингвистических, тезаурусных, понятийных,энциклопедических и процедурно-декларативных специальныхзнаний») [8, с. 53]. Повышение достоверности и эффективности лингвистиче-ских (и в целом, гуманитарных) исследований (систематизацияи верификация материала), которое непосредственно зависит отдоступности научной информации (как первичной, в виде мате-риала для анализа, так и вторичной - результата теоретическогоосмысления). Основа научного исследования - накопленная эм-пирическая информация об изучаемом объекте реального мира.При этом, чем масштабнее исследовательский проект, тем болееобъемным должен быть подлежащий обработке материал. Поэто-му эффективность реализации многих научных лингвистическихпрограмм в значительной мере определяется степенью автомати-зации обработки данных и организации доступа к ним.В частности, для фиксации различных проявлений языковой систе-мы возникла необходимость в создании лингвистических ресурсов, на-правленных на решение задач структурирования лингвистической ин-формации; структурирования и первичного анализа эмпирического ма-териала; поиска новых способов его фиксации и хранения; верификациирезультатов исследования; поиска новых методов обработки материаладля оптимизации исследования и получения новых результатов. Это при-вело к созданию информационных систем для аккумуляции, хранения ипервичной обработки лингвистической информации, таких как словари,лингвистические корпусы и лингвистические базы данных.60-е гг. ХХ в. - время, когда начинается разработка различных кон-цепций компьютерного представления и обработки данных. К этому112 Гуманитарная информатика. 2011. Вып. 6 времени уже существовали развитые и разнообразные информационныесистемы: библиотеки, архивы. Поэтому автоматизация обслуживанияинформационных систем была в первую очередь востребована именно вэтих областях. Позднее компьютерные базы и архивы стали создаваться идля конкретных исследовательских задач в разных областях филологии.В России разработка теоретических основ создания баз данныхвпервые была осуществлена в рамках программы ГАСНИТИ (разработ-ка ИПС) и в рамках работы по Машинному фонду РЯ. Подобные систе-мы были, как правило, закрытыми, т.е. их дополнение и реорганизациятребовали избыточного копирования данных и переделки программ об-работка. Еще одна сложность, связанная с отсутствием универсальнойконцепции, - различие в моделях баз данных, разрабатываемых в разныхнаучных центрах. Эти различия вели к тому, что информационные систе-мы не имели уникальных программ обработки, которые могли быть ис-пользованы в других системах. Однако значимым свойством для каждойинформационной системы является возможность ее укрупнения за счетобъединения с другими. Эта проблема стала еще более острой в 70-е гг.с появлением ЭВМ , позволяющих создание банков данных, аккумули-рующих данные разных научных центров. Попытки решения привели ксозданию новых способов организации информационных систем, реали-зующих принцип независимости данных от прикладных программ. Онаи получила название базы данных. «Представление информации в видебаз данных позволило разработчикам реализовать ряд существенныхпреимуществ по сравнению с используемыми ранее информационнымисистемами, имеющими файловую организацию данных. Так, в частно-сти, появилась возможность использования одних и тех же данных одно-временно для решения многих прикладных задач, а вследствие того чтоотпала необходимость в их дублировании, была существенно сокращенаизбыточность в представлении информации» [1, с. 38].В настоящее время компьютерное представление информации в видебаз данных используется в самых разных областях языкознания и при-кладной лингвистики: в типологической и сравнительной лингвистике,фонетических, лексических, грамматических исследованиях; лексикогра-фии; семантических исследованиях, включая составление тезаурусов; вкомпьютерной лингвистике и для решения прикладных лингвистическихзадач (лингводидактических, автоматизированного перевода, автомати-ческого распознавания и синтеза речи).В настоящий период развития этой технологии в гуманитарной сфереможно говорить о следующей типологии.CaIV Гуманитарная информатика. 2011. Вып. 6 113 CaIVСреди гуманитарных баз данных можно выделить общегумани-тарные базы, содержащие информацию, актуальную для многих наукгуманитарной сферы, и специализированные базы, ориентированныена определенную гуманитарную область. Предварительно следует огово-рить, что разделение на общегуманитарные и специализированные пред-ставляется достаточно условным, так как информация, представленнаяв специализированных базах, вполне может быть использована для ис-следования в другой гуманитарной области. Но все же следует помнить отом, что создается специализированная БД специалистами одной областизнания, при создании решаются узкоспециальные задачи, а способы пред-ставления также ориентированы на достижение узкоспециальных целей.Среди специализированных БД мы можем назвать исторические,лингвистические, культурологические базы данных и т.п. Историческиебазы данных связаны с представлением массовых источников (например,БД архивных материалов по массовым репрессиям), исторических доку-ментов, фактов материальной культуры, интересных для историков (экс-позиции электронных музеев, исторические архивы) и др.В лингвистике можно говорить о существовании следующих видовлингвистических баз данных:Полнотекстовые базы, к которым могут быть отнесены как соб-ственно базы, так и корпусы текстов, например самый крупный в Рос-сии «Национальный корпус русского языка» или «Компьютерный корпустекстов русских газет конца XX века». А также базы данных, в которыхпредставлены целостные тексты, относящиеся к какой-либо дискурсив-ной сфере. Они могут представлять собой библиотеки электронных тек-стов, включающие как произведения художественной литературы, так икритические, исследовательские работы по их изучению. Подобные базыразмещены на различных филологических сайтах (портал «Кирилл и Ме-фодий», Интернет-версия журнала «Philologica», «Ruthenia», «Русскаявиртуальная библиотека»), а также могут представлять собой отдельныйсамостоятельный ресурс («Фундаментальная электронная библиотека:Русская литература и фольклор»).Примером такой базы данных может выступить База данных «Сред-необский фольклор» (http://mion.tsu.ru/song), созданная в рамках разви-тия информационной системы «Межрегиональные исследования в обще-ственных науках».Материалом для создания этой БД послужили записи текстов народ-ной культуры жителей сибирского и алтайского регионов, в том числеСреднего Приобья, которые интенсивно велись в Томском государствен-114 Гуманитарная информатика. 2011. Вып. 6 ном университете с 60-х гг. XX века. Записи проводились как в рамкахнаучных экспедиций, так и во время студенческих фольклорных практик.Архив записей хранится на филологическом факультете ТГУ в виде ру-кописных тетрадей.Материал в БД систематизируется по жанровой принадлежности,территории бытования, дате фиксации, имени исполнителя.Уже первый параметр - жанровый состав - позволяет говорить оспецифике сибирского фольклора, так как на исследованной территорииполностью отсутствуют былины и исторические песни (по крайней мере,это можно сказать в отношении рассматриваемого периода - с 60-х гг.ХХ в. по настоящее время). Здесь представлен песенный фольклор (бал-лады, хороводные, протяжные и др. песни, романсы, песни литературногопроисхождения и частушки) и загадки. Устная проза представлена жанро-выми формами сказок и быличек. Среди сказок в основном встречаютсябытовые (реже - сказки о животных). Наблюдается единичная фиксациятекстов народной драмы, особой составляющей материала являются тек-сты наивной литературы. Представлен бытовой обрядовый фольклор(описания свадебного обряда), тексты заговоров [6, с. 110].Объектом БД «Среднеобский фольклор» выступает отдельный текст,снабженный описанием по указанным параметрам. Гуманитарная информатика. 2011. Вып. 6 115Кроме текстов, БД содержит фотоархив - уникальные фотоматериа-лы, сделанные во время записи фольклорных материалов.Вторая группа - собственно базы данных, содержат информациюо лингвистических единицах различного рода. Например, «Хронологи-ческий морфемно-словообразовательный словарь русского языка», базаданных по русским прилагательным «EDGE», база фонетических данныхи др. Технология баз данных используется как в процессе создания тра-диционных словарей, так и для создания электронных словарей. Активноразрабатываются словарные базы данных специальной и терминологи-ческой лексики. Также можно назвать Международный КомпьютерныйАрхив Современного Английского Языка (International Computer Archiveof Modern English - ICAME); Летний Институт Лингвистики США (SIL),где формируются базы данных по 850 языкам; Фонетический фонд рус-ского языка, разработанный и пополняемый на кафедре фонетики и Лабо-ратория экспериментальной фонетики СПбГУ [1].При всем том исследовательская работа в этой области далека от за-вершения, так как объект лингвистики - язык - безграничен и многоме-рен, в силу своих специфических свойств: элементы языковой системы неоднородны и количественно нео-бозримы; языковой знак динамичен - в процессе функционирования про-исходит трансформация формальной и содержательной сторон,116 Гуманитарная информатика. 2011. Вып. 6 что влечет за собой порождение вариантов знака или новых эле-ментов системы; языковые структуры конструктивны, т.е. множество порож-даемых высказываний, адаптированных для выражения самыхсложных ментальных построений, потенциально бесконечно; языковая деятельность тесно связана с коммуникативной и при-спосабливается к выражению самых сложных коммуникативныхсмыслов; языковые структуры связаны с когнитивными процес-сами, и в силу этого языковая семантика достаточно сложно фор-мализуется.Каждое из названных свойств говорит, с одной стороны, о неограни-ченном информационном потенциале языковой системы, а с другой - отом, что эта информация необычайно сложно структурируется даже науровне отдельных языковых элементов. Однако необходимость форма-лизации лингвистической информации для решения прикладных задачведет к актуализации исследований в этом направлении.Можно говорить о следующих перспективах использования лингви-стических баз данных.Теоретические перспективы видятся в использовании технологии БДв лингвистических и, в частности, лингвокогнитивных исследованиях,так как решают проблему поиска, фиксации, хранения и верификацииэмпирического материала.Практическое значение БД видится в решении задач:автоматизированной обработки и синтеза устной речи (фонетиче-ские БД), письменной речи (морфологические БД);информационного поиска (лексикографические БД). В частности,базы данных, ориентированные на описание лексической семантики, по-зволяют получать данные о способах концептуализации действительно-сти в том или ином языке, используемые в системах текстового анализаи машинного перевода, в лингводидактике и т.п. С другой стороны, в со-временных работах по моделированию БД [2, 3, 4, 5, 7 и др.] говорит-ся о перспективах использования естественноязыковой категоризации влогико-лингвистическом концептуальном моделировании. Р.Ю. Кобринуказывает на то, что в настоящее время существуют два подхода в соз-дании банков данных: а) построение языковых моделей предметныхобластей; б) построение алгебро-логических баз данных. Однако в ре-шении прикладных задач доминирует второй подход. При всем том ав-тор указывает, что лингвистическое моделирование может выступать вкачестве основы концептуального. В частности, такую задачу он решает Гуманитарная информатика. 2011. Вып. 6 117на материале лингвистического анализа терминологии, устанавливая си-стему семантических отношений в рамках заданной области [4]. Вариан-ты решения данных задач представлены и в работах А.Н. Баранова [2],С.Е. Н икитиной [7].Подобный подход представляется перспективным в свете современ-ных теорий концептуализации, в основе которых лежит антропный прин-цип, находящий последовательное отражение в естественном языке. На-пример, база данных русских зоонимов позволяет представить в струк-турированном виде концептуальную область «Зоология», специфичнуюдля носителей русского языка.Проблемы терминологической эквивалентности (терминологиче-ские БД и тезаурусы) связаны с тем, что качество научной деятельностии научной коммуникации во многом определяется спецификой языковыхединиц, фиксирующих эпистемологические модели знания.Базовой единицей концептуализации и структурирования научнойобласти выступает термин, концептуальная система отражена в термино-системе научной области.Одним из главных требований к терминологической единице являет-ся требование семантической стабильности. Но термины - это не толькоконцептуальные, но и лингвистические единицы и вне зависимости отпредъявляемых к ним требований попадают под действие общеязыковыхзаконов. Семантика термина, как и семантика лексических единиц, под-вержена действию закона асимметричного дуализма языкового знака, чтопроявляется как в образовании термина на основе лексико-семантическоговарьирования, так и в процессах метафоризации. За счет этого термино-системы обладают определенной динамикой, кроме того, терминосисте-мы различных языков не являются симметричными, что влечет за собойпроблему информационной однозначности в интерпретации термина.Терминологические базы данных и тезаурусы позволяют проводитьэффективный сопоставительный анализ эпистемологических моделей,функционирующих в национальных культурах, находить адекватныеэквиваленты и вырабатывать универсальные эпистемологические систе-мы.Таким образом, решение проблемы и концептуализации и структури-рования специализированных предметных областей - актуальная задачакогнитивной лингвистики, особенно в части разработки прикладных про-ектов.До настоящего времени не получили достаточного освещения пробле-мы метафоризации терминосистем, в частности, соотношения функцио-118 Гуманитарная информатика. 2011. Вып. 6 нирования метафорических и неметафорических терминов, взаимодей-ствия и взаимовлияния терминосистем различных научных дисциплин,внутридисциплинарной полисемии термина, а также принципы отборалексико-семантических единиц при метафорическом терминообразова-нии.Применение технологии БД позволит выявить принципы формирова-ния современных терминосистем в разных языках, тенденции их динами-ки и на этом основании выработать принципы корректирования семанти-ки терминов и терминологического соотнесения при научном переводе.
Скачать электронную версию публикации
Загружен, раз: 458
Ключевые слова
Авторы
ФИО | Организация | Дополнительно | |
Мишанкина Наталья Александровна | НИ Томский Госуниверситет |
Ссылки
Кобрин Р.Ю. Лингвистическое описание терминологии как база концептуального моделирования в информационных системах: Автореф. дис. ... д-ра филол. наук. Л., 1989.
Марчук Ю.Н. Компьютерная лингвистика. - М.: АСТ : Восток-Запад, 2007.
Мишанкина Н.А., Тубалова И.В., Эмер Ю.А. Филология и информатика: специфика электронного представления региональных фольклорных текстов // Гуманитарная инфор- матика: Сб. статей / Под ред. Г.В. Можаевой. - Томск: Изд-во Том.ун-та, 2004. Вып. I. - С. 102-114.
Никитина С.Е. Семантический анализ языка науки: на материале лингвистики. - Изд.2-е. - М.: Книжный дом «ЛИБРОКОМ », 2010. - 146 с.
Рябцева Н.К. Язык и естественный интеллект: РАН . Ин-т языкознания. - М.: Academia, 2005. - 640 с.
Асиновский А.С., Архипова Е.А., Богданова Н.В. и др. Полевая лингвистическая практика: Учебно-метод. комплекс сложной структуры. Часть 1: Теоретические основы и методика сбора лингвистических данных для представления их в речевом корпусе русского языка. - СПб., 2006.
Баранов А.Н. Введение в прикладную лингвистику. - М., 2001.
Герд A.С. Прикладная лингвистика. - СПб.: Изд-во СПб. ун-та, 2005.
