БАЗЫ ДАННЫХ В ФИЛОЛОГИЧЕСКИХ ИССЛЕДОВАНИЯХ | Открытое и дистанционное образование. 2012. № 2 (46).

БАЗЫ ДАННЫХ В ФИЛОЛОГИЧЕСКИХ ИССЛЕДОВАНИЯХ

Рассматриваются проблемы, связанные с обработкой информации и созданием информационных систем в гуманитарной сфере на основе технологии баз данных. В частности, автор обращается к способам применения данной технологии в области филологических исследований.

DATABASE IN SOCIO-HUMANITARIAN RESEARCH.pdf Состояние современного мира может быть охарактеризовано как гиперинформационное. Период общественного развития со второй половины XX - начала XXI в. тесно связан с изменением представлений о роли информации в жизни как отдельного человека, так и общества в целом. Появление и активное развитие новых технологий обработки информации повлекло за собой кардинальное изменение ценностных ориентаций общества - информация как ресурс стала приобретать все большую значимость. Это, в свою очередь, привело к резкому увеличению информационных потоков и формированию банков информации. Необходимость хранения больших объемов информации привела к возникновению новой проблемы, связанной с ее организацией и систематизацией. Потребность в создании информационных систем связана с тем, что широкий доступ к необходимой исследователю информации позволяет осуществлять более результативные действия в самых разных областях, дает возможность эффективно управлять информационными потоками. Именно поэтому актуальной задачей становится разработка междисциплинарных методик, позволяющих осуществлять аналитическую обработку информации и поиск способов ее структурирования для эффективного хранения и обработки. Наиболее адекватными в этом аспекте представляются комплексные методики, позволяющие создавать базы данных (БД) - структурированные массивы данных, хранимые и управляемые с применением компьютерных технологий, используемые для создания и функционирования эффективных информационных систем [1, 3, 4, 10,11]. Предпосылками для разработки технологии и создания баз данных можно считать насущную необходимость в решении целого ряда значимых для гуманитарной сферы и в целом для науки задач.Первая из них - уже упомянутая выше необходимость создания информационных систем. И здесь базы данных помогут эффективно структурировать информацию, начиная от процедур первичного анализа информации до технологий организации информационных массивов большого объема.Вторая задача связана с повышением достоверности и эффективности социогуманитарных исследований, непосредственно зависящих от доступности научной информации (как первичной, в виде материала для анализа, так и вторичной - результата теоретического осмысления). Основа филологического исследования - накопленная эмпирическая информация об изучаемом объекте реального мира, при этом, чем масштабнее исследовательский проект, тем более объемным должен быть подлежащий обработке материал. Базы данных позволяют значительно упростить доступ к эмпирическим материалам, упростить процедуру систематизации и верификации. В частности, именно поэтому была актуализирована проблема создания филологических информационных ресурсов, так как эффективность реализации многих научных программ в этой области в значительной мере определяется степенью автоматизации обработки данных и организации доступа к ним. Эта проблема особенно заостряется в междисциплинарных исследованиях, где необходим синтез знаний и фактографического материала из различных областей [4. С. 125].В частности, для фиксации различных проявлений языковой системы возникла необходимость в создании лингвистических ресурсов, направленных на решение задач:- структурирования и первичного анализа эмпирического материала, начиная от фиксации единиц языковых уровней (грамматиконы, словари, фонетические базы данных) до фиксации целостных текстов, что позволяет, с одной стороны, дополнить и уточнить структурную модель языковой системы, а с другой - сформировать, во-первых, функциональную модель языковой системы и, во-вторых, лингвистические модели дискурсивных областей;- поиска новых способов его фиксации и сохранения, а также организации доступа к этим материалам; - поиска новых методов обработки материала для оптимизации исследования и получения новых результатов, и это непосредственно относится к статистическим методам обработки лингвистической информации, позволяющей сформировать вероятностную модель языка или отдельных дискурсов;- верификации результатов исследования за счет обращения к материалу большего объема. Например, Е.И. Ярославцева отмечает, что компьютерная база данных «Языки мира», представляющая собой универсальный грамматикон, может быть использована в лингвистической типологии для верификации гипотез о типологической близости языков [12. С. 356]; - структурирования теоретической лингвистической информации.Это привело к созданию информационных систем для аккумуляции, хранения и первичной обработки лингвистической информации, таких как словари, лингвистические корпусы и лингвистические базы данных.Цель настоящей работы - представить обзор разработанных к настоящему моменту филологических баз данных и рассмотреть перспективы их использования в научно-исследовательской и образовательной деятельности.60-е гг. ХХ в. - время, когда начинается разработка различных концепций компьютерного представления и обработки данных. К этому времени уже существовали развитые и разнообразные информационные системы: библиотеки, архивы. Поэтому автоматизация обслуживания информационных систем была в первую очередь востребована именно в этих областях. Позднее компьютерные базы и архивы стали создаваться и для конкретных исследовательских задач в разных областях филологии.В России разработка теоретических основ создания баз данных впервые была осуществлена в рамках программы ГАСНИТИ (разработка ИПС) и в рамках работы по Машинному фонду РЯ. Подобные системы были, как правило, закрытыми, т.е. ее дополнение и реорганизация требовали избыточного копирования данных и переделки программ обработки. Еще одна сложность, связанная с отсутствием универсальной концепции - различие в моделях баз данных, разрабатываемых в разных научных центрах. Эти различия вели к тому, что информационные системы не имели уникальных программ обработки, которые могли быть использованы в других системах. Однако значимым свойством для каждой информационной системы является возможность ее укрупнения за счет объединения с другими. Эта проблема стала еще более острой в 70-е гг. с появлением ЭВМ, позволяющими создание банков данных, аккумулирующих данные разных научных центров. Попытки решения привели к созданию новых способов организации информационных систем, реализующих принцип независимости данных от прикладных программ. Она и получила название базы данных. «Представление информации в виде баз данных позволило разработчикам реализовать ряд существенных преимуществ по сравнению с используемыми ранее информационными системами, имеющими файловую организацию данных. Так, в частности, появилась возможность использования одних и тех же данных одновременно для решения многих прикладных задач, а вследствие того, что отпала необходимость в их дублировании, была существенно сокращена избыточность в представлении информации» [1. С. 38].В настоящее время компьютерное представление информации в виде баз данных используется в самых разных областях языкознания и прикладной лингвистики: в типологической и сравнительной лингвистике, фонетических, лексических, грамматических исследованиях; лексикографии; семантических исследованиях, включая составление тезаурусов; в компьютерной лингвистике и для решения прикладных лингвистических задач (лингводидактических, автоматизированного перевода, автоматического распознавания и синтеза речи).В настоящий период развития этой технологии в гуманитарной сфере можно говорить о следующей типологии существующих баз данных.Среди гуманитарных баз данных можно выделить общегуманитарные базы, содержащие информацию, актуальную для многих наук гуманитарной сферы, и специализированные базы, ориентированные на определенную гуманитарную область. Предварительно следует все же оговорить, что разделение на общегуманитарные и специализированные базы представляется достаточно условным, так как информация, представленная в специализированных базах, вполне может быть использована для исследования в другой гуманитарной области. Но все же следует помнить о том, что создается специализированная БД специалистами одной области знания, при создании решаются узкоспециальные задачи, а способы представления также ориентированы на достижение узкоспециальных целей.Среди специализированных БД мы можем назвать исторические, лингвистические, культурологические базы данных и т.п. Исторические базы данных связаны с созданием и представлением массовых источников (например, БД архивных материалов по массовым репрессиям), исторических документов, фактов материальной культуры, представляющих интерес для историков (экспозиции электронных музеев, исторические архивы) и др. В филологии можно говорить о существовании следующих видов баз данных, как полнотекстовые базы, к которым могут быть отнесены собственно базы и корпусы текстов, например самый крупный в России «Национальный корпус русского языка» или «Компьютерный корпус текстов русских газет конца XX века», а также базы данных, в которых представлены целостные тексты, относящиеся к какой-либо дискурсивной сфере. Они могут представлять собой библиотеки электронных текстов, включающие как произведения художественной литературы, так и критические, исследовательские работы по их изучению. Подобные базы размещены на различных филологических сайтах (портал «Кирилл и Мефодий», интернет-версия журнала «Philologica», «Ruthenia», «Русская виртуальная библиотека»), а также могут представлять собой отдельный самостоятельный ресурс («Фундаментальная электронная библиотека: Русская литература и фольклор»). Примером такой базы данных может выступить база данных «Среднеобский фольклор» (http://mion.tsu.ru/song), созданная в рамках развития информационной системы «Межрегиональные исследования в общественных науках».Материалом для создания этой БД послужили записи текстов народной культуры жителей сибирского и алтайского регионов, в том числе Среднего Приобья, которые интенсивно велись в Томском государственном университете с 60-х гг. XX в. Записи проводились как в рамках научных экспедиций, так и в системе студенческих фольклорных практик. Архив записей хранится на филологическом факультете ТГУ в виде рукописных тетрадей. Материал в БД систематизируется по параметрам: жанровой принадлежности, территории бытования, дате фиксации, имени исполнителя (рис. 1). Рис. 1Уже первый параметр - жанровый состав - позволяет говорить о специфике сибирского фольклора, так как на исследованной территории полностью отсутствуют былины и исторические песни (по крайней мере, это можно сказать в отношении рассматриваемого периода - с 60-х гг. ХХ в. по настоящее время). Здесь представлен песенный фольклор (баллады, хороводные, протяжные и другие песни, романсы, песни литературного происхождения и частушки), загадки. Устная проза представлена жанровыми формами сказок и быличек. Среди сказок, в основном, встречаются бытовые (реже сказки о животных). Представлен бытовой обрядовый фольклор (описания свадебного обряда), тексты заговоров [7. С. 110].Единицей БД «Среднеобский фольклор» выступает отдельный текст, снабженный описанием по указанным параметрам (рис. 2).Рис. 2Кроме текстов, БД содержит фотоархив - уникальные фотоматериалы, сделанные во время записи фольклорных материалов (рис. 3).Рис. 3Подобные базы данных широко применяются в филологическом образовании, так как представляют целостные области функционирования различных текстов, что позволяет рассматривать их в дискурсивном аспекте. Например, описанная выше база данных «Среднеобский фольклор» позволяет получить доступ к специфичным в региональном и лингвокультурологическом плане текстам для осуществления их аналитической обработки, реконструкции этого фрагмента народной культуры, варианта национальной картины мира, сопоставления с подобными текстами другого региона и т.п.Вторая группа - собственно база данных - содержат информацию о лингвистических единицах различного рода. Например, «Хронологический морфемно-словообразовательный словарь русского языка», база данных по русским прилагательным «EDGE», база фонетических данных и др. Технология баз данных используется как в процессе создания традиционных словарей, так и для создания электронных словарей. Активно разрабатываются словарные базы данных специальной и терминологической лексики. Также можно назвать Международный компьютерный архив современного английского языка (International Computer Archive of Modern English - ICAME); Летний институт лингвистики США (SIL), где формируются базы данных по 850 языкам; Фонетический фонд русского языка, разработанный и пополняемый на кафедре фонетики, и Лаборатория экспериментальной фонетики СПбГУ [1]. При всем том исследовательская работа в этой области далека от завершения, так как объект лингвистики - язык - принципиально безграничен и многомерен в силу своих специфических свойств: •элементы языковой системы неоднородны и количественно необозримы; •языковой знак динамичен - в процессе функционирования происходит трансформация формальной и содержательной сторон, что влечет за собой порождение вариантов знака или новых элементов системы; •языковые структуры конструктивны, т.е. множество порождаемых высказываний, адаптированных для выражения самых сложных ментальных построений, потенциально бесконечно; •языковая деятельность тесно связана с коммуникативной и приспосабливается к выражению самых сложных коммуникативных смыслов; языковые структуры связаны с когнитивными процессами и в силу этого языковая семантика достаточно сложно формализуется. Каждое из названных свойств говорит, с одной стороны, о неограниченном информационном потенциале языковой системы, а с другой - о том, что эта информация необычайно сложно структурируется даже на уровне отдельных языковых элементов. Однако необходимость формализации лингвистической информации для решения прикладных задач ведет к актуализации исследований в этом направлении. Можно говорить о следующих перспективах использования лингвистических баз данных. Теоретические перспективы видятся в использовании технологии БД в лингвистических и, в частности, лингвокогнитивных исследованиях. Применение данной технологии в исследовании когнитивной деятельности связаны с изучением концептуализации действительности. И здесь на первый план выступают принципы представления информации в базах данных, принципы, лежащие в основе когнитивного моделирования данных, формирования «моделей-онтологий» - «комплексных разносторонне формализованных представлений предметной области…», представляющих «…синтез лингвистических, тезаурусных, понятийных, энциклопедических и процедурно-декларативных специальных знаний» [9. С. 53]. Базы данных, ориентированные на описание лексической семантики, позволяют получать данные о способах концептуализации действительности в том или ином языке, используемые в системах текстового анализа и машинного перевода, в лингводидактике и т.п. С другой стороны, в современных работах по моделированию БД [2, 4 - 6, 8 и др.] говорится о перспективах использования естественноязыковой категоризации в логико-лингвистическом концептуальном моделировании. Р.Ю. Кобрин указывает на то, что в настоящее время существует два подхода в создании банков данных: а) построение языковых моделей предметных областей; б) построение алгебро-логических баз данных. Однако в решении прикладных задач доминирует второй подход. Вместе с тем, автор указывает, что лингвистическое моделирование может выступать в качестве основы концептуального. В частности, такую задачу он решает на материале лингвистического анализа терминологии, устанавливая систему семантических отношений в рамках заданной области [5]. Попытки решения данной проблемы представлены и в работах А.Н. Баранова [2], А.С. Герда [4], С.Е. Никитиной [8].Подобный подход представляется перспективным в свете современных теорий концептуализации, в основе которых лежит антропный принцип, находящий последовательное отражение в естественном языке. Например, база данных русских зоонимов позволяет представить в структурированном виде концептуальную область «Зоология», специфичную для носителей русского языка. Подобная база данных может быть использована в образовательном процессе как лексикографический источник в преподавании курсов «Лексикография», «Лексикология», «Лингвокультурология», «Языковая картина мира», «Русский язык как иностранный» и др.Практическое значение лингвистических БД видится в решении задач: •автоматизированной обработки и синтеза устной речи (фонетические БД), письменной речи (морфологические БД); •информационного поиска (лексикографические БД). Проблемы терминологической эквивалентности (терминологические БД и тезаурусы) связаны с тем, что качество научной деятельности и научной коммуникации во многом определяется спецификой языковых единиц, фиксирующих эпистемологические модели знания. Базовой единицей концептуализации и структурирования научной области выступает термин, концептуальная система отражена в терминосистеме научной области. Одним из главных требований к терминологической единице является требование семантической стабильности. Но термины - это не только концептуальные, но и лингвистические единицы, и вне зависимости от предъявляемых к ним требований они попадают под действие общеязыковых законов. Семантика термина, как и семантика лексических единиц, подвержена действию закона асимметричного дуализма языкового знака, что проявляется как в образовании термина на основе лексико-семантического варьирования, так и в процессах метафоризации. За счет этого терминосистемы обладают определенной динамикой, кроме того, терминосистемы различных языков не являются симметричными, что влечет за собой проблему информационной однозначности в интерпретации термина. Терминологические базы данных и тезаурусы позволяют проводить эффективный сопоставительный анализ эпистемологических моделей, функционирующих в национальных культурах, находить адекватные эквиваленты и вырабатывать универсальные эпистемологические системы. Велика значимость терминологических БД для обучения в рамках определенной научной области, так как терминосистема, отраженная в БД, представляет собой концептуально-понятийную структуру предметной области.Таким образом, решение проблемы и концептуализации, и структурирования специализированных предметных областей может рассматриваться как актуальная задача, с одной стороны, прикладной, а с другой - когнитивной лингвистики, особенно в части разработки прикладных проектов. До настоящего времени не получили достаточного освещения проблемы метафоризации терминосистем, в частности, соотношения функционирования метафорических и неметафорических терминов, взаимодействие и взаимовлияние терминосистем различных научных дисциплин, внутридисциплинарная полисемия термина, а также принципы отбора лексико-семантических единиц при метафорическом терминообразовании. Применение технологии БД позволит выявить принципы формирования современных терминосистем в разных языках, тенденции их динамики и на этом основании выработать: принципы корректирования семантики терминов; принципы терминологического соотнесения при научном переводе.

Ключевые слова

информационные системы, базы данных, виды гуманитарных баз данных, когнитивный базис концептуализации предметных областей, information systems, database, types of databases, cognitive base of universe of discourse conceptualization

Авторы

ФИООрганизацияДополнительноE-mail
Мишанкина Наталья АлександровнаФГБУ ВПО «Национальный исследовательский Томский государственный университет»доцент кафедры гуманитарных проблем информатики
Всего: 1

Ссылки

Асиновский А.С., Архипова Е.А., Богданова Н.В. и др. Полевая лингвистическая практика: Учеб.-метод. комплекс сложной структуры. - Ч. 1. Теоретические основы и методика сбора лингвистических данных для представления их в речевом корпусе русского языка. - С
Баранов А.Н. Введение в прикладную лингвистику. - М., 2001.
Гайдамакин Н.А. Автоматизированные информационные системы, базы и банки данных. Вводный курс: учеб. пособие. - М.: Гелиос АРВ, 2002. - 368 с.
Герд A.С. Прикладная лингвистика. СПб.: Изд-во С-.Петерб. ун-та, 2005.
Кобрин Р.Ю. Лингвистическое описание терминологии как база концептуального моделирования в информационных системах: автореф. дис. … д-ра филол. наук. - Л., 1989.
Марчук Ю.Н. Компьютерная лингвистика. - М.: АСТ: Восток - Запад, 2007.
Мишанкина Н.А., Тубалова И.В., Эмер Ю.А. Филология и информатика: специфика электронного представления региональных фольклорных текстов // Гуманитарная информатика: Сб. статей / Под ред. Г.В. Можаевой. - Томск: Изд-во Том. ун-та, 2004. - Вып. I. - С. 102
Никитина С.Е. Семантический анализ языка науки: на материале лингвистики. 2-е. изд. - М.: Книжный дом «ЛИБРОКОМ», 2010. - 146 с.
Рябцева Н.К. Язык и естественный интеллект / РАН. Ин-т языкознания. - М.: Academia, 2005. 640 с: библ. (Монографические исследования: лингвистика).
Советов Б.Я. Базы данных. - М.: Высш. шк. 2005. - 462, [1] с.
Хомоненко А.Д. Базы данных. - СПб.: Корона-Принт 2004. - 735 с.
Ярославцева Е.И. Грамматикон и база данных «Языки мира» // Scripta linguisticae applicatae. Проблемы прикладной лингвистики - 2001: Сб. статей. - М.: «Азбуковник», 2001. - С. 339-357.
 БАЗЫ ДАННЫХ В ФИЛОЛОГИЧЕСКИХ ИССЛЕДОВАНИЯХ | Открытое и дистанционное образование. 2012. № 2 (46).

БАЗЫ ДАННЫХ В ФИЛОЛОГИЧЕСКИХ ИССЛЕДОВАНИЯХ | Открытое и дистанционное образование. 2012. № 2 (46).