Платформа РгоСибирь: первый год работы и перспективы развития | Текст. Книга. Книгоиздание. 2021. № 27. DOI: 10.17223/23062061/27/8

Платформа РгоСибирь: первый год работы и перспективы развития

Рассматривается опыт работы по созданию и введению в действие платформы РгоСибирь, предназначенной для дистанционной работы с текстами, созданными на территории Сибири. Работа над платформой началась в 2020 г. в рамках Программы повышения конкурентоспособности НИ ТГУ силами сотрудников Научной библиотеки ТГУ. Спустя год на платформе реализованы возможности для исследователей гуманитарного профиля и представителей гражданской науки, продолжается содержательное наполнение платформы, планируются перспективы развития проекта.

The ProSiberia Platform: The First Year of Operation and Development Prospects.pdf Постановка проблемы Работа в цифровой среде становится в последнее время все более привычной не только для представителей точных и естественных наук, но также и для гуманитариев, в том числе филологов. Существует целый ряд возможностей, помогающих ученым как дистанционно обращаться к текстам тех или иных произведений и документов, так и решать исследовательские задачи, а также организовывать сетевое взаимодействие - например, для выполнения проектов. Работы такого рода вызывают, с одной стороны, энтузиазм многих представителей профессионального сообщества, а с другой - закономерный скептицизм [1]. Однако в прошедший год все исследователи столкнулись с жизненной необходимостью эффективно организовывать свою работу в интернет-пространстве. В 2020 г. в Научной библиотеке Томского государственного университета в рамках Программы повышения конкурентоспособности НИ ТГУ был запущен проект платформы ProСибирь [2]. В настоящее 1 Работа выполнена при поддержке Программы повышения конкурентоспособности ТГУ. В.А. Есипова, Н.Н. Светличная 140 время реализован начальный вариант платформы, который включает в себя ряд возможностей как для исследователей, так и для представителей гражданской науки. В данной статье будет охарактеризовано то, что уже предлагается пользователям, а также рассмотрены различные варианты дальнейшего развития платформы. РгоСибирь: итоги первого года работы Первый год работы над платформой включал в себя два основных этапа: - разработка технологической концепции платформы (сюда входило обсуждение и составление технического задания, а также создание прототипа); - собственно воплощение первоначального варианта платформы. Первый этап предполагал, среди прочего, точную формулировку целей и задач проекта. В качестве цели было сформулировано следующее положение: создание на основе агрегации цифровых источников, имеющих сибирское происхождение, исследовательской площадки (платформы), которая объединит ученых, кураторов контента (библиотеки, музеи, архивы) и общество с целью изучения Сибири и позиционирования региона в мировом информационном пространстве. Исходя из этой цели, был сформулирован ряд задач, первая из которых звучала так: создание цифровой платформы и набора цифровых исследовательских сервисов для работы с сибирскими источниками и представления результатов исследовательских проектов, выполненных на их основе. В основном выполнению этой задачи и был посвящен первый год работы по проекту. Техническим исполнением занималось ООО «Линии» (Пермь). Сейчас на платформе реализован ряд возможностей как для исследователей, так и для представителей гражданской науки (рис. 1). Пользователь платформы может выступать в двух качествах: как исследователь и как волонтер; в этих качествах ему доступен разный функционал. При его выборе авторы проекта руководствовались в первую очередь базовыми функциями в рамках исследовательского процесса в целом. Что необходимо исследователю, если он не имеет прямого доступа к оригиналам интересующих его источников? Во-первых, этот доступ Платформа РгоСибирь: первый год работы и перспективы развития 141 необходимо каким-то образом организовать. Во-вторых, для работы часто бывает нужен текст не одного, а нескольких источников, не говоря уже о сопровождающем справочном материале и исследованиях по разрабатываемой теме. В-третьих, при работе с текстом источника часто возникает потребность сделать пометки или записать некоторые соображения. Наконец, если имеется в виду работа в рамках некоторого проекта, часто необходимо коллективное мнение при обращении к одному и тому же тексту. Соответственно, в настоящий момент платформа располагает следующим функционалом для исследователей: - организован доступ к цифровым копиям источников о Сибири с подробным описанием и полнотекстовым поиском (см., напр.: [3]). В.А. Есипова, Н.Н. Светличная 142 В данном случае мы видим не только полное описание одного из знаковых текстов о Сибири - «Краткого описания о народе остяцком» Г.И. Новицкого, - но также имеем возможность пройти по гиперссылкам, обеспечивающим доступ к публикациям полного текста и описаниям в составе каталогов. При входе в полнотекстовый режим исследователь получает возможность не только знакомиться с полным текстом, но также делать пометы, писать заметки по ходу работы с текстом (рис. 2); Рис. 2. Добавление заметок при работе в полнотекстовом режиме на платформе РгѳСибирь - предоставлена возможность создания собственных коллекций (рис. 3). Любой исследователь, зарегистрировавшийся на платформе, может создать свою коллекцию как из документов, уже имеющихся на платформе, так и загрузив туда свои документы, необходимые для работы. К этой коллекции можно открыть доступ группе, которая работает в рамках одного проекта, а можно сделать коллекцию общедоступной, но только после модерации; - обеспечена возможность совместной работы с текстом источника по принципу Google Docs с некоторыми дополнительными функциями. При работе с документом в режиме чтения можно создать группу и пригласить туда заинтересованных исследователей. В этом случае Платформа РгоСибирь: первый год работы и перспективы развития 143 они будут видеть заметки друг друга и смогут вести обсуждение текста онлайн; Рис. 3. Коллекция «История библиотек», созданная пользователем на платформе РгоСибирь Рис. 4. Страница «Рекомендуемые исследователи» на платформе Pro Сибирь В.А. Есипова, Н.Н. Светличная 144 - дается возможность связаться с исследователями, которые интересовались подобной тематикой (функция «Рекомендованные исследователи»), после их обращения к тому или иному тексту и анализа «цифрового следа» системой (рис. 4); - существует также ряд возможностей для обмена мнениями на платформе: это блоги (рис. 5), новости и различные голосования. Рис. 5. Страница блога на платформе РгѳСибирь Если говорить о представителях гражданской науки (волонтерах), их функционал на платформе немного иной. Здесь прежде всего необходимо сказать о роли гражданской науки в целом. Ей уделяется в последнее время все больше внимания. Достаточно вспомнить о концепции Open Science, которая предполагает в числе прочего равный и свободный доступ не только к результатам научных исследований (например, статьям и монографиям), но также и к «сырым данным» -разумеется, в тех случаях, когда этот доступ не ограничен авторским правом, коммерческой или государственной тайной. В качестве примера широкого привлечения активистов гражданской науки к серьезным проектам национального уровня можно привести проект Trove Национальной библиотеки Австралии, где для правки электронных текстов газет XIX в. были привлечены многочисленные волонтеры [4]. Платформа РгоСибирь: первый год работы и перспективы развития 145 Этот же принцип был реализован и в рамках платформы Pro Сибирь: тот пользователь, который зарегистрировался в качестве волонтера, имеет возможность редактирования электронных текстов, например газет (рис. 6). В дальнейшем, после модерации, эти тексты становятся общедоступными. Роль такого участия волонтеров в работе платформы трудно переоценить: известно, что автоматическое распознавание текстов имеет ряд дефектов, а для полноценного полнотекстового поиска необходимы корректно распознанные тексты. Кроме того, волонтер имеет возможность обсуждений в блоге; также на платформе представлен рейтинг волонтеров и организовываются челленджи по распознаванию текста. Рис. 6. Страница редактирования автоматически распознанного текста на платформе РгоСибирь Таким образом, в первоначальном варианте платформы РгоСибирь реализованы некоторые базовые функции, необходимые исследователю для дистанционной работы с тексами, а также предусмотрено участие волонтеров. Однако очевидно, что исследовательские задачи не исчерпываются изложенным выше. Более того, при обращении к одному и тому же тексту разные исследователи ставят различные задачи и используют различный исследовательский инструментарий. Это В.А. Есипова, Н.Н. Светличная 146 соображение и определило постановку задач на следующий этап развития проекта РгѳСибирь. Перспективы развития РгоСибирь В 2021 г. был начат следующий этап работы над проектом. Для определения потребностей исследователей-гуманитариев состоялись встречи в формате фокус-групп с представителями разных факультетов: филологического, исторических и политических наук, факультета журналистики Томского государственного университета. Также был проведен экспертный опрос, в рамках которого выявлено мнение специалистов за пределами ТГУ как в Томске (Томский областной краеведческий музей, Государственный архив Томской области), так и за его пределами (Новосибирск, Екатеринбург, Санкт-Петербург, Москва). По результатам отзывов исследователей и экспертов, а также тестирования функционала платформы на ограниченной группе пользователей проектной группой сформулирован ряд задач на следующий этап проекта: - наполнение платформы источниками. Здесь речь идет об отражении на платформе цифровых ресурсов по изучению Сибири из фонда НБ ТГУ (предполагается разместить 200 тыс. выпусков сибирских газет, 2 660 названий книг, 580 рукописей, 275 изоматериалов), а в перспективе - цифровых источников партнеров; - работа над повышением качества текстов источников. Здесь в первую очередь имеется в виду привлечение волонтеров для корректного распознавания текстов тех источников, которые уже размещены на платформе и будут размещены в дальнейшем; - агрегация цифровых инструментов для гуманитариев в одном месте для эффективной исследовательской работы с текстами. Уже принято решение, что этот агрегатор не будет использоваться только для работы с документами, размещенными на платформе РгѳСибирь. Вероятнее всего, это будет отдельный ресурс, где можно будет работать также и с источниками, расположенными в других местах; - привлечение партнеров. В ходе работы уже был проведен ряд предварительных переговоров с кураторами контента (музеями и библиотеками), а также с исследовательскими и образовательными организациями; Платформа РгоСибирь: первый год работы и перспективы развития 147 - интеграция возможностей платформы в образовательный процесс. Здесь имеется в виду, например, использование возможностей РгоСибирь для проведения практик по редактированию текста или по работе с разными типами источников. На последней задаче был сделан особый акцент большинством преподавателей ТГУ при проведении фокус-групп. Это действительно представляется важным, поскольку в настоящее время уже существуют многочисленные учебные программы по направлениям цифровой гу-манитаристики: магистерские программы «Компьютерная и когнитивная лингвистика» и «Цифровые технологии в издательском деле» [5] в Томском государственном университете, магистерская программа «Цифровые технологии в филологии. Компьютерная лингвистика» в Южном федеральном университете (Ростов-на-Дону) [6], программы Центра цифровой гуманитаристики Пермского государственного университета [7], - и это не говоря о ведущих вузах страны и ближнего зарубежья, для которых интеграция с возможностями платформы РгоСибирь может быть весьма полезной. Заметим, что имеется и целый ряд отечественных исследовательских групп, которые работают в сходном направлении. Например, уже давно функционирует ассоциация «История и компьютер» при кафедре исторической информатики МГУ, где выходят ее информационные бюллетени [8]. Наиболее сложным и интересным представляется вопрос об агрегации цифровых инструментов, необходимых специалистам-гумани-тариям. Важно понимать, что целью любых цифровых инструментов является эффективная исследовательская работа в цифровом пространстве, а их функция сводится к выполнению определенной группы исследовательских задач. По этой причине нет смысла просто собирать в одном месте все цифровые инструменты, которые существуют в настоящее время. Выделим часть из них, которые представляются наиболее перспективными для работы с цифровыми текстами, исходя из запроса опрошенных экспертов и исследователей. Цифровые инструменты для гуманитарных исследований 1. Инструменты для создания и работы с цифровыми факсимиле В данный момент на РгоСибирь реализован следующий формат представления текста. Имеется два слоя: первый включает в себя В.А. Есипова, Н.Н. Светличная 148 изображение - т.е. цифровое факсимиле в базовом смысле этого термина. Второй слой - это распознанный текст, по которому ведется полнотекстовый поиск. Однако есть ряд различных вариантов создания цифрового образа текста; существует обширный зарубежный опыт в этой области. Достаточно назвать такой пример, как Text Encoding Initiative (TEI, Международный консорциум) [9]. Эта организация существует с 1994 г., и основным ее занятием является разработка стандартов для представления текстов в электронной форме. В этом же направлении работает и сообщество, объединенное вокруг школы «Письменное наследие и информационные технологии -El Manuscript» [10]. В качестве примера разработок в отечественном исследовательском поле можно привести сайт «Манускрипт» [11]. В числе прочего эти группы разрабатывают и теоретические вопросы компьютерного источниковедения, уделяют внимание проблемам корпусной лингвистики и электронной лексикографии. 2. Инструменты для текстометрии Под текстометрией в данном случае понимается методика компьютеризированного исследования текстовых данных, сочетающая инструменты количественного и качественного анализа. Она позволяет использовать различные виды структурной и аналитической разметки, присутствующей в корпусе или создающейся автоматически в процессе импортирования данных [12, 13]. Существует большое количество программного обеспечения, позволяющего решать те или иные задачи из области текстометрии (анализ частотности слов, контент-анализ и др.), однако есть единое программное решение для этих и ряда других задач - это свободно распространяемое ПО на сайте «Текстометрия» [14]. 3. Инструменты для работы с рукописями Отдельно отметим ряд практик и ресурсов, позволяющих перенести в онлайн-формат исследования в области работы со средневековыми рукописями. Эти исследования, по крайней мере частично, можно отнести к сфере, которую принято называть «новой филологией»; они имеют как своих сторонников, так и критиков [15, 16]. Традиционно считается, что как минимум часть исследовательского процесса при изучении рукописей возможна только при непосредственном контакте с документом. Пока это действительно так, однако имеется и ряд возможностей, расширяющих потенциал исследований Платформа РгоСибирь: первый год работы и перспективы развития 149 без обращения непосредственно к документу. В качестве примера комплексного решения этой проблемы назовем практику работы IRHT (Париж) [17]. На сайте представлен ряд баз данных, создававшихся учеными института много лет, они посвящены как персоналиям, так и текстам. Здесь можно найти и ресурсы энциклопедического или словарного типа, и базы данных, позволяющие заниматься сравнительным анализом орнаментики рукописей, а также анализом почерков. Заметим, что данный ресурс создается на протяжении нескольких десятков лет усилиями большой группы ученых. Существуют и ресурсы с более узкой целью. Например, для нужд датировки памятников письменности используются данные филигранологии - науки о филигранях (водяных знаках на бумаге). Если ранее такие данные суммировались в форме справочных альбомов, то сейчас существует Европейский агрегатор баз данных филиграней [18]. Также много внимания уделяется совместным работам исследователей рукописей и специалистов в области точных и естественных наук; например, очень плодотворным оказалось физико-химическое исследование красителей, использовавшихся средневековыми мастерами. Эти данные не только позволяют реконструировать технологические процессы создания рукописей, восстановить ранние технологии, скажем, создания чернил. Они также чрезвычайно полезны при проведении реставрационных работ и обеспечении сохранности уникальных документов. В качестве примера назовем проект MINIARE, выполнявшийся в университете Кембридж [19]. Перечисленными направлениями не исчерпываются возможности, которые можно использовать при дальнейшем проектировании и развитии платформы ProСибирь. Так, весьма перспективными представляются следующие направления развития: - использование искусственного интеллекта для сравнения почерков, шрифтов, изобразительного материала; - картографирование данных исследований с помощью ГИС-технологий; - аккумулирование уже имеющейся справочной информации (от оцифрованных бумажных справочников до изданий, изначально созданных в цифровой среде). На самом деле этот список можно продолжать. Но очень существенным в данном случае представляется выявление именно тех ин- В.А. Есипова, Н.Н. Светличная 150 струментов, которые будут необходимы и востребованы в исследовательском сообществе. Это позволило бы создать цифровую исследовательскую инфраструктуру, отвечающую запросам исследователей. Выводы Таким образом, на настоящий момент создан первоначальный вариант платформы РгѳСибирь, позволяющий дистанционно реализовывать базовые функции, характерные для любого исследования в области гуманитарных наук. Однако представляется, что наиболее важным и сложным будет следующий этап работы, включающий среди прочего агрегацию цифровых инструментов для работы с текстами источников, интересующих исследователя. Заметим, что очень многое из сказанного ранее об инструментах относится к методологии исследования, а также к выбору конкретных методов, следовательно, как и было упомянуто выше, обусловлено исследовательской задачей. Очевидно, что цифровизация сама по себе не может являться целью работы; она должна помогать решению задач, которые без нее невозможно решить, а иногда - и поставить. При этом даже, казалось бы, тривиальный вопрос цифрового воспроизведения текста - печатного или рукописного - имеет целый ряд принципиально различающихся решений. Дискуссии по описанной выше проблематике ведутся уже не только в профессиональной среде, но и в средствах массовой информации [20]. В любом случае представляется крайне важным широкое обсуждение в профессиональном сообществе как уже выполненной работы в рамках проекта РгѳСибирь, так и дальнейших перспектив его развития.

Ключевые слова

цифровая платформа, Сибирь, инфраструктура исследований, цифровая гуманитаристика, филология

Авторы

ФИООрганизацияДополнительноE-mail
Есипова Валерия АнатольевнаТомский государственный университетдоктор исторических наук, заведующая сектором отдела рукописей и книжных памятников Научной библиотекиesipova_val@mail.ru
Светличная Наталья НиколаевнаТомский государственный университетзаведующая отделом электронной библиотеки Научной библиотекиnn_svet@lib.tsu.ru
Всего: 2

Ссылки

MINIARE. Manuscript Illumination: Non-Invasive Analysis, Research and Expertise. URL: https://www.miniare.org/Project.php (accessed: 14.04.2021).
Пильщиков И., Пинская Е. Информация должна распространяться свободно // Троицкий вариант. 2021. № 326. URL: https://trv-science.ru/2021/04/penskaya-pilshchikov/(дата обращения: 14.04.2021).
Bernstein. Memory of paper. URL: https://www.memoryofpaper.eu/BernsteinPortal/appl_start.disp (accessed: 14.04.2021).
Institute de recherche et d'histoire des textes (IRHT). URL: https://www.irht.cnrs.fr/(accessed: 14.04.2021).
Driscoll M.J. The words on the page: Thoughts on philology, old and new // Creating the medieval saga: Versions, variability, and editorial interpretations of Old Norse saga literature, ed. Judy Quinn & Emily Lethbridge. Odense : Syddansk Universitetsforlag, 2010. P. 85-102.
Cohen M. The New, New, New Philology // Electronic Book Review. 2017. Feb. 5. URL: https://electronicbookreview.com/essay/the-new-new-new-philology/(accessed: 17.03.2021).
Textometrie project. URL: http://textometrie.enslyon.fr/?lang=en (accessed: 14.04.2021).
Курышева Л.А., Лаврентьев А.М. Об электронном издании рукописной «Повести о Лабеле и звере» (1758): первый русский перевод сказки «Красавица и зверь» на демонстрационном портале платформы TXM // Сибирский филологический журнал. 2019. № 1. C. 54-61.
Манускрипт. Славянское письменное наследие. URL: http://manuscripts.ru/ (дата обращения: 14.04.2021).
Лаврентьев А.М. Введение в текстометрию и платформу TXM // Письменное наследие и информационные технологии - El Manuscript. URL: https://textualheritage.org/ru/el-manuscript-2014/txm-2.html (дата обращения: 14.04.2021).
Text Encoding Initiative (TEI). URL: https://tei-c.org/(accessed: 14.04.2021).
Письменное наследие и информационные технологии - El Manuscript. URL: https://textualheritage.org/russian/conf.html (дата обращения: 14.04.2021).
Периодические издания // Кафедра исторической информатики. Исторический факультет Московского государственного университета. URL: http://www.hist.msu.ru/Departments/Inf/BOOKS/period.htm (дата обращения: 14.04.2021).
Научно-образовательный центр цифровой гуманитаристики // Пермский государственный университет. URL: http://www.psu.ru/nauka/nauchnye-tsentry/nauchno-obrazovatelnyj-tsentr-tsifrovoj-gumanitaristiki (дата обращения: 14.04.2021).
Цифровые технологии в филологии. Компьютерная лингвистика : магистерская программа Южного федерального университета. URL: http://mdh.philol.sfedu.ru/ (дата обращения: 14.04.2021).
Магистерские программы. Направления подготовки // Филологический факультет. Томский государственный университет. URL: http://philology.tsu.ru/node/615 (дата обращения: 14.04.2021).
Trove. Search. Uncover. Australia. URL: https://trove.nla.gov.au/(accessed: 14.04.2021). Платформа РгоСибирь: первый год работы и перспективы развития 151
Новицкий Г.И. Краткое описание о народе остяцком. Тобольск, 1715. 98 л. // PгoСибирь. URL: https://prosiberia.tsu.ru/catalog/4/3 (дата обращения: 14.04.2021).
ProСибирь URL: https://prosiberia.tsu.ru/(дата обращения: 14.04.2021).
Гумбрехт Х.У. Филология и сложное настоящее / пер. с англ. Н. Поселягина) // Новое литературное обозрение. 2016. № 2. URL: https://magazines.gorky.media/nlo/2016/2/filologiya-i-slozhnoe-nastoyashhee.html (дата обращения: 17.03.2021).
 Платформа РгоСибирь: первый год работы и перспективы развития | Текст. Книга. Книгоиздание. 2021. № 27. DOI: 10.17223/23062061/27/8

Платформа РгоСибирь: первый год работы и перспективы развития | Текст. Книга. Книгоиздание. 2021. № 27. DOI: 10.17223/23062061/27/8