Интернет как источник лингвистической информации (для изучения динамики русского словообразования) | Вестник Томского государственного университета. Филология. 2019. № 57. DOI: 10.17223/19986645/57/8

Интернет как источник лингвистической информации (для изучения динамики русского словообразования)

Рассматривается вопрос об использовании количественных показателей употребления новых производных слов, полученных при помощи браузеров Яндекс и Google, для оценки частотности и степени вхождения новообразований в словообразовательную и лексическую системы русского языка. Обосновывается методика, направленная на оптимизацию интернет-поиска как источника лингвистической информации. Исследование проводится на материале сетевого проекта М. Эпштейна «Дар слова» (2000-2010 гг.), что позволяет также изучить эффективность предлагаемого там способа пополнения лексической системы русского языка.

The Internet as a Source of Linguistic Information (for Studying the Dynamics of Russian Word Formation).pdf Введение Цель исследования. Русский язык последние тридцать лет находится в русле общих для славянских языков процессов: усиления влияния английского языка, интернационализации и коллоквизации лексики, активизации словотворчества [1-3]. Словообразование в славянских языках живо реагирует на изменения, происходящие в обществе, наряду с заимствованиями участвуя в номинации новых реалий. Развитие коммуникации в Интернете и совершенствование его поисковых систем позволяют «вывести» динамические инновационные процессы в русском языке в «наблюдаемую зону» и изучить их, опираясь на количественные данные интернет-поиска [4. С. 22]. В частности, возможности использования Интернета в лингвистических целях обсуждались на XI Международной конференции Комиссии по славянскому словообразованию при Международном комитете славистов «Новые явления в славянском словообразовании: система и функционирование», проходившей в Москве в 2009 г. Большой научный резонанс вызвал пионерский в этой области доклад Н.Д. Голева [5], послуживший отправной точкой для нашего исследования. Изучение вопроса о применении поисковых систем Интернета в лингвистических целях было про- 1 Работа выполнена при поддержке гранта РФФИ 17-04-00532-ОГН\18 «'Исконные и заимствованн^іе формантні и модели в русском словообразовании на славянском фоне: семантические отношения, т'нны взаимодействия, стилистический потенциал». 138 Е. В. Петрухина, О. В. Дедова должено в ряде публикаций Н.Д. Голева [4, 6], а также на других конференциях упомянутой Комиссии [7, 8]. Этот вопрос имеет большое значение для исследования динамических процессов в русском словообразовании -интернет-поиск позволяет объективировать наблюдения, связанные с активизацией некоторых словообразовательных моделей, с изменениями в семантике формантов (в том числе исконных и заимствованных) и их конкуренции. В данной статье вопрос об Интернете как источнике лингвистической информации рассматривается на материале русского языка с учетом широкого спектра поисковых опций, предоставляемых современными браузерами. Нас интересует возможность использования количественных показателей употребления новых производных слов на сайтах Интернета, полученных при помощи браузеров Яндекс и Гугл (Google), для оценки частотности дериватов и степени их вхождения в словообразовательную и лексическую систему русского языка. Сопутствующие задачи. Свое исследование мы проводим на материале словообразовательного сетевого проекта М. Эпштейна, предпринявшего в начале XXI в. попытку «творческого обновления» лексического состава русского языка при помощи индивидуального словотворчества и внедрения созданных слов в русскую речь посредством Интернета. Имеется в виду проект М. Эпштейна «Дар слова», действовавший более десяти лет (2000-2010 гг.) и посвященный, как указано на сайте проекта, «искусству создания новых слов и понятий, исследованию путей обновления лексики и грамматики русского языка, развитию корневой системы, расширению моделей словообразования» [9]. Наш выбор языкового материала связан прежде всего с тем, что на «словесных изобретениях» проекта «Дар слова» удобно проанализировать достоверность количественных показателей при применении браузеров в поиске выбранных слов ввиду реальности проверки этих данных вручную. В рамках названного проекта новые слова создавались на основе авторских «расширительных моделей словообразования» как гнездовым способом от одного корня, так и по отдельным словообразовательным моделям (о методике словотворчества см. в [10, 11]). Для созданных слов подбирались значения и возможные контексты употребления, затем они размещались на сайте проекта и распространялись по интернет-рассылке. По мнению М. Эпштейна, «интернет делает возможным мгновенное распространение нового слова среди огромного количества читателей. Новообразование может быть подхвачено на лету, и его успешность легко проследить по растущему из года в год и даже из месяца в месяц числу употреблений» [12]. Созданные слова разгруппированы на сайте проекта «Дар слова» по 259 разделам в зависимости от времени создания, тематики, автора и т.д. [9]. Прошло более семи лет после завершения активной деятельности в рамках данного проекта - срок, с нашей точки зрения, достаточный для возможности анализа его словотворческой эффективности. Эту большую исследовательскую работу еще только предстоит выполнить - масштабный проект М. Эпштейна, по нашему мнению, заслужива- Интернет как источник лингвистической информации 139 ет подробного анализа. Здесь мы лишь ставим этот вопрос, рассматривая в связи с основной целью нашего исследования всего несколько дериватов из «проективного лексикона». Применение интернет-технологий в лингвистических целях имеет, с нашей точки зрения, большое значение для изучения динамических изменений в русском языке. Нельзя не согласиться с мнением М. Эпштейна, что до создания Интернета трудно было определить истоки и сферу употребления новых слов [12]. Но его утверждение о том, что «с появлением Сети это делается простым нажатием клавиши в поисковой системе» [Там же] требует, по меньшей мере, проверки. Действительно ли все так просто? Мы проводим исследование специфики и информативности количественных показателей интернет-поиска по выбранным словам с учетом того, что за последние несколько лет поисковые технологии усовершенствовались. Как известно, в настоящее время активно развивается WEB 3, или семантический WEB1, существенно расширяющий возможности поиска по ключевым словам и оптимизирующий его результаты (подробнее см. ниже). Поэтому в центре внимания в настоящей статье будут потенциальные возможности современного Интернета как источника достоверной лингвистической информации для изучения частотности производных лексем, прежде всего новообразований, в современных текстах, представленных в Сети. Данная проблема представляется актуальной, поскольку в настоящее время в отечественной лингвистике еще не выработаны методики сбора и систематизации лингвистического материала, полученного в результате интернет-поиска на основе использования браузеров, несмотря на то, что многие лингвисты обращаются к этому источнику данных. Интернет-технологии с лингвистической точки зрения Развитие электронных коммуникативных технологий и Интернета оказывает самое непосредственное воздействие на национальные языки, в том числе и на русский. Изучение результатов этого воздействия прошло несколько этапов, что, видимо, отражает эволюцию самого явления. Если вначале в отечественной лингвистике основное внимание уделялось влиянию на русский язык сетевого общения, которое оценивалось неоднозначно [13] (предполагалась возможность потенциально негативного воздействия: так называемая «падонковская коммуникация», массовое нарушение разноуровневых норм в неформальных сообщениях и под.), то в настоящее время становится очевидным, что проблема функционирования национальных языков в Интернете более многопланова и многоаспектна. Активно развивается научное направление, получившее название «лингвистика 1 Семантический Веб (Semantic Web) - термин, предложенный создателем Интернета Т. Бернерс-Ли (Tim Berners-Lee) для обозначения современной концепции развития поисковых технологий. В их основе - принцип автоматического семантического анализа документов с целью выполнения сложных поисковых задач пользователей. 140 Е.В. Петрухина, О. В. Дедова Интернета». Термин впервые был употреблен Д. Кристалом [14]. С его точки зрения, эта актуальная область научных исследований имеет различные «концепции»: социолингвистическую, образовательную, стилистическую, практическую (последнее подразумевает документацию национальных языков, а также поддержание малых языков). Основным объектом исследования интернет-лингвистики является так называемый «язык Интернета». Данный термин стал способом совокупного обозначения многообразных сдвигов (речевых, текстовых, коммуникативных, семиотических), обусловленных распространением электронной сетевой коммуникации [15]. В последние годы растет количество работ, посвященных данной тематике (см., например, [16-18]). Но есть еще один очень важный аспект использования Интернета как источника лингвистического материала: при помощи поиска по ключевым словам исследователи могут выявлять и изучать факты, отражающие тенденции развития языка в целом. Электронное общение предоставляет коммуникантам возможности обмена информацией, ранее не существовавшие в истории цивилизации. Интернет также не имеет и жанровых ограничений - здесь представлены практически все типы текстов и все функциональные стили. Следует учесть одно важное обстоятельство : инновационные характеристики электронного общения нивелировали существовавшие различия между письменной и устной речью, поскольку обмен письменными репликами стал возможен в реальном масштабе времени. Особенности речевого поведения в пределах межличностной интернет-коммуникации формируются практически теми же факторами, что и в ситуации устного диалогового общения, описанными, в частности, в [19]: спонтанность, темп, отсутствие строгой стилистической регламентированности и т. д. Это позволяет наблюдать явления, отражающие тенденции развития языка, причем время их узуальной адаптации может существенно сокращаться. Как следствие, Интернет стал уникальным источником того, что Л. В. Щерба называл «языковым материалом» (напомним, под этим понимается «совокупность всего говоримого и понимаемого в определенной конкретной обстановке в ту или другую эпоху жизни данной общественной группы» [20]). Современные компьютерные технологии значительно упрощают и ускоряют обработку огромных массивов текстовой информации, и это их преимущество стало общедоступным благодаря Интернету. Отметим, что использование Интернета как источника лингвистической информации имеет как минимум два важных аспекта. Процедура поиска интересующих исследователя фактов может осуществляться через браузеры или же на основе использования так называемых национальных корпусов. Оба типа данных отражают реальное функционирование языковых единиц в текстах различных типов, но суть их отличается весьма существенно. Корпусы, являясь продуктом деятельности лингвистов, представляют собой универсальный и очень мощный источник информации. Система корпусной разметки, которая постоянно развивается и совершенствуется, имеет целью предоставление не только статистических данных о том или ином языко- Интернет как источник лингвистической информации 141 вом факте, но и справочной информации о нем. Так, в Национальном корпусе русского языка (НКРЯ (http://ruscorpora.ru)) в настоящее время используется пять типов разметки: метатекстовая, морфологическая (словоизменительная), синтаксическая, акцентная и семантическая; планируется также внедрение словообразовательной разметки и упрощённой синтаксической разметки (http://www.ruscorpora.ru/). Аннотированный поиск в корпусах предоставляет научно достоверные данные, без которых уже трудно представить современное исследование в области грамматики, словообразования, лексики и других областях филологического знания. Поиск интересующих исследователя фактов на основе браузеров, напротив, стихиен и вариативен в своих результатах (см. об этом ниже). Но его главное исследовательское значение заключается в том, что в отличие от корпусных данных здесь нет предварительного отбора текстов. Именно здесь аккумулирован огромный массив только что созданных письменных текстов разного жанра, в том числе и воплотивших в себе специфику устного повседневного общения (так называемую «речевую пену дней»). Поэтому именно результаты интернет-поиска дают сведения о тех тенденциях и фактах, которые только начинают появляться в речи. Огромные языковые ресурсы Интернета, мощность которых трудно переоценить, имеют особенно большое значение при изучении образования и употребления новых слов в разнообразных текстах, представленных в Сети. Языковой материал, полученный в результате интернет-поиска, позволяет также анализировать соотношение потенциальных моделей деривации и реальных лексем, образованных по этим моделям. Последние, хотя и не зафиксированы словарями русского языка, активно употребляются в речи. Не ставшие еще узуальными лексемы часто остаются не отмеченными и в НКРЯ. Поэтому при исследовании динамики русского словообразования Корпус в ряде случаев оказывается недостаточно информативным. Но при всей очевидности возможностей Интернета как источника лингвистической информации он таковым практически ещё не стал - не хватает исследований методов его использования для изучения русской речи. Видимо, причины этого коренятся не только в некотором недоверии к языковым данным, полученным в результате обращения к Интернету (см., например, [21]), но и в том, что до сих пор отсутствуют научно обоснованные методики использования поисковых запросов в качестве инструмента анализа современного русскоязычного узуса. Работы, выполненные на материале Интернета, посвящены главным образом специфическим явлениям непосредственно самого интернет-общения (интернет-жаргон, языковые особенности различных сетевых жанров и т.д., см., например, [22]). 3. Опыт применения интернет-поиска с лингвистическими целями в русистике В этой связи представляют большой интерес идеи Н.Д. Голева, высказанные им в уже упоминавшемся выше докладе и ряде статей [4-6], в которых автор ставит своей целью научно обосновать потенциал процедуры 142 Е.В. Петрухина, О.В. Дедова интернет-поиска на основе браузеров для лингвистических исследований. В частности, на большом языковом материале Н. Д. Голев показал, что возможность поиска в Интернете по конкретному заданному слову, в том числе не по зафиксированному, а потенциально предполагаемому, позволяет перейти от «иллюстративного поиска лексических реализаций к системному, от эвристического описания к прогностическому» [5. С. 202]. При таком поиске реальна «возможность извлечения и описания непрерывных лексических, словообразовательных, лексико-словообразовательных, лексико-грамматических пространств (полей, парадигм, цепей, гнезд) и представление их в виде матриц» [Там же. С. 203]». Большое значение имеет также доступность «контекстов вхождения» языковых единиц, в том числе и новообразований, что позволяет проводить их полномасштабный семантический и стилистический анализ [там же]. Количественные данные поисковых систем Интернета анализировались также с точки зрения описания лексических реализаций словообразовательных типов, гнезд и парадигм. Было показано, что они «дают возможность более качественной оценки порождающей силы словообразовательной модели и мотивирующего потенциала мотиватора» [6. С. 233]. Главным критерием узуального статуса языкового факта, подвергаемого анализу, становится количественный показатель результатов поиска по соответствующему ключевому слову: чем больше количество контекстов вхождения, фиксируемых браузером, тем более актуально явление. По мнению Н.Д. Голева, «количественная характеристика, которую дает слову “квантитативный коэффициент”, извлеченный из поисковых систем Интернета, является одновременно информативной» [5. С. 198]. Действительно, в настоящее время употребление новых дериватов в речи трудно обнаружить и изучить в полном объеме без использования электронных средств коммуникации и компьютерных поисковых систем. И в этом смысле Интернет предстает как универсальный источник лингвистической информации, обладающий целым рядом преимуществ . Но некоторые вопросы использования Интернета в лингвистических интересах, затронутые в статье Н.Д. Голева, требуют более детального обсуждения, тем более что сам автор отмечает в ряде случаев «парадоксальность» «статистики Интернета»1. Таким образом, количественные показатели интернет-поиска (и «квантитативная мощность» Интернета) требуют ряда уточнений. С одной стороны, порядок сопоставляемых цифр («квантитативный коэффициент») отражает некоторую объективную данность, а с другой - нельзя не учитывать целый ряд факторов, чьё воздействие на предъявляемые поисковые 1 «Например, иначе чем как парадоксальную не можем оценить статистику в паре железобетон / железобетонный (428 000 / 3 250 000): прилагательное здесь в 7,6 раза превосходит в количественном отношении существительное. Однако не исключаем, что этот парадокс имеет свои резоны, не замечаемые поверхностным взглядом» [6. С. 233]. Интернет как источник лингвистической информации 143 результаты может быть весьма ощутимым. Рассмотрим наиболее существенные из них. Интернет-технологии постоянно совершенствуются. Как мы уже упоминали, сейчас находит практическое воплощение концепция Веб 3:0 (Web 3.0), или так называемый семантический Веб (semantic Web). Суть данной концепции состоит в том, что она способствует профессиональной оптимизации контента и поиска, т.е. информационному совершенствованию Интернета. Оптимизация поиска идет за счет использования принципов семантических сетей и автоматического анализа текста (в отличие от изначального поиска на основе тезаурусов, когда учитывалось простое вхождение слова в текст - прежде всего в его название). Современные браузеры должны отранжировать (т.е. отсортировать) огромный объем данных в соответствии с поисковым запросом и предоставить пользователю наиболее релевантную информацию (например, в настоящее время в Яндексе используется более 1500 факторов ранжирования). А. Сафронов, руководитель службы релевантности и лингвистики Яндекса, пишет по этому поводу: «Для того, чтобы представить себе, что такое ранжирование, хорошо подходит изображение нашей галактики Млечный путь. Потому что количество документов, которые проиндексировал Яндекс, и количество звезд в этой галактике - это числа приблизительно одного порядка. А задача ранжирования - показать десятку самых релевантных результатов» [23]. Одна из основных задач развития поисковых технологий - адаптировать предъявляемые результаты поиска к индивидуальным информационным потребностям конкретного пользователя. Как заявлено в «Миссии Яндекса» на официальном сайте компании, «качество поиска - это самый важный аспект для любой поисковой системы. Если она будет плохо искать, люди просто перестанут ей пользоваться» (https://yandex.ru/company/rules/ ranking/), поэтому факторы ранжирования результатов поиска учитывают в том числе и предыдущие поисковые запросы, совершенные через данный аккаунт. Все это приводит к тому, что результаты поиска по конкретному ключевому слову или словосочетанию разнятся в зависимости от того, когда, кем и при помощи какого браузера осуществлены запросы. Количественные показатели узуального статуса того или иного явления могут быть уточнены в результате применения не одного, а нескольких браузеров, например Яндекса и Google, являющихся самыми используемыми поисковыми системами в России (47 и 48% соответственно от всей российской интернет-аудитории, по данным на май 2017 г. (https ://marketer.ua/rejting-poiskovyh-sistem-v-2017-statistika-stran-sng-i-mira/)). Как известно, эти браузеры используют несовпадающие поисковые алгоритмы, поэтому результаты поиска могут разниться весьма существенно. В частности, Google, в отличие от Яндекса, осуществляет функцию дедупликации (метод сжатия массива данных, призванный исключить повторение копий в результатах поиска). Google изначально не предъявляет то, что в его интерфейсе называется «похожие результаты». Эти ссылки можно вызвать, нажав соответствующую кнопку, но количественный показатель результатов поиска, 144 Е. В. Петрухина, О. В. Дедова предъявляемый по запросу, их не учитывает. Яндекс, в большей степени ориентированный на русскоязычный контент и отечественную аудиторию, отличается от Google своей геозависимостью, т. е. результаты поиска могут зависеть от того, где был осуществлен запрос. Как следствие, количественные показатели поиска по ключевым словам через Яндекс и Google практически никогда не совпадают. Проиллюстрируем названные выше проблемы конкретными примерами. Проанализируем частотность и продуктивность образования глаголов от коммерческих названий программного продукта при помощи суффикса -и- типа гуглить. Данная модель последовательно используется в современном русском языке - глагольные дериваты образуются практически от всех наименований распространенных программ и приложений, включая названия браузеров. Проверив частотность некоторых потенциальных дериватов в Яндексе, мы получили следующие данные: гуглить - 112 000; яндексить - 6 000; фотошопить - 2 000 000; инстаграмить - 29 000; рамблерить - 359; экселить - 331 (по результатам на 07.08.2017, для уточнения результатов поиска был использован оператор «поиска по цитате» ["], об операторах поиска подробнее см. ниже). Полученные количественные результаты свидетельствуют об актуальности самой модели, от которой образуются приставочные дериваты типа прогуглить, отфотошопить, заинстаграмить и под. Для указанных выше глаголов поиск в Google дал несколько иные результаты: гуглить - 918 000; яндексить - 10 900; фотошопить - 1 260 000; инстаграмить - 22 600; рамблерить - 512; эксе-лить - 160 (по результатам на 07.08.2017, для уточнения результатов поиска также был использован оператор «поиска по цитате»). В следующем разделе мы рассматриваем более подробно данные использования названных выше браузеров при изучении неологизмов, имеющих в Рунете меньшую частотность, чтобы последовательно изучить всю информацию об их употреблении в текстах разного жанра. Такой анализ, помимо сформулированных выше целей, позволяет также решить ряд лингвистических проблем, связанных с образованием неологизмов и изучением когнитивно-дискурсивных условий вхождения их в русский язык. Как уже было отмечено, мы анализируем частотность в текстах Рунета ряда новообразований, связанных с интернет-проектом М. Эпштейна «Дар слова». Анализ результатов интернет-поиска Когнитивные и дискурсивные условия вхождения новых слов в русский язык. Словообразовательная система участвует в пополнении лексики русского языка прежде всего за счет: 1) заполнения имеющихся в ней лакун (об этих процессах см. [24-26]); 2) расширения мотивационнодеривационных отношений ([27]); 3) действия законов аналогии в деривации [28]; 4) развития адаптирующей функции словообразовательных типов при освоении заимствований [2]; 5) окказионального словотворчества [29, Интернет как источник лингвистической информации 145 30]. Данные источники словообразования пополняют лексическую систему языка в определенных условиях: когда создание новых слов связано с познанием мира и осмыслением нового опыта в процессе коммуникативной деятельности человека. Этот процесс является когнитивным, выражающим (и формирующим) знания о мире, и одновременно дискурсивным, неотделимым от порождения речи в определенной коммуникативной ситуации [31. С. 391; 32]. Возможно ли вхождение новообразований в русский лексикон при нарушении одного из этих условий? Анализ количественных результатов интернет-поиска по лексемам, образованным в рамках проекта «Дар слова», позволяет в известной степени ответить и на этот вопрос. Ниже мы приводим конкретные примеры из материалов практики, проведенной в 2016-2017 гг. на филологическом факультете МГУ под руководством авторов статьи1. В рамках практики мы изучали динамику русского словообразования и когнитивно-коммуникативные условия вхождений новых слов в русский язык, а также возможности интернет-поиска по ключевым словам в качестве лингвистического источника. Лингвистическая релевантность данных о частотности новообразований в Интернете. Рассмотрим частотность конкретных новообразований, например потенциального каузативного глагола общать, образованного депостфиксацией. Он толкуется в проекте «Дар слова» следующим образом: «направлять и поддерживать процесс общения, вовлекать людей в общение и разговор, посредничать, предлагать темы, подбадривать собеседников, вызывать их интерес друг к другу» (http://new.topos.ru/ veer/24/dar29.html). При обращении к поисковой системе Яндекс в начале декабря 2016 г. по данному неологизму без применения операторов поиска получено 4 млн вхождений. При проверке этих показателей 25.11.2017 Яндекс выдал 3 млн страниц. Для нашего исследования важным является вопрос о том, какая информация стоит за столь большими цифрами, полученными «простым нажатием кнопки»? Анализ первых страниц сайтов, выбранных поисковиком Яндекс, показывает, что большая часть ссылок дается на словарь Даля, в котором употребляется омоним данного глагола: «Общать - общить что чему, приобщать, соединять, смешивать; считать вместе, заодно». Десятки ссылок на сайты автоматического подбора слов и форм можно считать пустыми, так как там не содержится никакой информации об употреблении данного глагола. Кроме того, на первых десяти страницах обнаружены ссылки на сайты с опечатками: с раздельным написанием -ся (Но тем не менее, общать ся гДе-то надо); с пропуском гласной об(е^щать и употреблением данной формы в значении ‘обещать'. На количественные результаты поиска влияет также наличие так называемых «зеркал» сайтов. Под зеркалом понимается полная или частичная копия одного сайта на другом. Изначально зер- 1 В практике, которая проходила на филологическом факультете МГУ с 01.09.2016 по 20.12.2016, принимали участие студенты Н.С. Варивода, А.Д. Леоненко, М.Г. Шер-варлы, Д. А. Ямилова. 146 Е. В. Петрухина, О. В. Дедова кала сайтов появлялись в результате использования двух версий доменов, с «www» и без (например, www.msu.ru и msu.ru), сейчас они могут применяться в коммерческих целях, в целях безопасности и т.д. Естественно, на результаты поиска также влияют различные практики интернет-цитирования. Воздействие данных факторов, способное исказить реальное положение вещей, особенно существенно, когда анализу подвергается инновационное явление, недостаточно освоенное узусом. В нашем случае на результаты поиска, осуществленного через Яндекс, повлияли прямые ссылки на проект М. Эпштейна (http://www.emory.edu/INTELNET/dar0) и цитирование его материалов, а также зеркала этого сайта (например, http://old.russ.ru/ antolog/intelnet/dar0.html). Но самое главное, результаты поиска без операторов недифференцированно включают и возвратный глагол общаться, а также глагол сообщать, что кардинальным образом меняет количественные показатели употребления в Интернете невозвратного глагола общать (кого-то)1. Все сказанное вызывает большие сомнения в информативности полученных количественных результатов простого поиска по ключевым словам. В связи с этим встает вопрос об оптимизации поисковых запросов в исследовательских целях на основе опций, предоставляемых современными браузерами. Эти системы уделяют много внимания лингвистическим аспектам совершенствования доступа к информации и предлагают поиск с учётом ряда морфологических, лексических и других критериев. Так, Яндекс по умолчанию осуществляет поиск в пределах заданной лексемы, учитывая ее частеречную принадлежность и парадигму форм, т.е. при запросе [делать] будут предложены контексты, содержащие словоформы «делаю», «делаешь», «делать» и т.д., но не «деятель», «дело» и под. При этом формальный язык запросов включает целый ряд операторов, что позволяет конкретизировать поисковые задачи. Яндекс имеет две категории операторов, специфика которых в меню раздела «Помощь» обозначена как «Морфология и поисковый контент» и «Документные операторы» (https://yandex.ru/support/search/query-language/qlanguage.html). Операторы первого типа позволяют искать по форме слова (оператор ! [!делал]); по нескольким ключевым словам одновременно (оператор + [делал +дело]); осуществлять поиск документов, содержащих слова запроса в заданной последовательности и конкретных формах, так называемый «поиск по цитате» (оператор " ["сделал дело гуляй смело"]) и т.д. Документные операторы, операторы второго типа, дают возможность уточнить поисковый запрос с помощью данных, относящихся не к текстовому контенту, а к информации о страницах, например: искать в пределах 1 По всей видимости, с неприменением операторов связана и «парадоксальная статистика» интернет-поиска в паре железобетон / железобетонный (428 000 / 3 250 000), упомянутая в сноске 2. При перепроверке данных с применением оператора [-], позволяющего исключить однокоренное слово из результатов поиска, мы получили следующие цифры: [железобетонный - железобетон] 486 000 (Google, 07.02.2018). Интернет как источник лингвистической информации 147 указанного сайта, хоста, домена, осуществлять поиск в файлах определенного типа, на конкретном языке и т.д. (https://yandex.ru/support/search/ query-language/search-operators.html). Использование документных операторов при поиске по ключевым словам имеет социолингвистическую перспективу, поскольку это позволяет, например, реализовать «жанровые» критерии при отборе языкового материала (сайты СМИ, социальные сети и т. д.) или разграничить результаты поиска по близкородственным языкам. Отметим, что наиболее популярные поисковые операторы (выбор языка, сайта, времени запроса, типа файла, поиск по словоформе) представлены в фильтрах расширенного поиска Яндекса: гуглить Найти поиск КАРТИНКИ ВИДЕО КАРТЫ МАРКЕТ ПЕРЕВОДЧИК НОВОСТИ ЕЩЁ В Красногорске На сайте Русский Ангпийский Точно как в запросе ] 3 Тип файла За сутки За 2 надали За месяц От До Очистить Возможности расширенного поиска предоставляются и другими браузерами, в частности Google (https://support.google.com/websearch/ answer/2466433?hl=ru). Посмотрим, как влияет использование поисковых операторов Яндекса на количественные показатели употребления в Интернете неузуального глагола общать (дата обращения: 25.11.2017). В результате применения оператора «поиск по цитате» ["общать"], который задает поиск документов, содержащих слова запроса в заданной последовательности и форме, количественные показатели составили 14 тыс. результатов. Но и они не отражают реального числа употреблений именно этого глагола (см. ниже). Запрос на личные формы данного глагола дал практически отрицательные результаты. Несмотря на то, что поиск по форме ["общаю"] дал 4 тыс. контекстов вхождения, интересующие нас случаи употребления неузуального деривата единичны (например, лично я общаю в основном анимешниц). На результаты поиска повлияла спонтанная омонимия, возникающая в результате ошибок при написании форм других слов: прилагательного общий (*Составить общаю характеристику класса); глагола обещать (Я общаю, что дождусь), раздельное написание постфикса -ся (общаю сь со взрослыми), а также употребление глагола общаться (с кем?) без постфикса -ся (Я с душевнобольными не общаю). Полученные результаты отражают одну очень существенную проблему, связанную с использованием интернет-поиска по ключевым словам как инструмента лингвистического исследования. Хотя современные браузеры, рабо- 148 Е.В. Петрухина, О. В. Дедова тающие по принципам семантических сетей, становятся все более совершенными в области автоматического анализа текста, решить проблему омонимии они пока не в состоянии. В этом плане корпусы текстов, в частности НКРЯ, обладают огромным преимуществом, поскольку предоставляют данную возможность. Максимально уточнить результаты поиска для глагола общать удалось в результате одновременного применения операторов [!] и [-] [!общать -общаться], что позволило исключить вхождение в выборку слова «общаться» при учете всех форм исследуемого потенциального невозвратного глагола. Мы получили результат 5 000 употреблений. При исключении и результатов поиска глаголов сообщать и приобщать [-сообщать -приобщать] список сократился до 4 тыс. Среди данной выборки, конечно, остались зеркала сайтов, ошибки, но реальное употребление данного неузуального каузативного невозвратного глагола стало очевиднее, хотя результаты поиска нестабильны и могут меняться в зависимости от даты обращения. Использование интернет-поиска как источника лингвистической информации затруднено также и тем, что в случае, если нас интересуют не только количественные показатели частотности деривата, но и их реальное употребление в тексте, мы сталкиваемся с достаточно сложной задачей. Необходимо «вручную» искать адекватные контексты в огромном объеме предъявляемых результатов поиска, причем они могут быть не на тех сайтах, которые находятся в так называемых «топовых» (т.е. верхних) позициях списка. Дело в том, что порядок предъявления поисковых результатов по конкретному запросу - одна из самых существенных сторон современного Интернета, и владельцы любого сайта прежде всего заинтересованы в повышении его релевантности (для этого, например, используются сео-технологии1) . На релевантность результатов поиска влияют параметры ранжирования конкретного браузера, а также ряд других факторов. Так, при анализе глагола общать пример его использования как интересующего нас узуального деривата был отмечен лишь во втором десятке поисковых результатов. Первые 10 ссылок были на упомянутую выше статью словаря В.И. Даля. В «топовых» результатах есть ссылки на проект «Дар слова» (вып. 29, 14 мая 2001). Кроме этого, ряд контекстов предполагает языковую игру: Сейчас я кратенько, но по существу, расскажу как правильно меня общать и дружить (на игровое использование глагола указывает употребление с ним другого окказионального каузативного глагола); В динамике работу в команде можно рассматривать как отношения с девушкой. Девушке надо дарить подарки, ее надо «гулять», «общать», знакомить с друзьями. Одним словом, отношения должны развиваться (глагол употреблен в кавычках в ряду других неузуальных каузативных 1 СЕО (от англ. Search Engine Optimization, или SEO) - технология, позволяющая осуществить поисковую оптимизацию сайта, т. е. повысить его релевантность в результатах поиска по конкретному запросу. Интернет как источник лингвистической информации 149 глаголов, что подчеркивает осознание говорящими его необычности и стилистической маркированности). Эти и подобные примеры не являются свидетельством того, что общать как казуальный дериват получает распространение, поскольку суть языковой игры как раз и состоит в нарушении узуальных норм. Данное явление популярно в межличностном интер-нет-общении, оно становится специфической формой самовыражения коммуникантов (так называемая креативность). Если говорить о бесспорных примерах употребления глагола общать в интересующем нас значении, то они встречаются не в первом десятке результатов и отмечены в основном на сайтах, поддерживающих неформальное межличностное общение (блоги, социальные сети, форумы): Желающие меня общать - машите лапой (kyellinn.diary.ru›p176484663.htm). В общем технически я уже дома. И меня даже можно общать... (lomelind.livejournal.com› 487782.html). Интернет не место для шуток юмора, тут люди думать и общать друг друга собираются. Во второй сотне результатов поиска встретились производные данного глагола с приставкой по-: Как вы оцениваете идею специально пообщать детей с болеющими ветрянкой? (mama.ru). В целом же «ручная» проверка результатов поиска выявила следующую картину: в среднем на 15 позиций (эта цифра может незначительно варьироваться), выдаваемых одновременно на экране браузера при «листании» результатов поиска, приходится от 1 до 4 вхождений, адекватных нашей цели. Мы можем с большой вероятностью предположить, не рассматривая все остальные вхождения (которых осталось больше 3 тысяч), что картина будет сходная, т.е. из 15 единовременно выдаваемых ссылок в среднем от 1 до 4 могут представлять действительное употребление данного глагола. Итак, наш анализ показал, что количественный результат простого запроса в системе Яндекс на потенциальный невозвратный глагол общать (3-4 млн) абсолютно неинформативен. Использование поисковых операторов позволило уточнить параметры запроса, снизив количественный результат до 4 тысяч. Частичная его проверка вручную показала, что реальных контекстов на употребление изучаемого глагола содержится не более 15-20% от этого количества (т.е. ≈ 800). Каузативный глагол общать является потенциальным, он заполняет словообразовательную и грамматическую лакуны в русском языке. Этот невозвратный глагол использовался и до проекта М. Эпштейна, подтверждение чему мы нашли в НКРЯ, где имеется одно употребление данного глагола, зафиксированное задолго до упомянутого проекта: А на судне, где экипаж с бору да с сосенки, перед ледовым плаванием следует людей сблизить и теснее перезнакомить, пообщать за праздничным столом (Виктор Конецкий. Вчерашние заботы. 1979). Из всего сказанного следуе

Скачать электронную версию публикации

Загружен, раз: 342

Ключевые слова

интернет-коммуникация, поисковые операторы, количественные данные, неологизмы, словотворчество, современный русский язык, Internet communication, search operators, quantitative data, neologisms, wordmaking, modern Russian

Авторы

ФИО	Организация	Дополнительно	E-mail
Петрухина Елена Васильевна	Московский государственный университет им. М.В. Ломоносова	д-р филол. наук, профессор кафедры русского языка	elena.petrukhina@gmail.com
Дедова Ольга Викторовна	Московский государственный университет им. М.В. Ломоносова	д-р филол. наук, профессор кафедры русского языка	ov.dedova@gmail.com

Всего: 2

Ссылки

Крысин Л.П. Об интернационализации фонда словообразовательных морфем // Современное русское языкознание и лингводидактика. Вып. 2: сборник научных трудов, посвященный 85-летию со дня рождения академика РАО Н.М. Шанского. М., 2007. С. 69-72.

Новые явления в славянском словообразовании: система и функционирование: доклады XI Международной научной конференции Комиссии по славянскому словообразованию при Международном комитете славистов / под ред. Е.В. Петрухиной. М., 2010.

Новые тенденции в русском языке начала XXI века / под ред. Л. В. Рацибурской. 4-е изд., стер. М., 2016.

Голев Н.Д. Лексическое функционирование словообразования и лексикословообразовательная системность русского языка в свете статистики Интернета // Вестник Томского государственного университета. Филология. 2011. № 1. С. 22-31.

Голев Н.Д. Поисковые системы Интернета как лингвистический источник (на примере решения некоторых теоретических и прикладных вопросов русского словообразования) // Новые явления в славянском словообразовании: система и функционирование : доклады XI Международной научной конференции Комиссии по славянскому словообразованию при Международном комитете славистов / под ред. Е. В. Петрухиной. М., 2010. С. 424-443.

Голев Н.Д. Лексическая реализация как функциональная характеристика словообразовательной системы русского языка и количественные параметры ее описания // Осмь деслть : сборник научных статей к 80-летию И.С. Улуханова. М., 2015. С. 225236.

Slowotworstwo slowianskie: system i tekst. Prace Komisji Slowotworczej przy Micdzxnarodowvm Komitecie Slawistow / red. J. Sierociuk. Poznanskie Towarzystwo Przyjaciol Nauk, seria 13. Poznan, 2012. С. 287-297.

Словообразование и Интернет / ред. Б. Тошович. Graz : Institut fur Slawistik der Karl-Franzens-Universitat Graz, 2016.

Эпштейн М. Дар слова: Проективн^ій лексикон. 2000-2010. URL: http://«x\xv.emorx.edu/INTEL.NET/dar0.html

Эпштейн М. Слово как произведение. О жанре однословия // Новый мир. 2000. № 9. URL: http://magazines.russ.ru/novvi_mi/2000/9/epsh.html

Эпштейн М. О будущем языка // Знимя. 2000. № 9.

Эпштейн М. Русский язык в свете творческой филологии разыскания // Знамя. 2006. № 1. URL: http://magazines.russ.rU/znamia/2006/1/ep13.html

Иванов Л.Ю. Язык интернета: заметки лингвиста. 2000. URL: http://www.faq -www.ru/lingv.htm

Crystal D. Language and the Internet (2nd ed.). Cambridge : Cambridge University Press, 2006.

Дедова О. В. О языке Интернета // Вестник Московского университета. Сер. 9. Филология. 2010. № 3. С. 25-38.

Современный русский язык в интернете / ред. Я. Э. Ахапкина, Е. В. Рахилина. М. : Языки славянской культуры, 2014.

Тошович Б. Интернет-стилистика. М. : ФЛИНТА : Наука, 2015.

Словарь языка интернета / под ред. М.А. Кронгауза. М. : АСТ-Пресс, 2016.

Русская разговорная речь / под ред. Е.А. Земской. М. : Наука, 1973.

Щерба Л.В. Языковая система и речевая деятельность. Л., 1974.

Кошкарева Н.Б. Тундровый, тундряной, тундренн^ій или *тундрен^ій, или Как Интернет способствует появлению и закреплению исключений // Интернет как источник лингвистической информации : сб. науч. ст. Бийск, 2014.

Лутовинова О.В. Лингвокультурологические характеристики виртуального дискурса. Волгоград : Перемена, 2009.

Сафронов А. Поиск Яндекса: Как найти лучшие ответах. URL: https://www.searchengines.ru/poisk-yandeksa.html

Земская Е. А. Словообразование как деятельность. М., 1992.

Земская. Е.А. Активные процессы современного словопроизводства // Русский язык конца ХХ столетия (1985-1995). М., 1996. С. 90-142.

Улуханов И.С. Единицы словообразовательной системы русского языка и их лексическая реализация. М., 1996.

Улуханов И.С. Мотивация в словообразовательной системе русского языка. М., 2005.

Кубрякова Е.С. Роль аналогии в порождении новых производных слов // Новые явления в славянском словообразовании: система и функционирование : доклады XI Международной научной конференции Комиссии по славянскому словообразованию при Международном комитете славистов / под ред. Е.В. Петрухиной. М., 2010. С. 14-25.

Попова Т.В. Русская неология и неография : учеб. пособие. Екатеринбург : УГТУ-УПИ, 2005.

Пахомова М. А. Окказиональные слова и словари окказионализмов // Вестник МГГУ им. М.А. Шолохова. Сер.: Филологические науки. 2013. № 3.

Кубрякова Е. С. Язык и знание: На пути получения знаний о языке: части речи с когнитивной точки зрения. Роль языка в познании мира. М. : Языки славянской культуры, 2004.

Петрухина Е.В. Образование новых слов в русском языке: теоретические аспекты и когнитивно-дискурсивный анализ // Slavische Wortbildung im Vergleich: Theo-retische und pragmatische Aspekte. Swetlana Mengel (Hrsg.), серия Reihe Slavica varia Halensi. Munster, 2014. С. 417-435.

Ефремова Т.Ф. Новый словарь русского языка. Толково-словообразовательный. М. : Рус. яз., 2000.

Плотникова Л.И. Словотворчество как феномен языковой личности (порождение, функционирование, узуализация нового слова) : дис.. д-ра филол. наук. Белгород, 2004. URL: http://www.dissercat.com/content/slovotvorchestvo-kak-fenomen-yazykovoi-lichnosti-porozhdenie-funktsionirovanie-uzualizatsiya