О возможности математического моделирования эволюции полисемии знаков естественного языка с помощью нестационарных процессов рождения и гибели
Рассматривается возможность математического моделирования эволюции полисемии ансамбля знаков естественного языка с помощью нестационарных процессов рождения и гибели. Показано, что адекватной математической моделью развития полисемии ансамбля знаков может служить скрытая нестационарная модель процессов рождения и гибели значений языковых знаков. Получено условное распределение состояний такого процесса при экспоненциальных спадах интенсивностей процессов рождения и гибели. Предложен критерий идентификации скрытой модели, дана его реализация на примере словаря языка А. С. Пушкина.
On the possibility of mathematical modelling of the evolution of the polysemy of natural language signs with using of no.pdf В работах [1-3] рассматривалась диссипативная стохастическая динамическая модель развития полисемии языковых знаков как детерминированная модель эволюции полисемии отдельного знака со случайными флуктуациями параметров от знака к знаку в статистическом ансамбле знаков. Модель показала хорошее согласие с экспериментально наблюдаемыми распределениями полисемии языковых знаков, полученными из представительных толковых словарей русского и английского языков. Однако детерминированный характер эволюции полисемии каждого отдельного знака представляется маловероятным. Более естественно предположить, что индивидуальная эволюция полисемии отдельного языкового знака является нестационарным стохастическим процессом. В соответствии с современными лингвистическими представлениями о развитии полисемии языкового знака естественного языка [4] знак возникает в языке в некоторый случайный момент времени в некотором определённом (обычно единственном) смысловом значении. Затем к этому смысловому значению последовательно добавляются новые значения, как правило, всё более абстрактные. Процесс роста количества новых значений знака протекает с постоянным замедлением, пока не иссякнет способность знака к порождению новых значений. Одновременно с этим процессом (но, возможно, с некоторым запаздыванием) начинается процесс выхода из употребления первоначальных (наиболее конкретных) значений знака. Этот процесс протекает также с замедлением, но значительно медленнее процесса роста новых значений. Скорость выхода из употребления старых значений знака сначала меньше скорости роста числа новых значений, и количество не вышедших из употребления значений знака (его полисемия) сначала растёт. Но со временем скорость роста числа новых значений знака становится ниже скорости выпадения из употребления старых значений, и происходит обратный процесс - полисемия знака начинает убывать, пока не выйдет из употребления последнее значение знака, а с ним и сам знак. На этом жизненный цикл знака заканчивается. Кривая этого жизненного цикла, выражающая зависимость полисемии знака от времени, представляется унимодальной кривой с максимумом, смещённым к началу процесса развития полисемии знака. Если предположить, что процессы появления и выпадения из употребления значений знака являются случайными марковскими, хотя, очевидно, нестационарными (неоднородными), представляется возможным использовать в качестве стохастической модели развития полисемии знака модель неоднородного марковского процесса рождения и гибели. В статистическом ансамбле знаков естественного языка параметры модели флуктуируют от знака к знаку с определёнными, но неизвестными распределениями вероятностей, в силу чего модель оказывается скрытой. Поставим задачу нахождения условного (с фиксированными значениями параметров) распределения вероятностей состояний неоднородного процесса рождения-гибели, а затем исследуем возможность оценки скрытых распределений вероятностей параметров ансамбля таких процессов, обеспечивающих максимальную близость теоретического распределения полисемии с наблюдаемым эмпирическим распределением, полученным из толкового словаря языка А.С. Пушкина. 1. Математическая модель неоднородного процесса рождения и гибели 1.1. Система уравнений Колмогорова Составим систему дифференциальных уравнений Колмогорова, описывающих вероятностную динамику неоднородного марковского процесса рождения и гибели. Пусть очередной языковой знак появляется в языке в момент времени t0 хотя бы в одном определённом смысловом значении. С этого момента начинается процесс рождения и гибели новых значений языкового знака вплоть до момента гибели последнего значения и выхода знака из употребления. Пусть Pn(t) - вероятность того, что в момент времени t > t0 знак имеет n значений. Если в начальный момент n = n0 > 1, то P„0 (t0 ) = 1. Пусть X(t) - интенсивность процесса рождения новых значений в момент времени t, а ц(0 - интенсивность процесса гибели (выхода из употребления) уже имеющихся значений. Запишем незамкнутую систему дифференциальных уравнений Колмогорова, определяющую эволюцию вероятности числа живущих в момент времени t значений знака как неоднородного марковского процесса рождения и гибели значений: ^ = -Х(( )P0 (() + ц(( )Pi ((), dt dpM = x()Pn_i()-(A() + ^())Pn(() + i4)P"+i((), Pn(t0) = 5„,п0, n = 1,2,..., (1) f 1, n = n0 где Snn =< - символ Кронекера. При этом должно выполняться условие нормировки ' 0 [0, n Ф n0 да / \ X Pn (t ) = 1. n=0 (2) 1.2. Производящая функция Для решения незамкнутой неавтономной (с переменными коэффициентами) системы дифференциальных уравнений Колмогорова (1) воспользуемся методом производящей функции, аналогично тому, как это делается в случае незамкнутой автономной системы (например, в [5. С. 287-291]): f ((, s)=X Pn . n=0 Зная производящую функцию f (t, s), распределение Pn(t) можно найти по формуле обращения 1 a nf (t, s ) Pn () = (3) n = 0,1,2, n! dsn s=0 Действительно, разложив функцию f (t, s) в ряд Маклорена, получим 1 a nf (t, s )| „ n f((, s )= X a n! dsK s=0 Сравнивая эту формулу с формулой (2), получим (3). Перейдём от незамкнутой системы обыкновенных дифференциальных уравнений (1) для распределения Pn(t) к дифференциальному уравнению в частных производных для производящей функции f (t, s). Найдём частную производную df (t,s) = » dPjj) s„ , dt n=o dt подставив в неё вместо производных dPn(t)/dt правые части уравнений (1). Принимая во внимание определение (2) производящей функции и вытекающее из этого определения равенство = i Pn ((К-1, ds n=o получим дифференциальное уравнение в частных производных первого порядка для производящей функции f (t, s) = -X(t) - s )f((, s) + |(t )(1 - s )fA, f (to, s )= s"°, no > 0, t > to. dt ds Введя переменные p = df (t, s)dt и q = df (t, s)/ds , запишем уравнение (4) в виде F(t, s, f, p, q) = -X(t)(1 - s)f + p - |(t)(1 - s)q = 0. Ему эквивалентна система обыкновенных дифференциальных уравнений для характеристик (4) (5) (6) dt ds df F F p q PFp + qFq где Fp = dF/dp = 1, Fq = dF/dq = -|(t)1 - s), pFp + qFq = p - |(t)(1 - s)q = X(t)(1 - s)f, причём последнее равенство записано с учётом равенства (5). Тогда система (6) примет вид l(t )t = --, X(t )ds = |(t )f. 1 - s f Интегрируя каждое из уравнений, получаем J |(t)t - ln(1 - s) = c1, X(t)s - |(t)ln f = c2, где ci, c2 - произвольные постоянные интегрирования. Очевидно, c2 можно рассматривать как произвольную функцию W от c1: c2 = W(c1), так что ............(7) X(t )s - |(t )ln f = W (J |(t )dt - ln(1 - s)), откуда X(t)s - W J|(t)t - ln(1 - s) f 1 f f (t, s) = exp l(t) t V'0 Очевидно, для существования производящей функции при любом t, в том числе при t ^ да, необходимо, чтобы интенсивность процесса гибели нигде не обращалась в 0: |(t) > 0 Vt > t0 . При этом интенсивность процесса рождения может обращаться в 0 (например, при t ^ да). Для нахождения вида функции W воспользуемся (аналогично [5]) начальным условием f (t0, s) = sn°. При t = t0 равенство (7) примет вид (8) Xos - |0n0 ln s = W(- ln(1 - s)), где X = X(t0), ц0 = ц('0). Обозначив y = - ln(1 - s), получим s = 1 - exp( - y). Подставляя эти выражения в равенство (8), получим вид функции W: W(у) = X0 (1 - exp(- y))- no|oln(1 - exp(- y)). Следовательно, выражение для производящей функции принимает окончательный вид f f t ^WiM f 1 f f f t f (t,s) = 1 -(1 - s)exp -J|(t)t (9) • exp l(t) v 'o // X(t)s - X0 1 - (1 - s)exp - J|(t)dt V 0 1.3. Распределение вероятностей нестационарного процесса рождения и гибели Для нахождения закона распределения вероятностей нестационарного процесса рождения и гибели воспользуемся формулой обращения (3). Для упрощения вида формулы (9) введём обозначения (10) a(t) = _*> , b(t) = expf- J|(t)t|, c(t)= x(t)-(ob(t). I(t) I to J l() Тогда формула (9) примет вид V(t) Обозначив u(t,s) = ((1 - b(t)) + b(t)s)"0a{t), v(t,s) = exp(c(t)s), ещё более упростим формулу (11), выделив множители, явно зависящие от переменной s: Г х } f(t,s) = exp--(1 -b(t)) • u(t,s)• v(t,s). v ^(t) у Для вычисления вероятностей Pn(t), n = 0,1,2,..., необходимо найти n-ю частную производную по s от этой функции в точке s = 0. Поскольку, как видно из (13), эта функция пропорциональна произведению двух функций, зависящих от s, для вычисления производной воспользуемся известной формулой дифференцирования Лейбница f (t, s) = ((1 - b(t)) + b(t(s )"0a(t) • exp^ (1 - b(t)) + c(t(s Л (11) (12) (13) Г' ^ tk)vtn-k) = j k=0 (uv))' (14) uv V k J Дифференцируя выражения (12), получаем u(t,s)(k) = (n0a(t))(n0a(t)-1)-(n0a(t)- k + 1 )b(t)k ((1 - b(t)) + b{t)s)"oa()-k, v(t, s f~k) = c(t)n-k exp(c(t)s). Учитывая, что М()Хоа(0-1)-(n0a(0-k +1) = '(af ) + l),), Г(п0а(()- k +1) получаем решение незамкнутой системы (1) дифференциальных уравнений Колмогорова 1 d nf (t, s ) = (15) = exp Pn (t ) = n! dsn s=0 n-k i ^(1 - b(t))i(1 - к*) j (c(Ktа((()+1) /ж ju(t) V//JV v// k=0 k!(n - k)ir(n0 a(t)- k + 1)V 1 - b(t) где Г() - гамма-функция. Полученное распределение необходимо подчинить условию нормировки. ( 1.4. Частный случай:распределение вероятностей нестационарного процесса гибели Частный случай процесса только гибели получается в отсутствие процесса рождения, когда X(t) = 0, а следовательно, когда c(t) = 0. Распределение вероятностей такого процесса легко получить формально из общей формулы (15) при Х = 0 и c(t) = 0, когда в сумме по k остаётся только одно слагаемое - при k = n: n г( a(t)+1) b(t) ' 1 - b(t) ,«0a(( ) Pn (t ) = :(1 - b(t)) f • 1(n < n0), n = 0, nir(n0a(t)- n +1) где 1(n < n0) - индикатор условия, записанного в скобках (равен 1, если условие выполнено, и 0 в противном случае). Полученное распределение необходимо подчинить условию нормировки. 1.5. Частный случай: распределение вероятностей нестационарного процесса рождения Частный случай процесса чистого рождения, когда ц(0 = 0, a(t) = 1, b(t) = 1, а c(t) неограниченно возрастает, затруднительно получить из общего распределения (15), но легко получить, используя частный вид уравнения (4) для производящей функции при ^(t) = 0: df (t, s ) _ (16) • = -X(()(1 - s)f (t,s), f (t0,s) = sn0, n0 > 0, t > t0. Это уравнение при любом фиксированном 5 является обыкновенным дифференциальным уравнением первого порядка с разделяющимися переменными. Интегрируя его с заданным в (16) начальным условием, получаем ( t A f (t, s ) = sn0 exp - (1 - 5 ) J X(t)dt V to у Вычисление распределения Pn(t) также производим по формуле обращения (3) с использованием обозначения g (t ) = - JX(t), 0 представления ( t ^ f (t,s) = exp - JX(t)dt • u(t,s)-v(t,s) V t0 и формулы Лейбница (14) для вычисления производных, где функции u(t,s) и v(t,s) имеют вид u(t,s) = sn°, v(t,s) = exp(g(t)s). Дифференцируя их по s, получаем u(k) = k (n0 - 1)-(n0 - к +1)s"0 -k,к < n0, v(n-k) = g (t)n-k exp(g (t)s). [ 0, к > П0 Тогда при s = 0 в сумме (14) остаётся только одно слагаемое при к = n0 и n > n0, и распределение принимает вид - J X(t)dt • 1(n > n0 ), n = n0, . \n-n0 1 (t л (t )= 1 JX(t )dt (17) • exp (n - n0 ) n! dsr V 0 s=0 V '0 где 1(n > n0) - индикатор условия, записанного в скобках. Формула (17) выражает распределение Пуассона для n > n0, что хорошо известно для марковского процесса чистого рождения. Полученное распределение автоматически удовлетворяет условию нормировки. 1.6. Условие остановки неоднородного процесса рождения и гибели Возвратимся к формуле (15), представляющей распределение вероятностей Pn(t) состояний процесса рождения и гибели. Нетрудно видеть, что только входящая в него множителем функция c(t), определяемая формулами (10), при некотором t = t* может обратиться в 0, вследствие чего Pn(t*) при всех n > 0 обращается в 0, а P0(t*) = 1. Следовательно, все ненулевые состояния в этот момент времени поглощаются и процесс рождения-гибели останавливается. Рассмотрим подробнее условие остановки процесса. Выпишем функцию c(t) из (10): c(t >=$-W)exp ( t A - /ц(()dt V t0 (18) Предположим, что интенсивности процессов рождения и гибели монотонно уменьшаются с ростом t и не обращаются в 0 ни при каком конечном t > t0. Пусть для определённости они спадают по экспоненциальному закону: х(() = X0 exp(- (t -10 )/t1), ц^) = ц0 exp(- (t - t0 VT2) , (19) где ^o, Ц0 - начальные (в момент t0) интенсивности, т1, т2 - постоянные времени спадов интенсивностей. Поскольку интенсивности (19) положительны при конечном t > t0, функция ф(0 = c(t)^(t)/X0 имеет тот же знак, что и c(t). Выпишем её с учётом (19): Ф(() = exp(- (t -10 VT1) - exp(- ц 0 ^2 (1 - exp(- (t -10 ))). (20) При t = t0 эта функция обращается в 0, а её производная принимает значение dty(t0)/dt = ц0 -1/т1. С ростом t функция ф(0 (и, следовательно, c(t)) либо становится всюду отрицательной (при ц0х1 < 1), что недопустимо для существования (неотрицательности) распределения вероятностей ненулевых значений n, либо (при ц0Т1 > 1) возрастает, достигает положительного максимума в некоторой точке tmax > t0, а затем спадает до значения 0 в некоторой точке t* > tmax и далее уходит в отрицательную область, принимая отрицательное значение - exp(- ц0т2) при t ^ ж. В этом случае уравнение ф(0 = 0 имеет корень t*, являющийся точкой остановки процесса рождения-гибели с вероятностью 1. Таким образом, ненулевое состояние процесса рождения-гибели с экспоненциально спадающими интенсивностями возможно только при ц0т1 > 1 и только в интервале времени от t = t0 до t = t*, так что длительность жизни T процесса рождения-гибели не превышает разности t* - t0. Такой процесс (с ограниченным временем жизни) будем называть финитным. На рис. 1 в качестве примера представлено семейство кривых ф(0 при т1 = 0,4286, т2 = 0,1429 и ц0х1, изменяющемся с шагом 0,5 в интервале от 0 до 2,5. Рис. 1. Функция ф(Г) Заметим, что эффект остановки процесса рождения-гибели с вероятностью 1 не имеет места для однородного процесса, когда интенсивности постоянны (равны V ц0), потому что для однородного процесса Ф(( ) =1 - ехр(-ц 0(t -10 ))> 0 при любых конечных t > t0, так что уравнение ф(0 = 0 корней не имеет. Процесс останавливается только при случайном достижении состояния 0, но при этом P0(t*) Ф 1. Таким образом, однородный процесс рождения-гибели не является финитным. 2. Математическая модель статистического ансамбля неоднородных процессов рождения и гибели с монотонно убывающими интенсивностями Рассмотрим теперь статистический ансамбль неоднородных процессов рождения и гибели. Ансамбль характеризуется случайными моментами t0 возникновения каждого процесса рождения-гибели, а каждый из процессов рождения-гибели - случайными значениями параметров интенсивностей потоков рождения и гибели. Будем в дальнейшем предполагать, что интенсивности процессов рождения и гибели монотонно уменьшаются со временем t по экспоненциальному закону (19) от начальных значений Х и ц0 в момент времени t = t0 до нуля при t ^ ж с постоянными времени ii и т2 соответственно. Тогда каждый процесс рождения-гибели в ансамбле будет характеризоваться условным распределением вероятностей (15) с пятью случайными параметрами t0, Х0, ц0, т1, т2. Распределение вероятностей состояний ансамбля таких процессов рождения и гибели в каждый момент времени t получается усреднением выражения (15) по распределениям указанных пяти параметров: t да да да да Pn (t) = Idt0 IdX0 I0 IId^2Pn (t I t0 ,X0, Ц0 , , T2 )p(t0, X0 , Ц0, T1, T2 ), -да 0 0 0 0 где Pn ((I t0, X 0 = Ц 0> T1' T2 ) представляется формулой (19), а p(t0, X 0,Ц 0, T2 ) - плотность совместного распределения вероятностей параметров t0, Х0, ц0, т1, т2. Предположим, что моменты t0 возникновения событий, порождающих процессы рождения-гибели, образуют однородный пуассоновский поток независимых редких событий. Тогда параметр t0 в бесконечном ансамбле таких процессов будет распределён на полуоси (-да, t) равномерно. Естественно считать его статистически независимым от остальных параметров. Остальные четыре параметра Х0, ц0, т1, т2 также можно принять статистически независимыми. Однако при некоторых соотношениях между этими параметрами ненулевые состояния процесса рождения-гибели могут оказаться невозможными. Во-первых, для ненулевой вероятности ненулевого состояния процесса рождения-гибели необходимо, чтобы в момент времени t была положительной функция c(t), определяемая выражением (18) и входящая множителем в выражение (15) для функции распределения состояния процесса рождения-гибели. Следовательно, должна быть положительной функция 9(t), определяемая выражением (20) при экспоненциальных спадах (19) интенсивностей процессов рождения и гибели. Как видно из анализа поведения во времени функции 9(t) (рис. 1), для этого требуется выполнение неравенства Ц 0 Т1 > 1. (21) Во-вторых, для финитного процесса рождения-гибели с экспоненциально убывающими интен-сивностями полное (за всё время жизни процесса) среднее число Gi(o>) событий рождения и полное среднее число G2(®) событий гибели являются конечными. Поскольку в финитном процессе рождения-гибели ненулевые состояния с вероятностью 1 поглощаются за конечное время его жизни, естественно потребовать равенство этих средних: дада G = G1 (да) = G2(да), G1 (да)= IX(t)dt = X0x1 , G2(да)= ^(t)dt = ц0т2 , X0т1 = ц0т2 = G . (22) t0 t0 Получили два уравнения связей, позволяющих исключить переменные т1, т2 через переменные Х0, ц0 и новую переменную G: Т1 = G/ X 0, i2 = G/ ц 0. (23) Тогда неравенство (21) примет вид ограничения на переменную G: G >X0/Ц0. (24) Это значит, что при нарушении этого неравенства ненулевые состояния процесса рождения-гибели становятся невозможными. В-третьих, чтобы разность процессов рождения и гибели с учётом (22) и (23) была в среднем неотрицательной, необходимо, чтобы X0 > Ц0 . (25) Это условие можно проиллюстрировать графически. На рис. 2 представлены изменения во времени среднего накопленного к моменту t числа G1(t), G2(t) событий процессов рождения и гибели, ( ( + + W t ( ( + + W ^2 / t -10 1 - exp G1 (t)= I X(()dt = X0т1 1 - exp--- , G2 (t)= I ц(()dt = ц0x2 f0 V V / / а также их разности G1(t) - G2(t) при выполнении условий (22) и соотношений (23). Видно, что разность G1(t) - G2(t), выражающая среднее состояние процесса рождения-гибели (среднее число «живущих» событий), при Х0 > ц0 сначала быстро возрастает, достигает максимума, а затем медленно уменьшается, оставаясь неотрицательной величиной. Если бы неравенство было противоположным, разность стала бы отрицательной, а это невозможно, так как означало бы, что среднее число погибших элементов потока рождения-гибели превышает среднее число рождённых элементов. Следовательно, при нарушении неравенства (25) ненулевые состояния процесса рождения-гибели становятся невозможными. Рис. 2. Динамика среднего состояния процесса рождения-гибели при G = 15, Х0 = 3, ц0 = 1 (Х0 > ц0) Таким образом, вместо четырёх параметров Х0, ц0, т1, т2 при нахождении безусловного распределения состояний процесса рождения-гибели можно обойтись тремя: Х0, ц0, G. С учётом естественной неотрицательности параметров Х0, ц0, G ограничения (24)-(25) определяют область возможных значений этих параметров при усреднении условного распределения: t да X0 да Pn (t)= J Р((0 )dt0 J dX 0 J Ф0 J dG ' Pn (( 1 t0-> X 0 , МчЪ Gp(( 0 , МчЪ G). (26) -да 0 0 X 0/ ц0 Условное распределение Pn(t110,X0,ц0,G) представляется выражением (15) с входящими в него функциями a(t), b(t), c(t), определяемыми выражениями (10) с учётом (19) и (23). 3. Математическая модель скрытого марковского процесса рождения и гибели и её идентификация Статистический ансамбль неоднородных марковских процессов рождения-гибели со случайными параметрами при неизвестных распределениях параметров представляется скрытым марковским процессом рождения-гибели. Этот процесс наблюдаем, тогда как его параметры являются ненаблюдаемыми случайными величинами. Возникает вопрос, при каких распределениях параметров наблюдаемый процесс рождения-гибели имеет теоретическое распределение вероятностей состояний, максимально близкое к эмпирическому распределению? Задача отыскания наилучшей статистической оценки распределения p(X0, ц0, G) по наблюдаемому эмпирическому распределению {Рпэ(0, n = 1,2,...,N}, где N - максимальное наблюдаемое в эмпирическом распределении значение n, является задачей статистической идентификации наблюдаемого скрытого процесса рождения-гибели и сводится к минимизации по p(X0, ц0, G) расхождения между теоретическим распределением (26) с ядром (15) и эмпирическим распределением. Для корректного решения этой задачи можно использовать известные методы тихоновской регуляризации. В качестве критерия идентификации (критерий близости распределений) целесообразно выбрать логарифмический среднеквадратический критерий вида 1 N J =-Z N n=1 2 ( log Pn (t) - log Рпэ (() ^ ^ min . (27) p(V|i0,G ) log Рпэ (t) Логарифмическая форма критерия удобна в случае больших (на несколько порядков) различий значений фигурирующих в критерии распределений при разных n. Минимизация (27) с вычислением многомерного интеграла (26) представляет определённые вычислительные трудности, связанные, прежде всего, с преодолением некорректности и большим объёмом вычислений. Уменьшить число вычислений можно, заменяя интегралы суммами со сравнительно небольшими (приемлемыми с вычислительной точки зрения) числами слагаемых. При этом, естественно, снижается точность вычислений. Опуская детали вычислительной схемы, приведём результаты вычислений оптимальных значений теоретической функции распределения Рп opt(0, максимально приближенной к эмпирическому распределению Рпэ(0 по критерию (27). 4. Идентификация математической модели скрытого неоднородного марковского процесса рождения и гибели по эмпирическому распределению полисемии языка А.С. Пушкина В качестве эмпирического распределения Рпэ возьмём распределение Pn pushkm полисемии слов языка А.С. Пушкина [6]. В двойном логарифмическом масштабе это распределение представлено на рис. 3 тонкой кривой. Полужирной кривой показано оптимальное распределение Рп opt(t), вычисленное с использованием критерия (27) для некоторого фиксированного момента времени t без усреднения по t0 в (26) (t0 взято равным 0). Диапазоны значений параметров, на которых вычислялись их распределения: G - от 10 до 20 с шагом 0,5; Х0 - от 0,1 до 6,1 с шагом 0,5; ц0 - от 0,1 до 5,1 с шагом 0,5. Из рис. 3 видно хорошее согласие теоретического распределения с эмпирическим (достигнутый уровень значимости p = 0,9971 по критерию Колмогорова-Смирнова), что свидетельствует о возможности моделирования процесса развития полисемии языковых знаков скрытым марковским процессом рождения-гибели. Рис. 3. Теоретическое распределение вероятностей состояний Рп opt неоднородного процесса рождения и гибели и эмпирическое распределение вероятностей Pn pushkin значений полисемии языка А. С. Пушкина Заключение В работе выдвинута и подтверждена экспериментальными данными гипотеза о возможности математического моделирования процессов развития полисемии знаков естественного языка скрытыми нестационарными финитными марковскими моделями рождения и гибели. Получена аналитическая форма условного распределения вероятностей такого процесса при экспоненциально спадающих интен-сивностях процессов рождения и гибели. Предложен критерий идентификации скрытой модели. Проведено приближённое численное решение задачи идентификации модели и вычислено безусловное одномоментное теоретическое распределение полисемии, соответствующее эмпирическому распределению полисемии языковых знаков словаря А.С. Пушкина. Получено хорошее согласие теоретического и экспериментального распределений полисемии.
Скачать электронную версию публикации
Загружен, раз: 279
Ключевые слова
неоднородный процесс рождения и гибели, скрытая марковская модель, идентификация модели, языковой знак, полисемия, heterogeneous process of birth and death, hidden Markov model, model identification, language sign, polysemyАвторы
ФИО | Организация | Дополнительно | |
Поддубный Василий Васильевич | Томский государственный университет | профессор, доктор технических наук, профессор кафедры прикладной информатики факультета информатики | vvpoddubny@gmail.com |
Ссылки
Поддубный В.В., Поликарпов А. А. Диссипативная стохастическая динамическая модель развития языковых знаков // Компьютерные исследования и моделирование. 2011. Т. 3, № 2. С. 103-124.
Poddubny V.V., Polikarpov A.A. Stochastic Dynamic Model of Evolution of Language Sign Ensembles // Methods and Applications of Quantitative Linguistics. Selected papers of the 8th International Conference on Quantitative Linguistics (QUALICO) / ed. by Ivan Obradovic, Emmerich Kelih and Reinhard Kohler. Belgrade, 2013. P. 69-83.
Poddubnyy V., Polikarpov A. Evolutionary Derivation of Laws for Polysemic and Age-Polysemic Distributions of Language Sign Ensembles // Recent Contributions to Quantitative Linguistics / ed. by A. Tuzzi, M. Benesova, J. Macutek. Walter de Gruyter GmbH, 2015. P. 115-124.
Поликарпов А. А. Модель жизненного цикла знака: К теоретическим основаниям исторической лексикологии и дериватологии // Славянская лексикография / ред. М.И. Чернышева. М. : Азбуковник, 2013. С. 679-702.
Fisz M. Probability Theory and Mathematical Statistics. New York ; London ; Sydney : John Wiley & Sons, 1967. 680 p.
Словарь языка Пушкина : в 4 т. 2-е изд., доп. / отв. ред. В.В. Виноградов ; Российская академия наук. Ин-т рус. яз. им.

О возможности математического моделирования эволюции полисемии знаков естественного языка с помощью нестационарных процессов рождения и гибели | Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2016. № 3(36).
Скачать полнотекстовую версию
Загружен, раз: 769