Выбор интервалов анализа сигнала при распознавании речи
Рассматривается проблема выбора интервалов анализа сигнала при распознавании речи. Исследуются преимущества и недостатки прямоугольного временного окна при кратковременном спектральном анализе. Предлагаются методы выбора интервалов анализа для речевых сигналов, которые позволяют устранить недостатки прямоугольного окна.
Choosing signal analysis intervals when recognizing speech.pdf При распознавании речи обрабатываемый сигнал снача-ла разбивается на небольшие отрезки (интервалы анализа),которые затем классифицируются. Полученная последова-тельность отрезков речевого сигнала может затем подвер-гаться дальнейшей обработке, например, с целью полученияпоследовательности слов. Интервалы анализа обычно име-ют одинаковую длину, а для их классификации переходят кспектральному представлению сигнала. Перед нахождениемспектра сигнал подвергается преобразованию с помощьюнепрямоугольного в общем случае временного окна (какправило, Хэмминга или Ханна). Такое преобразование ис-кажает сигнал и может затруднить его классификацию. Ис-пользование прямоугольного окна, не искажающего сигнал,также имеет свои недостатки. Однако возможно выбиратьинтервалы анализа таким образом, что недостатки прямо-угольного окна устраняются и при этом сохраняются егополезные свойства.ТРЕБОВАНИЯК ДЛИНЕ ИНТЕРВАЛОВ АНАЛИЗАРечевой сигнал можно представить как функциювремени p(t), которая выражает изменение во временикакой-либо физической величины, например звуково-го давления или напряжения.Согласно общепринятой акустической теории ре-чеобразования [1], преобразование Лапласа от функ-ции p(t) звукового давления можно представить в ви-де произведенияP(s)=S(s)⋅T(s),где S(s) есть преобразование Лапласа для функции ис-точника звука, а T(s) - передаточная функция речево-го тракта. Передаточная функция T(s) является меро-морфной функцией и полностью определяется беско-нечным числом комплексно-сопряженных полюсов инулей.Функция s(t) источника звука представляет собойизменение во времени звукового давления, вызванноеисточником звука. Источник звука может быть либоголосовым, либо шумовым. Голосовой источник обу-словлен колебанием голосовых связок, функция s(t) вэтом случае является квазипериодической. Среднеезначение T0 периода колебаний голосовых связок на-зывается периодом основного тона речи, а обратнаяей величина F0=1/T0 представляет собой частоту ос-новного тона.Отклонения периода основного тона от среднегозначения можно классифицировать следующим обра-зом:1) случайные отклонения (джиттер-эффект [2]).Эти отклонения невелики и возможны как в сторонуувеличения, так и в сторону уменьшения периода ос-новного тона. Случайные отклонения не несут какой-либо смысловой нагрузки;2) вибрато. Вибрато есть частотная модуляция ко-лебаний голосовых связок и проявляется в периоди-ческом или квазипериодическом изменении периодаосновного тона. Вибрато характерно для пения, и це-лью его использования является придание голосу кра-соты. Как правило, вибрато не несет какой-либо смы-словой нагрузки;3) плавное увеличение или уменьшение периодаосновного тона. Этот тип отклонений является частьюинтонационного рисунка речи. Обычно увеличениечастоты основного тона вызывается увеличениемподсвязочного давления, вследствие чего увеличива-ется также и громкость речи, и наоборот, хотя увели-чение частоты основного тона может происходить ибез увеличением подсвязочного давления. Отслежи-вание изменения частоты основного тона совместно синтенсивностью звука является важным при опреде-лении границ слогов, фонетических слов и фонетиче-ских синтагм и необходимым для определения сло-весных и синтагматических ударений и интонации,которая указывает на общую коммуникативную цельговорящего.Отслеживание изменения частоты основного тонатребует анализа речевого сигнала на достаточно не-больших временных интервалах.Небольшие интервалы анализа (порядка одногопериода основного тона) требуются и при отслежива-нии сдвига формант, имеющего место во время пере-ходных процессов в речевом тракте. Например, слова[mama] и [nana] различаются человеком только за счетсдвига формант в начале произнесения первого и вто-рого [a], в то время как сами по себе [m] и [n] практи-чески не различаются [1].ДИСКРЕТИЗАЦИЯ РЕЧЕВЫХ СИГНАЛОВЕсли в процессе произнесения данного речевогосигнала ему предшествовали и за ним следовали дос-таточно большие паузы, функцию s(t) источника зву-ка можно считать финитной. В этом случае изображе-ние S(s) будет целой функцией, а P(s) - мероморфной,из чего следует нефинитность функции p(t).В реальности наблюдение функции p(t) ограничи-вают каким-либо интервалом T1, превращая ее в фи-нитную. Преобразование Лапласа Pф(s) такой финит-ной функции pф(t) будет целой функцией, т.е. инфор-мация о точном нахождении полюсов функции P(s), аследовательно, и передаточной функции T(s), будетпотеряна.Пусть отсчет времени для функции pф(t) ведется отмомента времени t=0. Тогда функцию pф(t) можноразложить в ряд Фурье на интервале [0, T1)12( )i ntф Tф nnp t c e =−= .Здесь предполагается, что это разложение существует.Перед обработкой на компьютере речевой сигналpф(t) дискретизуется с шагом t. Соответствующеесигналу pф(t) дискретное колебание pд(t) можно пред-ставить выражением [3]10( ) ( ) ( )Nд фkp t t p k t t k t−== − ,где N=T1/t - количество отсчетов сигнала pф(t), (t) -дельта-функция Дирака.Коэффициенты дcn ряда Фурье дискретного сигна-ла pд(t) выражаются через коэффициенты фcn рядаФурье сигнала pф(t) следующим образом:д фn n Nkkc c−=−= , (1)а само значение коэффициентов дcn дается дискрет-ным преобразованием Фурье (ДПФ)1 201 ( )д N iNnkn фkc p k t eN− − == . (2)Интервал разложения для pд(t) равен [0, T1).Предполагается, что в дискретном колебании pд(t)на выходе цифроаналогового преобразователя будутотфильтрованы гармоники с круговыми частотамивыше /t, и на выходе синтезирующего фильтра бу-дет восстановленный сигнал pв(t) [4]. В случае иде-ального синтезирующего фильтра спектр сигнала pв(t)будет состоять из коэффициентов дcn , n = 0, ±1,…, ±[N/2], где квадратные скобки означают взятиецелой части числа.Если для коэффициентов фcn ряда Фурье сигналаpф(t) выполняется условиеф 0 для | | /2cn = n≥N , (3)то выражение (1) преобразуется к видуд ф, 0, 1, , [ /2]cn=cn n= … N , (4)т.е. сигналы pф(t) и pв(t) будут совпадать.Если условие (3) не выполняется, то происходитэффект наложения спектров [5]. Чтобы избежать это-го эффекта, перед дискретизацией сигнала pф(t) про-изводится фильтрация гармоник с круговыми часто-тами, большими /t. Однако, поскольку аналоговыефильтры нижних частот не являются идеальными, тоэффект наложения спектров может иметь место и вэтом случае.В случае четного N из условия (3) следуетд / 2 д / 2 0c−N =cN = . Однако на практике при выполненииДПФ часто оказывается, что д / 2 0N c− и / 2 0 дNc .Поскольку в этом случае условие (3) уже не выполня-ется, введем более слабое условиеф 0 для | | /2cn = n>N . (3')Из (1) и (3') в случае четного N следует/ 2 / 2 / 2 / 2, 0, 1, , 1,2.д фn nд д ф фN N N Nc c n Nc− c c− c⎧⎪ = = ⎛⎜ − ⎞⎟⎝ ⎠ ⎨⎪⎩ = = +…Пусть ф Re{ ф} Im{ ф}cn = cn +i cn , тогда, посколькуф Re{ ф} Im{ ф}c−n= cn −i cn ,д / 2 д / 2 2Re{ ф / 2}c−N =cN = cN . (5)Из равенства (5) можно сделать вывод, что синус-ная составляющая гармоники с номером N/2 сигналаpф(t) при дискретизации теряется, что естественно, таккак функцию sin(t/t) нельзя корректно дискретизо-вать с шагом t. С другой стороны, косинусная со-ставляющая корректно дискретизуется, но из-за эф-фекта наложения спектров происходит ее удвоение.Из (5) следует, что в случае четного N идеальныйсинтезирующий фильтр на выходе цифроаналоговогопреобразователя должен уменьшать в 2 раза амплиту-ды гармоник с номерами ±N/2.В связи с вышеизложенным удобно ввести коэф-фициенты дcn , связанные с коэффициентами дcn рядаФурье дискретного сигнала pд(t) следующим образом:для 0, 1, , 1 ,2для при четном .2 2дnдn дnc n Ncc n N N⎧ − ⎡ ⎤ = ⎪ ⎢ ⎥ ⎪ ⎣ ⎦ =⎨⎪= ⎪⎩…(6)Таким образом, из выполнения условия (3') будетследовать, 0, 1, , 1,2Re{ } для при четном .2фnдnфnc n Ncc n N N⎧ − ⎡ ⎤ = ⎪ ⎢ ⎥ ⎪ ⎣ ⎦ =⎨⎪= ⎪⎩…(7)Поскольку синусная составляющая гармоники сномером N/2 сигнала pф(t) потеряна, то можно счи-тать, что она была равна нулю. Тогда из (3') и (7) по-лучаемд ф, 0, 1, , [ /2]cn =cn n= … N , (4')и с учетом вышесказанного сигналы pф(t) и pв(t) будутсовпадать и в этом случае.Если абсолютные значения коэффициентов фcnдля |n|>N/2 достаточно малы, так что выполняетсяприближенное равенствод ф, 0, 1, , [ /2]cn ≈cn n= … N ,то удобно исходным считать сигнал1[ /2] 2[ /2]( )N i ntд Tф nn Np t c e=−= . (8)Для сигнала (8) будут автоматически выполнятьсяусловия (3') и (4'). В дальнейших рассуждениях будемсчитать, что для сигнала pф(t) условия (3') и (4') вы-полняются.ПРОБЛЕМА ВЫБОРА ИНТЕРВАЛОВ АНАЛИЗАДЛЯ РЕЧЕВЫХ СИГНАЛОВПри распознавании речи большой интерес пред-ставляют спектральные свойства речевого сигналаpф(t). Для нахождения спектра дискретного сигналаpд(t) используется ДПФ. В этом случае мы в соответ-ствии с равенством (4') одновременно получаем испектр сигнала pф(t).Но поскольку сигнал pф(t) в общем случае имеетдостаточно большую длительность и представляетсобой реализацию некоторого количества фонем, тоинтересны, прежде всего, спектральные свойства невсего сигнала pф(t), а его локальных участков.В связи с этим возникает проблема сегментацииречи: перед тем как определять, к какому классу от-носится тот или иной участок речевого сигнала, рече-вой сигнал необходимо сегментировать на эти участ-ки.Сегментация речевого сигнала неоднозначна и за-висит от используемых критериев. Общепринятымподходом является разбиение сигнала на пересекаю-щиеся или непересекающиеся интервалы временификсированной длины в диапазоне от 2 до 50 мс, ис-ходя из предположения, что на интервале даннойдлины изменение характеристик речевого тракта дос-таточно незначительно.Перед выполнением спектрального анализа изсигнала pд(t) с помощью временного окна w(m) выде-ляется кратковременный сигнал10( ) ( ) ( ) ( )Nдm фkp t t wk mp k t t k t−== − − , (9)равный нулю вне интервала [t0, t0+T2), t0=mt, T2=Mt.ДПФ этого сигнала на интервале разложения[t0, t0+T2) есть( )2 1 201 ( ) ( )д iMnm M iMnkmn фkc e wkp m k teM− − −== + , (10)где дcmn - n-й коэффициент ряда Фурье сигнала pдm(t).Множительi2 nme M−в (10) представляет собой линей-ное изменение фазы, связанное с задержкой сигналана m отсчетов. Обычно этот множитель не учитывает-ся, поскольку положение сигнала pдm(t) на временнойоси, как правило, неважно.Наиболее распространенными типами окон являют-ся прямоугольное и обобщенное окна Хэмминга [6, 7].Окна, отличные от прямоугольного, дополнитель-но искажают сигнал pдm(t), поэтому искажается и рядФурье (10) в сравнении с рядом для прямоугольногоокна.Рассмотрим для примера искажение, вносимое M-точечным обобщенным окном Хэмминга( )H( ) 1 cos 2 ,0 1,0 при других .m m M w m Mm=⎧⎨⎪ − − ⎛⎜⎝ ⎞⎟⎠ ≤ ≤ −⎪⎩Пусть на интервал длиной T2=Mt, выделяемыйокном wH(m), приходится ровно один период колеба-ния голосовых связок, взятый из некоторого речевогосигнала. Для выделенного таким образом исходногосигнала pф(t) длительностью T2 ряд Фурье (2) совпа-дает с рядом Фурье (10) в случае использования M-точечного прямоугольного окна.В случае же использования обобщенного окнаХэмминга ряд Фурье (10) будет совпадать с рядомФурье сигнала( )2pфи(t) pф(t) 1 cos 2 tT⎡ ⎛ ⎞⎤= ⎢− − ⎜ ⎟⎥⎣ ⎝ ⎠⎦. (11)Чтобы отследить отличия спектров у сигналовpф(t) и pфи(t), удобно представить сигнал pф(t) рядомФурье в тригонометрической форме:[ /2]01 2( ) cos 22Nф n nnp t a A nt= T⎛ ⎞= + ⎜ + ⎟⎝ ⎠ . (12)Из (11) и (12) видно, что преобразование сигналаpф(t) с помощью обобщенного окна Хэмминга эквива-лентно амплитудной модуляции с круговой частотой2/T2 каждой гармоники сигнала pф(t), т.е. у каждойгармоники с круговой частотой 2n/T2 появляютсякопии с круговыми частотами 2(n - 1)/T2 и 2(n+1)/T2и амплитудой (1 - )An/2. Эти копии накладываютсяна соседние гармоники, искажая их.Это явление можно проинтерпретировать и другимобразом, а именно: при преобразовании сигнала с по-мощью обобщенного окна Хэмминга происходит раз-мытие спектра по частотной шкале. Из приведенныхрассуждений видно, что при использовании времен-ных окон, отличных от прямоугольного, будет проис-ходить то или иное искажение спектра, которое мож-но представлять себе в виде его некоторого размытия.Размытие спектра является недостатком, которогожелательно избегать, так как при этом могут поте-ряться или притупиться формантные максимумы, чтосделает задачу классификации данного участка рече-вого сигнала более сложной.-30000-20000-1000001000020000300001 51 101 151020004000600080001 6 11 16 21 26 31 36020004000600080001 6 11 16 21 26 31 36Рис. 1. Сравнение ДПФ с использованием прямоугольногоокна и окна Ханна: а) дискретный сигнал, для которого вы-полняется ДПФ, по оси абсцисс отложены номера отсчетов;б) амплитудный спектр для прямоугольного окна; в) ампли-тудный спектр для окна Ханна. Спектральные коэффициен-ты пронумерованы начиная с единицыНа рис. 1, б и в представлены для сравнения спек-тры, полученные с использованием прямоугольногоокна и окна Ханна (обобщенного окна Хэмминга спараметром = 0,5) на примере дискретного сигнала,представляющего собой один период речевого сигна-ла, взятый из реализации фонемы /а/, произнесеннойженским голосом (показаны только первые 40 спек-тральных коэффициентов, модули остальных коэф-фициентов пренебрежимо малы). На рис. 1,б отчетли-во видны формантные максимумы, соответствующиепервым двум формантам: F1 находится около гармо-ники n=3 (на рисунке она имеет номер 4) с частотой723 Гц, F2 находится около гармоники n=5 с частотой1205 Гц. На рис. 1,в видно, что из-за размытия спек-тра формантный максимум, соответствующий первойформанте, исчез.В [6] отмечается, что частотное разрешение у пря-моугольного окна больше, чем у окна Хэмминга, од-нако прямоугольное окно редко используется приспектральном анализе речи из-за того, что преобразо-вание Фурье( ) ( i ) ( )ikm фkX e wk m p k t e −=−= − дискретного сигнала pдm(t) в случае прямоугольногоокна имеет более изрезанный характер между гармо-никами, чем, например, преобразование Фурье с ок-ном Хэмминга [6].Но если заданы значения Xm(ei) в точках=2n/M, n=0, …, [M/2], т.е. гармоники, то значенияXm(ei) для других значений не несут информации,так как могут быть однозначно вычислены. Поэтомуданное свойство прямоугольного окна не должнопрепятствовать его использованию при спектральноманализе речи.Рассмотрим еще один недостаток прямоугольногоокна, который не упоминается в литературе.В случае прямоугольного окна выражение (9) при-водится к виду1( ) ( ) ( )m Mдm фk mp t t p k t t k t+ −== − ,а выражение (10) - к виду( )2 1 201 ( )д iMnm M iMnkmn фkc e p m k teM− − −== + .Для нас интересен случай, когда MM/2. В качестве миними-зируемой величины естественно выбрать среднюю наинтервале T2 мощность2[ /2] 1( ) 2 фt mnn MP M c= += сигнала pфm(t) вне основной полосы с граничной кру-говой частотой /t. Средняя мощность Pt(M) зависити от начала t0 интервала анализа, который мы полага-ем фиксированным.При выполнении условия (3') можно найти скольугодно точное решение этой задачи. Действительно,поскольку функция pф(t) представима конечной сум-мой известных гармоник, мы можем восстановить еезначения в любой точке, а следовательно, разложитьее в ряд Фурье на интервале [t0, t0+T2), после чего вы-числить Pt(M) на основании равенства0 202 [ /2] 22 [ /2]( ) 1 ()t T Mфt фm mnt n MP M p t dt cT+=−= − , (16)которое выполняется ввиду полноты тригонометриче-ской системы.Для вычисления Pt(M) по формуле (16) нам пона-добится вычислить значения M+2 интегралов. Прииспользовании численного интегрирования потребу-ется вычислять значения подынтегральных функций вразличных точках. Вычисление значений подынте-гральных функций в каждой точке потребует сумми-рования N синусоидальных и косинусоидальных со-ставляющих ряда Фурье функции pф(t). Количествоэлементарных операций, которое нужно выполнитьдля вычисления Pt(M), зависит от метода и точностичисленного интегрирования. Пусть для приближенно-го вычисления интеграла на интервале t необходимовычислить значения pф(t) в C точках. Тогда на интер-вале T2 необходимо вычислить значения pф(t) в CMточках, и общее число элементарных операций, нуж-ное для вычисления Pt(M), составит CN(M2+2M).Для нахождения наилучшего интервала анализапонадобится вычислить значения Pt(M) для M=Mmin,…, Mmax, где Mmin=Tmin/t, Mmax=Tmax/t.Пусть Q = Mmax - Mmin. Тогда трудоемкость нахож-дения наилучшего интервала анализа при численномвычислении интегралов составитmaxmin( ) ( 2 2 )MM MT Q CN M M== + == CN (aQ3+bQ2+cQ+d ), (17)где a = 1/ 3 ,b=Mmin + 3/ 2 ,2c=Mmin+3Mmin+7/6,2d=Mmin+2Mmin .Трудоемкость T(Q), даваемая выражением (17),является кубической относительно Q, квадратичнойотносительно Mmin и линейной относительно N. Такженеобходимо учитывать, что для разложения функцииpф(t) в ряд Фурье на интервале [0, T1) потребуется вы-полнить ДПФ, которое имеет в общем случае квадра-тичную трудоемкость относительно N.Эксперимент показывает, что скорость вычисле-ния значений Pt(M) с помощью численного интегри-рования является крайне низкой, что делает данныйспособ нахождения наилучшего интервала анализанепригодным для практического применения. Крометого, из-за вычислительных погрешностей, возни-кающих при численном интегрировании, полученныйрезультат может отличаться от точного решения.Интегралы в выражении (16) можно вычислить ианалитически. Для этого представим функцию pф(t) ввиде ряда Фурье в тригонометрической форме:[ /2]01 1( ) sin 22Nф n nnp t a A nt= T⎛ ⎞= + ⎜ + ⎟⎝ ⎠ .Тогда средняя на интервале [t0, t0+T2) мощностьсигнала pфm(t) будет равна0 202 [ /2]2 0 22 11 ( ) 12 2t T Nфm nt np tdt a A NT M+== ⎛⎜⎝ ⎞⎟⎠ + + [ /2]011 cos 22Nn nna A mn= n N ⎧⎪⎨⎪⎩ ⎡⎣⎢ ⎛⎜⎝ + ⎞⎟⎠−[ /2]21cos 2 1 18Nn nnm Mn AN n =− ⎜⎝⎛ + + ⎟⎠⎞⎤⎥⎦ + ⎡⎢⎣ ⎛⎜⎝ + ⎞⎟⎠− ⎛⎜⎝ + + ⎞⎟⎠⎤⎥⎦+[ / 2] [ / 2]1 11 14N Nn kn kk nA A= = n k+ ⎡⎢⎣ − sin 2 ( ) n km M n kN⎧⎨ ⎛⎜ + − + −⎞⎟−⎩ ⎝ ⎠sin 2 ( ) n km n kN− ⎜⎛ − + − ⎟⎞⎬⎫−⎝ ⎠⎭1 sin 2 ( ) n km M n kn k N− + ⎧⎨⎩ ⎛⎜⎝ + + + + ⎞⎟⎠−sin 2 ( ) n km n kN− ⎛⎜ + + + ⎞⎟⎬⎫⎥⎤⎬⎫⎪⎝ ⎠⎭⎦⎪⎭. (18)Для вычисления средней мощности сигнала pфm(t)в основной полосе с граничной круговой частотой/t необходимо вычислить квадраты модулей коэф-фициентов фcmn , которые равныф 2 Re2{ф} Im2{ф}cmn = cmn + cmn ,где0 20 2 2Re{ } 1 ( ) cos2t Tфmn фmtc p t ntdtT T+ = , (19)0 20 2 2Im{ } 1 ( )sin2t Tфmn фmtc p t ntdtT T+ = . (20)Интеграл (19) для n0 можно представить в виде0 20[ /2]2 2 11 ( )cos2 1 sin2 2t T Nфm k kt kkM nNp t ntdt A NT T+==⎧ ⎪= ⎨ + ⎪⎩ [ /2]11 cos 2 2Nk kkkM nNA mk mn= kM nN N M⎡⎢ ⎧ ⎛ ⎞ − + − ⎨ ⎜ ⎟ ⎢ − ⎝ ⎠ ⎩ ⎢⎣[ /2]1cos 2 2Nk kkm Mk mn AN M =− ⎛⎜ + − +⎞⎟⎫⎬+ ⎝ ⎠⎭1 cos 2 2 kmk mnkM nN N M + ⎧⎨⎩ ⎛⎜⎝ + + ⎞⎟⎠−cos 2 2 km Mk mnN M− ⎜⎛ + + +⎟⎞⎫⎬⎥⎤⎬⎫⎪⎝ ⎠⎭⎦⎪⎭. (21)Интеграл (20) для n0 можно представить в виде0 20[ /2]2 2 11 ( )sin2 1 cos2 2t T Nфm k kt kkM nNp t ntdt A NT T+==⎧ ⎪= ⎨ + ⎪⎩ [ /2]1N 1kkkM nNA= kM nN⎡⎢ ⎢ − ⎢⎣sin 2 2 km Mk mnN M⎧⎨ ⎛⎜ + − + ⎞⎟−⎩ ⎝ ⎠[ /2]1sin 2 2Nk kkmk mn AN M =− ⎛⎜ − + ⎞⎟⎫⎬− ⎝ ⎠⎭1 sin 2 2 km Mk mnkM nN N M + ⎧⎨⎩ ⎛⎜⎝ + + + ⎞⎟⎠−sin 2 2 kmk mnN M− ⎛⎜ + + ⎞⎟⎫⎬⎤⎥⎬⎫⎪⎝ ⎠⎭⎦⎪⎭. (22)В случае n=0 коэффициент ,0фcm равен0 20[ /2]0,02 11 ( ) 12 2t T Nфm фm kt kc p t dt a N AT M k+== = + cos 2 k cos 2 kmk mMkN N ⎧⎨ ⎜⎛ + ⎟⎞− ⎜⎛ + + ⎟⎞⎫⎬⎩ ⎝ ⎠ ⎝ ⎠⎭. (23)Трудоемкость вычисления Pt(M) по формулам(18), (21) - (23) равна N2/4+2N+NM, и трудоемкостьнахождения наилучшего интервала анализа при ана-литическом вычислении интегралов составитmaxmin( ) ( 2 /4 2 )MM MT Q N N NM== + + == aQ2 +bQ+c, (24)где Q = Mmax - Mminи a=N/ 2 ,2b=N / 4+N(Mmin+5/ 4) ,2c=N / 4+N(Mmin +2) .Трудоемкость (24) является квадратичной относи-тельно Q и линейной относительно Mmin, т.е. по этимпараметрам лучше, чем трудоемкость (17). Относи-тельно N трудоемкость (24) является квадратичной,т.е. теоретически хуже, чем трудоемкость (17), однаконеобходимо учитывать, что и при численном, и прианалитическом вычислении интегралов потребуетсянахождение ДПФ функции pф(t), а оно имеет квадра-тичную относительно N трудоемкость.Экспериментально было установлено, что ско-рость вычисления значений Pt(M) с помощью формул(18), (21) - (23) существенно выше, чем с помощьючисленного интегрирования. Тем не менее, эта ско-рость остается достаточно низкой, и данный способнахождения наилучшего интервала анализа также яв-ляется малопригодным для практического примене-ния.Кроме этого, вычисления по формулам (18), (21) -(23) даже при использовании чисел расширенной точ-ности стандарта IEEE-854 дают неточный результат.Например, были получены отрицательные значенияPt(M), составляющие около 2,8% от вычисленнойсредней мощности сигнала pфm(t) на интервале[t0, t0+T2). В таких случаях вычисление Pt(M) с помо-щью численного интегрирования при достаточно ма-лом шаге интегрирования дает более точный резуль-тат. Это не позволяет говорить, что вычисления поформулам (18), (21) - (23) в общем случае дают болееточный результат, чем результат, полученный с по-мощью численного интегрирования.Таким образом, несмотря на то, что метод мини-мизации Pt(M) теоретически дает точное решение за-дачи выбора интервала анализа по данному критерию,на практике получить точное решение может оказать-ся затруднительным.На рис. 2,б для иллюстрации эффекта зашумленияспектра приведена функция Pt(M) зашумления спек-тра дискретного сигнала, изображенного на рис. 2,а.Как видно из примера на рис. 2, зашумление спектрадискретного сигнала увеличивается по мере увеличе-ния разрыва функции на краях интервала анализа.Также видно, что чем больше длина интервала анали-за, тем меньше зашумление спектра при той же вели-чине разрыва функции на краях интервала. Следстви-ем этого является то, что точки максимумов разрывафункции и зашумления спектра не совпадают. Однакоточки минимумов разрыва функции и зашумленияспектра совпадают, функция Pt(M) на области опреде-ления M=1,…,100 достигает минимума в трех точках:M=1, M=50 и M=100 (флуктуации при больших значе-ниях Pt(M) не учитываются). Функция Pt(M) достигаетнаименьшего значения в точке M=100, Pt(100)≈0, по-скольку спектр исходного континуального сигналадля M=100 состоит из одной гармоники.-34000-17000017000340001 11 21 31 41 51 61 71 81 9101,3·1062,5·1063,8·1065,0·1061 11 21 31 41 51 61 71 81 91Рис. 2. Пример зашумления спектра дискретного сигнала:а) дискретный сигнал - один период дискретизованной си-нусоиды, N=100; б) функция Pt(M) для m=0 и M=1,…,100Минимизация Pt(M) есть минимизация абсолютно-го зашумления спектра, но можно минимизировать иотносительное зашумление спектра, т.е. минимизиро-вать величину( )( )( )ttфR M P MP M= ,где Pф(M) есть средняя мощность сигнала pфm(t) наинтервале [t0, t0+T2)0 2022( ) 1 ()t Tф фmtP M p t dtT+= .-34000-17000017000340001 11 21 31 41 51 61 71 81 9108,8·1051,8·1062,6·1063,5·1061 11 21 31 41 51 61 71 81 9100,0050,0090,0140,0181 11 21 31 41 51 61 71 81 91Рис. 3. Сравнение абсолютного и относительного зашумле-ния спектра дискретного сигнала: а) дискретный сигнал -один период дискретизованной функции (25), N=100;б) функция Pt(M) для m=0 и M=1,…,100; в) функция Rt(M)для m=0 и M=1,…,100Сравнение функций Pt(M) и Rt(M) приведено нарис. 3, б и в на примере дискретной функции (рис.3,а), полученной при дискретизации одного периодаконтинуальной функцииpф (t) = 16383(sin1t+ cos 21t), (25)где 1=2/T1. В примере на рис. 3 функции Pt(M) иRt(M) очень похожи с точностью до масштабногомножителя. Точки минимумов у функций Pt(M) иRt(M) на области определения M=1,…,100 совпадают.Этими точками являются точки M=1, M=8, M=42,M=50 и M=100. Эти же точки являются точками ми-нимумов разрыва функции на краях интервала анали-за.Сходство функций Pt(M) и Rt(M) будет наблюдать-ся в тех случаях, когда функция Pф(M) является слабоосциллирующей. Для речевых сигналов это обычновыполняется. Исключением является случай, когдафункция pфm(t) близка к нулю в точке t0. В этом слу-чае функция Pф(M) будет близка к нулю при неболь-ших M с последующей стабилизацией на некоторомсреднем уровне при увеличении M. При таком пове-дении функции Pф(M) функции Pt(M) и Rt(M) будутпохожи с точностью до фиксированного масштабногомножителя, за исключением небольших значений M,при которых значения функции Rt(M) будут резко за-вышены. Однако, учитывая ограничение Mmin≤M ипредполагая, что на интервале длительностью Mminфункция Pф(M) успевает стабилизироваться, можно впервом приближении считать, что минимизация абсо-лютного и относительного зашумления спектра будетдавать одинаковый результат.МЕТОД МИНИМИЗАЦИИ ВЫСОКОЧАСТОТ-НЫХ ГАРМОНИК ДИСКРЕТНОГО СИГНАЛАПри спектральном анализе речи рассматриваемыйдиапазон частот обычно ограничивают сверху значе-нием 8 - 10 кГц [2], поскольку в этом диапазоне за-ключается основная доля энергии речевого сигнала, аэнергия более высокочастотных гармоник пренебре-жимо мала. При выполнении ДПФ на высокочастот-ные гармоники дискретного сигнала pдm(t) будут на-кладываться хвосты спектра исходного континуаль-ного сигнала pфm(t). Можно предположить, что чембольше средняя мощность Pt(M) хвостов спектра сиг-нала pфm(t), тем большей окажется средняя мощностьPh(M) высокочастотных гармоник соответствующегоему дискретного сигнала pдm(t). В общем случае этопредположение выполняться не будет, так как при на-ложении хвостов спектра континуального сигнала навысокочастотные гармоники дискретного сигнала бу-дет происходить как их увеличение, так и их умень-шение, в зависимости от фаз суммируемых гармоник.Однако в среднем поведение функций Pt(M) и Ph(M)будет схожим, и минимизацию функции Ph(M) можноиспользовать для приближенного поиска интервалованализа, на которых зашумлениеTM=(1/ 2−fht)M2+2M ,отсюда трудоемкость нахождения наилучшего интер-вала анализа методом минимизации высокочастотныхгармоник дискретного сигнала составитmaxmin( ) 3 2MMM MT Q T aQ bQ cQ d== = + + + , (27)где Q = Mmax - Mmin ;a=z/ 3 ;b=zMmin+z/ 2+1;2c=zMmin+(z+2)Mmin+z/6+1;2d=zMmin+2Mmin ;z=1/ 2−fht.Трудоемкость (27) похожа на трудоемкость (17) заисключением того, что в формуле (27) отсутствуетмножитель CN. На первый взгляд, трудоемкость (24)лучше, чем (27), но если учесть, что N>Q и N>Mmin, тотрудоемкость (27) оказывается лучше трудоемкости(24). Кроме того, для вычисления Ph(M) не надо вы-полнять ДПФ для всего сигнала pф(t).В эксперименте скорость вычисления Ph(M) оказа-лась весьма высокой, что делает метод минимизациивысокочастотных гармоник дискретного сигнала при-годным для практического применения.Вместо минимизации функции Ph(M) можно ми-нимизировать величину( )( )( )hhдR M P MP M=- аналог относительного зашумления спектра, гдеPд(M) есть средняя мощность дискретного сигналаpдm(t) на интервале [t0, t0+T2)[ /2] 2[ /2]( )Mдд mnn MP M c=−= .МЕТОД МИНИМИЗАЦИИ РАЗРЫВА ФУНКЦИИНА КРАЯХ ИНТЕРВАЛА АНАЛИЗАДля приближенного поиска интервалов анализа, накоторых зашумление спектра дискретного сигналаминимально, очевидным является использование ме-тода минимизации разрыва функцииТ а б л и ц а 1Длина интервала, M Номер интервала Pt(M)173 103 73,4171 101 134,0257 187 167,8449 379 176,5460 390 266,2357 287 478,0349 279 506,891 21 920,3432 362 1183,1345 275 1444,2Первые десять минимумов с наименьшими значе-ниями функции Ph(M) приведены в табл. 2. Здесь точ-ки первых двух минимумов также очень близки другк другу, и их можно объединить в одну. В первую де-сятку минимумов функции Ph(M) вошли две точкиM=103 и M=161, для которых зашумление спектрадостаточно велико (Pt(103)=2704,3; Pt(161)=2697,5),что объясняется приближенным характером методаминимизации высокочастотных гармоник дискретно-го сигнала. Точки оставшихся восьми минимумовфункции Ph(M) очень близки к соответствующим точ-кам минимумов функции Pt(M) из табл. 1, максималь-ное расхождение между точками минимумов состав-ляет 3 отсчета. Точное совпадение минимумов функ-ций Pt(M) и Ph(M) происходит в единственной точкеM=357. Длина интервала M=357 отсчетов замечатель-на еще тем, что она равна периоду основного тонаданного фрагмента речевого сигнала. Также необхо-димо обратить внимание на то, что точки минимумовиз табл. 2 расположены в совершенно ином порядке,чем точки из табл. 1.Первые десять минимумов с наименьшими значе-ниями функции c(M) приведены в табл. 3. Как и вслучае функции Ph(M), в первую десятку минимумовфункции c(M) вошли точки M=103 и M=161, для ко-торых зашумление спектра достаточно велико. Точкиоставшихся восьми минимумов функции c(M) полно-стью совпадают с соответствующими точками мини-мумов функции Pt(M) из табл. 1, т.е. в данном случаеметод минимизации разрыва функции на краях интер-вала анализа показывает лучший результат, чем методминимизации высокочастотных гармоник дискретно-го сигнала. Этот факт вместе с линейной трудоемко-стью метода минимизации разрыва функции делаетего предпочтительным в сравнении с методом мини-мизации высокочастотных гармоник. Порядок распо-ложения точек в табл. 3 отличается от того же поряд-ка в табл. 1. Это говорит о том, что по величине c(M)разрыва функции на краях интервала анализа можнолишь очень грубо судить о величине Pt(M) зашумле-ния спектра дискретного сигнала.Т а б л и ц а 2Длина интервала, M Номер интервала Ph(M)459 389 35,3461 391 90,0260 190 117,8450 380 123,8172 102 129,3103 33 152,6161 91 252,793 23 475,9350 280 491,8357 287 580,9Т а б л и ц а 3Длина интервала, M Номер интервала c(M)173 103 3257 187 47349 279 164449 379 34791 21 555460 390 995357 287 1274103 33 1588161 91 2013345 275 2172
Скачать электронную версию публикации
Загружен, раз: 284
Ключевые слова
Авторы
ФИО | Организация | Дополнительно | |
Огородников Александр Николаевич | Томский государственный университет | аспирант кафедры прикладной информатики, программист лаборатории автоматизированных систем управления факультета информатики | ogorodnikov@inf.tsu.ru |
Ссылки
Фант Г. Акустическая теория речеобразования: Пер. с англ. М.: Наука, 1964. 284 с.
Кодзасов С.В., Кривнова О.Ф. Общая фонетика. М.: Рос. гос. гуманит. ун-т, 2001. 592 с.
Голд Б., Рэйдер Ч. Цифровая обработка сигналов: Пер. с англ. М.: Сов. радио, 1973. 368 с.
Гоноровский И.С. Радиотехнические цепи и сигналы. М.: Радио и связь, 1986. 512 с.
Оппенгейм А.В., Шафер Р.В. Цифровая обработка сигналов: Пер. с англ. М.: Связь, 1979. 416 с.
Рабинер Л.Р. Шафер Р.В. Цифровая обработка речевых сигналов: Пер. с англ. М.: Радио и связь, 1981. 496 с.
Рабинер Л. Гоулд Б. Теория и применение цифровой обработки сигналов: Пер. с англ. М.: Мир, 1978. 848 с.
Толстов Г.П. Ряды Фурье. М.: Наука, 1980. 384 с.
