Моделирование речевых сбоев в системах автоматического распознавания речи
Статья посвящена проблеме моделирования речевых сбоев диктора при автоматическом распознавании речи. Рассматривается само явление речевых сбоев, и по результатам анализа отечественных и зарубежных работ выделяются две группы подходов к автоматическому определению речевых сбоев: параметрическая обработка сигнала и комбинированные методы с применением языкового моделирования. Приводится анализ особенностей их применимости к обработке русской речи.
Speech disfluencies modeling in automatic speech recognition systems.pdf Речевые сбои являются одним из основных отличийспонтанной речи от подготовленной речи, и тем болееот письменного текста. Очень немногие из нас облада-ют способностью гладко и красноречиво оформлятьсвои мысли, не передумывая, не сомневаясь и не сби-ваясь, поэтому можно утверждать, что одна из основ-ных черт спонтанной речи - это наличие пауз, хезита-ций, повторений, самокоррекций, усеченных слов и т.п.Подобные речевые сбои являются препятствием длякомпьютерной обработки как звучащей речи, так и еетранскрипций.Автоматическое распознавание речи (АРР или, ванглийской терминологии, automatic speech recognition- ASR) - это преобразование звучащей речи втекст. Существует несколько категорий систем распо-знавания речи, которые имеют различные сферы при-менения: 1) распознавание отдельных команд, котороеприменяется в коммерческих приложениях (голосовоеуправление, навигация по сайтам); 2) поиск ключевыхслов в потоке речи (поисковые системы); 3) распозна-вание слитной речи на большом словаре (автоматиче-ская расшифровка записей - создание стенограмм).Также системы распознавания речи характеризуютсястепенью зависимости от настройки на речь конкрет-ного диктора: различают дикторо-зависимые и дикто-ро-независимые системы [1, 2].Хотя речевые сбои дикторов изучались и ранее,формально их исследование началось только в50-х гг. ХХ в., независимо развиваясь в рамках раз-ных дисциплин: психологии, лингвистики, физиоло-гии. Американский психолог Венделл Джонсон внессущественный вклад в исследование заиканий [3]. Врамках общей лингвистики речевыми сбоями средидругих ученых занималась Фрейда Голдман-Эйслер[4]. Существенный вклад в исследование речевыхсбоев в психотерапии внес Джордж Ф. Маль со сво-ими коллегами [5]. С тех пор речевые сбои сталиизучать в разных научных областях (изучение заика-ния, общая лингвистика, когнитивная психология,психология сознания, фонетика, гендерные исследо-вания, психология, акустика, технологии обработкиязыка и речи и т.д.) [6].Несмотря на многосторонние исследования речевыхсбоев, общепринятая терминология в этой области покане сложилась. Для описания этих явлений существуютразличные варианты альтернативных терминов; напри-мер, в англоязычной литературе можно встретить такиетермины, как «non-fluency», «dysfluency», «discontinuity»,«flustered speech», «speech disturbance», «hesitation»,«speech management», «own communication management»,«turnholding devices» и др. [6]. В русскоязычной литерату-ре их иногда рассматривают в рамках фонационных пара-лингвистических явлений, также можно встретить терми-ны «внеязыковые элементы речи», «речевые сбои» [7-9].1. Классификация речевых сбоев. Возникновениесбоев в речи может быть вызвано как внешними воз-действиями, так и сбоями в планировании речевогоакта [9]. Сбои в планировании, в свою очередь, могутиметь разную природу, и среди них можно выделитьзаполненные паузы хезитации, самоисправления (илисамокоррекции) и оговорки. Учитывая различные при-чины возникновения речевых сбоев и разновидноститипов нарушений в спонтанной речи, можно ввестиследующую классификацию, как показано на рис. 1.Паузы хезитации (паузы колебания) представляютсобой перерыв в фонации, часто заполненный некото-рыми звуками. Обычно такие паузы представляют со-бой семантические лакуны и свидетельствуют о том,что говорящему требуется дополнительное время наформулирование следующего за текущим фрагментавысказывания [10, 11].Типы заполнения пауз хезитации [11]:1. Абсолютная пауза.2. Удлинение отдельных звуков в словах.3. Словоподобные, «долексические» заполнения па-узы.4. Вспомогательные элементы дискурса (слова исловосочетания (как сказать)).Самокоррекция возникает, когда в некоторой точкедискурса говорящий решает, что определенный фраг-мент порожденного им высказывания не соответствуетпо какой-либо причине его намерениям. В этом случаеговорящий может прибегнуть к самоисправлению, за-менить полностью или частично повторить не устро-ивший его фрагмент [9].Можно говорить о следующих типах самоисправле-ний [9]:1. Онлайн коррекция, когда говорящий сразу же по-сле ошибки исправляет обнаруженную проблему.2. Ретроспективная коррекция, или редактирование,при которой говорящий редактирует готовый фрагментдискурса постфактум.Вспомогательные элементы дискурса - это дискур-сивные элементы, которые не несут предметно-фактической информации, но выполняют некоторыефункции в речи. В действительности они направлены наоптимизацию и организацию общения. По выполняемойфункции их можно разделить на следующие типы [12]:1. Единицы, структурирующие речевой поток:- обозначают последовательность информативныхблоков (во-первых, прежде всего);- вводят дополнительную информацию (впрочем,кстати);- обозначают роль фрагмента высказывания (те-перь о главном);- показывают отношение говорящего (как известно,на мой взгляд, к сожалению).2. Контакто-устанавливающие элементы, направ-ленные на передачу метакоммуникативной информа-ции, такие как:- этикетные формулы (добрый день!);- актуализаторы (да, ага, правда);- интимизаторы общения (слушай, знаешь, смотри,представь).Традиционно к речевым сбоям относят еще оговор-ки, которые приводят к непроизвольному использова-нию говорящим незапланированных им фрагментов[13].Рис. 1. Классификация речевых сбоевВ зарубежной литературе принято описывать времен-ные характеристики сбоев. Так, согласно описанию в ра-боте Э. Шриберг [14] используются следующие термины:- reparandum (кратко RM) - репарандум, участокзвукового сигнала, который соответствует всему уда-ленному отрезку речи;- interruption point (IP) - начало речевого отрезка,соответствующее «моменту прерывания» чистой речии возникновению речевого сбоя;- interregnum (IM) (у других авторов «редактирую-щая фаза» [15] или «интервал сбоя» [16]) - длитель-ность речевого сбоя, этот термин используется дляобозначения временного отрезка от RM до начала ис-правления, при этом он может и не содержать редакти-рующего элемента (например, незаполненная паузаможет быть использована говорящим для переплани-ровки высказывания без редактирования);- repair (RR) - исправление, это участок речи, кото-рый соответствует материалу репарандума.В следующем разделе рассмотрим существующиеречевые и языковые ресурсы, применяющиеся для мо-делирования речевых сбоев и обучения систем автома-тического распознавания спонтанной речи.2. Речевые и языковые ресурсы. Для исследова-ний речевых сбоев используются корпусы спонтаннойречи с разметкой на речевые сбои. Для того чтобы вкорпусе помимо такой информации, как фонемы, сло-ва, синтагмы, дополнительно отмечать речевые сбои,используется Rich Transcription - транскрипция, в ко-торой учитываются границы предложений, слова-заполнители, редактирующие сбои и др. [17].Проблема аннотации речевых сбоев по корпусуспонтанной речи рассматривалась в статье [18]. Авто-ры рассматривали такие речевые сбои, как заполнен-ные паузы, самоисправления, неверно произнесенныеслова. Материалом для исследования послужили ви-деозаписи выступлений депутатов Верховной РадыУкраины. В соответствии со звуковыми файлами про-изводились разметка, корректировка и анализ текстастенограммы, при этом в текст стенограммы вносилисьнедостающие элементы спонтанной речи, которые небыли учтены в лексиконе системы распознавания.Главной особенностью этой разметки является то, чтоона включает в себя большую часть речевых сбоев,характерных для спонтанной украинской речи. Наибо-лее повторяющимися речевыми сбоями были запол-ненные паузы а (40,86%), слова, произнесенные невер-но (20,07%), он-лайн коррекция и коррекция со встав-кой (16,49%) и заполненные паузы ее (7,89%) [18].Целесообразность использования акустических мо-делей заполненных пауз и артефактов при распознава-нии спонтанной русской речи обоснована в работе [19].Для исследования внеязыковых речевых элементов иобучения их вероятностных моделей авторами былсобран и сегментирован корпус речи выступлений,сделанных в ходе небольшого семинара. В статье пред-ставлено описание выявленных в ходе сегментацииречевых сбоев, также приводится статистика по часто-те употребления каждого элемента и его средняя дли-тельность. Далее рассмотрим ряд корпусов, в которыхтакже учитываются эти явления.Czech Broadcast Conversation MDE Transcripts (кор-пус транскрипций с метаданными чешских радиопере-дач) [20]. Этот корпус представляет собой пословныетранскрипции с метаданными, сделанные по корпусуCzech Broadcast Conversation Speech (чешская разго-ворная речь радиопередач) [21], который состоит из40 часов речи, записанной с чешского радио 1 в 2003 г.При создании транскрипций учитывались правиларазметки, по которым затем отмечались такие мета-данные, как смена говорящего, границы между пред-ложениями (в рамках речи одного говорящего), накла-дывающаяся речь (если говорят двое и больше), фоно-вые шумы, шумы говорящих (такие как вздох, смех,причмокивание), заполненные паузы (отмечались пау-зы ээ и мм), междометия (согласие и несогласие), не-разборчивая речь, числа - все числительные записыва-ются полными словами, неправильно произнесенныеслова (оговорки, ошибки чтения), части слов и пункту-ация [22].Корпус SWITCHBOARD [23] представляет собойболее 240 часов записи спонтанных телефонных разго-воров более 500 дикторов обоих полов. Речь полностьюзатранскрибирована, и транскрипции проверены авто-матически и дважды вручную. Неречевые данные от-мечаются в квадратных скобках, всего размеченныхтипов 78 и среди них такие, как вздох, кашель, зевание,мяуканье, звон посуды и др.Корпус транскрипций «RT-03 MDE Training DataText and Annotations» [24] представляет собой тран-скрипции радиопередач и телефонных разговоров, взя-тых из корпуса телефонных разговоров Switchboard-1Release 2 и из корпуса новостных радиотрансляций1997 English Broadcast News Speech (HUB4). Анноти-рованные транскрипции соответствуют приблизитель-но 20 часам из корпуса новостных радиотрансляций и40 часам телефонных разговоров. В транскрипцияхразмечены различные типы метаданных, в которыхвыделяются 4 типа заполнителей: заполненные паузы,как uh и um, дискурсивные маркеры, как you know, ре-марки и вставки и такие редактирующие термины, какsorry и I mean, а также отмечаются моменты прерыва-ния, весь отрезок речевого сбоя и границы синтагм.На кафедре фонетики СПбГУ разрабатывался анно-тированный корпус русской речи, который включал всебя речь 4 мужчин и 4 женщин и учитывал различныепроизносительные стили. Аннотация учитывала6 уровней, в которых отмечалась вся фонетическая ипросодическая информация о записанной речи [25, 26].3. Методы выявления речевых сбоев в спонтан-ной речи. Исследования речевых сбоев показали, чточеловек легко выделяет их из речи [14, 27]. Но для си-стемы автоматического распознавания речи не опреде-лено, на основании каких признаков должен произво-диться анализ, какие знания следует привлекать в ходесегментации и классификации. Поэтому пока не созда-ны адекватные модели речевых сбоев, обеспечивающиеих обработку в автоматическом режиме. Тем не менееданное направление является крайне актуальным: все-возможные речевые сбои, такие как заполненные пау-зы, удлиняют высказывания. Также они вызывают раз-личного рода ошибки, вследствие того что системыраспознавания обучаются на структурированных пред-ложениях без речевых сбоев, что приводит к формиро-ванию ошибочных транскрипций.Методы обработки речевых сбоев можно разделитьпо признаку описания их с помощью акустических мо-делей или с помощью комбинированных моделей (язы-ковые + акустические). Но в силу объективных причин(временные и экспертные затраты) исследователи частоиспользуют только акустические модели речевых сбоевдля реализации их в системах автоматического распо-знавания речи.3.1. Методы выявления речевых сбоев в спон-танной речи за счет параметрической обработкисигнала. Существует широкий спектр работ, посвя-щенных моделированию речевых сбоев в рамках со-здания систем автоматического распознавания ре-чи [28-30]. Также существует группа подходов,направленных на повышение качества распознаванияспонтанной речи за счет предварительного выявленияречевых сбоев и их устранения из звукового сигнала наэтапе цифровой обработки еще до того, как данныепоступают на вход системы автоматического распозна-вания речи [31], или устранения сбоев с использовани-ем транскрипций речи [30, 32].В работе [31] авторы разработали алгоритм, кото-рый определяет и удаляет заполненные паузы и повто-рения из речевого сигнала. Для определения границзаполненных пауз применялись следующие характери-стики: длительность, частота основного тона, спек-тральные и формантные характеристики. Для выделе-ния и последующего удаления повторений предложен-ный алгоритм учитывал длительность и частотностьповторяющихся отрезков, а также разницу между лога-рифмами амплитуд спектра каждой пары голосовыхфрагментов вокруг долгой паузы. При этом учитывалсятот факт, что повторения чаще всего сопровождаютсяпаузой. Эксперименты проводились на искусственносозданных небольших базах данных (три диктора, 40-60 предложений) только с одной паузой или повторе-нием в предложении. В итоге точность распознаванияслов повысилась: в случае использования алгоритмовопределения повторений и заполненных пауз - соот-ветственно на 10 и 20%, а при совместном использова-нии - на 30%.В работе [28] авторы описывают метод выделениязаполненных пауз и удлинений слов в японской спон-танной речи на основе двух характеристик: небольшогоизменения частоты основного тона и деформации спек-тральной огибающей. Полнота распознавания (количе-ство правильно распознанных заполненных пауз к об-щему количеству заполненных пауз) составила 84,9%и точность распознавания (число правильно распо-знанных заполненных пауз к общему числу выделен-ных заполненных пауз) составила 91,5%.В работе [33] авторы исследуют проблему составле-ния корпуса пауз и удлинений для португальской спон-танной речи, а также построения акустических моделейэтих явлений. В статье рассматриваются заполненныепаузы и сегментные удлинения. Принятие решения оналичии хезитации в речи производилось в следующихслучаях: 1) гласный был длиннее установленного поро-га (350 мс для португальских гласных); 2) появляютсяпоследовательности одинаковых звуков; 3) возможныесогласные между гласными очень короткие. Учитыва-лись следующие характеристики этих хезитаций: часто-та основного тона, энергия и спектр.3.2. Методы выявления речевых сбоев в спон-танной речи с использованием языкового модели-рования. Ряд работ направлен на улучшение распозна-вания речевых сбоев за счет использования дополни-тельных источников знаний, а именно различных язы-ковых моделей. В работе [29] авторы рассматриваюттри типа речевых сбоев: 1) повторение, 2) редактиро-вание (замена содержимого) и 3) рестарты (или фаль-старты). Материалом для исследования послужиличасть корпуса Switchboard-I, а также ее транскрипции:как сделанные вручную, так и полученные на выходесистемы распознавания речи. В качестве просодиче-ских характеристик были использованы нормализован-ная длительность слов и пауз и частота основного тона,а также джиттер (нежелательные фазовые и / или ча-стотные случайные отклонения передаваемого сигна-ла), спектральный наклон и соотношение времени, ко-гда голосовые связки разомкнуты к общей продолжи-тельности гортанного цикла. Помимо просодики, ис-пользовались три типа языковых моделей: 1) вероят-ностная языковая модель, описывающая совместноепоявление ключевых слов и внеязыковых элементов впотоке спонтанной речи; 2) синтаксическая модельязыка, использующая статистику по частеречной при-надлежности для анализа случаев возникновения рече-вых сбоев и выявления тенденций, обусловленных син-таксическими закономерностями, для выявления такихтипов речевых сбоев, как, например, повторение пред-логов; 3) синтактико-стохастическая модель языка длявыявления повторений. Эксперименты показали, чтосовместное употребление всех моделей значительноулучшает распознавание моментов прерывания. Про-цент распознавания моментов прерывания на тран-скрипциях, сделанных вручную, в случае применениявсех трех моделей (просодическая, вероятностная исинтаксическая) составил 56,76%, точность - 81,25%,общая точность - 98,10% (против 55,47%, 79,33 и98,01% для одной вероятностной модели). На тран-скрипциях, полученных системой автоматическогораспознавания речи (АРР), общая точность составила97,05%. Результаты для распознавания моментов пре-рывания были следующие: точность на сделанныхвручную транскрипциях - 98,01%, на транскрипциях,сделанных системой АРР, - 97,05%.В работе [30] авторы рассматривали следующие ре-чевые сбои: 1) единицы, подобные предложениям(например, назывное предложение в английском);2) редактирующие речевые сбои, которые включаютсинтаксически значимое содержание: пересмотры (за-мена содержания), фальстарты и сложные сбои, кото-рые состоят из набора сбоев; 3) слова-заполнители,которые включают паузы, дискурсивные маркеры иявные редактирующие слова (например, видишь ли,простите, ой). Материалом послужили два разных пожанру корпуса: корпус телефонных разговоров (CTS) икорпус радиотрансляций (BN). В качестве источниковзнаний использовались как лексические свойства (сов-местная встречаемость слов с другими словами или ссоседствующими явлениями, по частеречным тэгамили по их семантическому классу), так и просодиче-ские свойства (длительность (слов, пауз, звуков), ча-стота основного тона, энергия и информация о паузах).Для построения моделей были применены: 1) скрытыеМарковские модели (Hidden Markov Model, HMM);2) модель максимальной энтропии (Maximum EntropyModel, ME), 3) случайные поля (Conditional RandomFields, CRF). Для корпуса CTS наименьший процентошибок распознавания редактирующих слов был длятранскрипций, сделанных вручную, с помощью методаCRF и составил 51,49%. Для моментов прерывания натом же корпусе наилучший процент составил 34,64% спомощью HMM для транскрипций, сделанных вруч-ную. На корпусе BN наименьший процент для редак-тирующих слов и моментов прерывания был полученна транскрипциях, сделанных вручную, с помощьюME, и составил соответственно 42,62 и 30,72%. Дляслов-заполнителей как для корпуса CTS, так и для кор-пуса BN результаты были лучше на транскрипциях,сделанных вручную, - 26,98 и 18,11%.В работе [32] авторы анализируют редактирующиеслова (повторы, фальстарты и т.д.) и заполнители (дис-курсивные маркеры или паузы, такие как ты знаешь,эм) на материале транскрипций по корпусу телефоннойречи (CTS) и по корпусу новостных радио-передач(BNEWS). Авторы использовали обучающий алгоритм,основанный на трансформациях (TBL). Для построенияправил использовались следующие свойства: учитыва-лась лексема (само слово), частеречный тэг, информа-ция о том, следует ли за словом пауза и является лислово высокочастотным (т.е. является ли оно болеечастотным в речи данного говорящего, чем во всемкорпусе). Для корпуса CTS 27% ошибок определенияредактирующих сбоев и 19% ошибок определенияслов-заполнителей появились, когда система АРР непоняла. Также возникала проблема, когда системаудаляла редактирующее слово или заполнитель. И,наконец, контекст сбоев тоже оказался важен: системачаще всего ошибалась на редактирующих сбоях из-заприсутствия длинных и сложных для определения ре-дактирующих явлений.В работе [34] авторы рассматривали исправления,фальстарты, заполнители и моменты прерывания (IP)на материале аннотированного корпуса Switchboard.Для каждого предложения для определения кандидатовв исправления запускался анализ с помощью стохасти-ческой формальной TAG (tree-adjoining grammar) моде-ли. Вероятностная синтаксическая модель языка оце-нивала согласованность (fluency) каждой гипотезы, имодель максимальной энтропии выбирала наиболеевероятную гипотезу, учитывая оценки языковой моде-ли и другие параметры. Заполнители определялисьнезависимо с помощью небольшого набора детермини-стических правил, а моменты прерывания IPs опреде-лялись с помощью комбинации выходных данных измодулей определения исправлений и заполнителей.В рамках конкурса по распознаванию речи «RichTranscription blind evaluation», организованного Нацио-нальным институтом стандартов и технологий (NIST),перед авторами были поставлены следующие задачи:- выделение редактирующих слов;- выделение заполнителей, (типы заполнителейтакже различались: заполненные паузы, дискурсивныеэлементы и явные редактирующие слова);- выделение момента прерывания.Каждая задача выполнялась для двух типов вход-ных данных: созданной вручную транскрипции и пол-ностью автоматического результата системы распозна-вания. Наилучшие результаты для каждой задачи пока-заны в таблице.Результаты, полученные для каждой задачивыявления речевых сбоевТранскрипцияречи Задача Уровень ошибокраспознавания, %Сделанная вруч-нуюВыделение редактирую-щих слов 46,08Выделение заполнителей 23,69Выделение моментапрерывания 28,60Выход системыАРРВыделение редактирую-щих слов 76,25Выделение заполнителей 39,93Выделение момента пре-рывания 55,88Таким образом, однозначно лучшего решения про-блемы речевых сбоев на сегодняшний момент нет. Од-нако оба подхода к выявлению речевых сбоев оченьперспективны, но требуют разных материалов и моде-лей. Для использования языковой модели дополни-тельно нужен большой корпус транскрипций, по кото-рому происходит обучение модели, в то время как па-раметрическая обработка не требует транскрибирова-ния сигнала. В связи с тем что для русского языка неразработано методов обработки речевых сбоев для ав-томатического распознавания речи, необходимо при-менить несколько методов и сравнить результаты. По-скольку создание корпуса транскрипций, учитываю-щих речевые сбои, достаточного для обучения языко-вой модели (хотя бы тригамной), является весьма за-тратным по временным и финансовым факторам про-цессом, то обработка речевых сбоев с помощью пара-метрических методов для русского языка на данныймомент наиболее целесообразна.Среди возможных подходов к тому, как относитьсяк сбоям в рамках системы распознавания, есть те, кото-рые позволяют моделировать и искать речевые сбоикак отдельные речевые и неречевые элементы, и те,которые игнорируют их, отличая от полезной речи, ноне различая их друг от друга.В качестве альтернативного подхода при использо-вании языкового моделирования и отдельно моделиро-вания неизвестных слов можно относить речевые сбои кклассу Unknown Words и строить с их учетом языковуюмодель. В работе [35] предлагается слоговый подходакустического моделирования новых слов. Описываютсяэксперименты с различными порождающими моделямислов для спонтанной речи. Слоговая модель, предло-женная авторами, организована как конечный автомат,она моделирует ограничения на фонемную последова-тельность. Так же реализована биграмная языковая мо-дель, которая предсказывает вероятности неизвестныхслов. Наилучшим результатом была точность распозна-вания 92% при использовании слоговой модели, реали-зованной как конечный автомат.Для русского языка актуальность подобного подхо-да демонстрируется в статье [36]. Авторы предлагаютиспользовать классовые (кластерные) языковые моде-ли, при обучении которых весь набор слов разбиваетсяна несколько подмножеств (с помощью экспертов илиавтоматическими методами) и каждому такому под-множеству присваивается маркер класса. После чегообычную языковую модель обучают на последователь-ностях классовых маркеров, и дополнительные моделистроятся, чтобы получить вероятности слов внутрисоответствующих классов.В статье представлен аналитический обзор суще-ствующих методов выявления речевых сбоев и ихустранению из речевого сигнала при распознаванииразговорной речи. Рассмотрены два основных подхода:методы выявления речевых сбоев только за счет пара-метрической обработки сигнала и комбинированныеметоды, в которых дополнительно применяется языко-вое моделирование, а также предложены возможныеподходы к обработке речевых сбоев в рамках системраспознавания речи.
Ключевые слова
речевые сбои,
автоматическое распознавание речи,
анализ речи,
speech disfluencies,
automatic speech recognition,
speech analysisАвторы
Верходанова Василиса Олеговна | Санкт-Петербургский институт информатики и автоматизации РАН | мнс лаборатории речевых и многомодальных интерфейсов | interiora@gmail.com |
Карпов Алексей Анатольевич | Санкт-Петербургский институт информатики и автоматизации РАН;Санкт-Петербургский государственный университет | канд. техн. наук, снс; снслаборатории экспериментальной фонетики | karpov@iias.spb.su |
Всего: 2
Ссылки
Кипяткова И.С., Карпов А.А. Аналитический обзор систем распознавания русской речи с большим словарем // Труды СПИИРАН. 2010. Вып. 12. С. 7-20.
Карпов А., Ронжин А., Лобанов Б. и др. Разработка бимодальной системы аудиовизуального распознавания русской речи // Информационно- измерительные и управляющие системы. 2008. Т. 6, № 10. С. 58-62.
Wendell A.L. Johnson (1906-1965) Memorial Home Page. URL: http://www.uiowa.edu~cyberlaw/oldinav/wjhome.html (дата обращения: 20.03.2012).
Eisler F.G. Psycholinguistics: Experiments in Spontaneous Speech. Academic Press Inc, 1968. 169 p.
In Memoriam: George F. Mahl. Yale Bulletin & Calendar. 2006. March 24. Vol. 34, № 23. URL: http://www.yale.edu/opa/arcybc/ v34.n23/story13.html (дата обращения: 20.03.2012).
Proceedings of DiSS'03, Disfluency in Spontaneous Speech Workshop // Gothenburg Papers in Theoretical Linguistics 90 / ed. by Robert Eklund. Sweden : Goteborg University, 2003. 5-8 September. Р. 3-4.
Колшанский Г.В. Паралингвистика. М., 1974. 81 с.
Николаева Т.М. Паралингвистика // Лингвистический энциклопедический словарь / под ред. В.Н. Ярцевой. М. : Советская энциклопедия, 1990.
Подлесская В.И., Кибрик А.А. Самоисправления говорящего и другие типы речевых сбоев как объект аннотирования в корпусах устной речи // Научно-техническая информация. Сер. 2. 2007. № 2. С. 2-23.
Лауринавичюте А.К., Федорова О.В. Влияние паузы хезитации на понимание синтаксической структуры предложения носителями русского языка // Материалы международной конференции «Диалог 2010». Бекасово, 2010. С. 279-284.
Herbert H. Clark, Jean E. Fox Tree. Using uh and um in spontaneous speaking // Cognition. 2002. Vol. 84. Р. 73-111.
Андреева С.В. Лингвистические закономерности передачи информации при автоматической обработке речи // Материалы Третьего междисциплинарного семинара «Анализ разговорной русской речи». СПб. : СПбГУАП, 2009. C. 10-14.
Сморгонская Е.В. Психолингвистическая дифференциация и классификация речевых сбоев // Вестник ВГУ. Сер. Лингвистика и межкультурная коммуникация. 2008. № 3. С. 140-142.
Shriberg E.E. Preliminaries to a Theory of Speech Disfluencies. PhD thesis, University of California at Berkeley, 1994. 225 p.
Levelt W.J.M. Monitoring and self-repair in speech // Cognition. 1983. Vol. 14. Р. 41-104.
Nakatani C.H., Hirschberg J. A corpus-based study of repair cues in spontaneous speech // Journal of the Acoustical Society of America. 1994. № 95 (3). Р. 1603-1616.
Liu Y. Structural Event Detection for Rich Transcription of Speech, PhD thesis. Berkeley : Purdue University and ICSI, 2004. 253 p.
Пилипенко В.В., Ладошко О.Н. Аннотация и учет речевых сбоев в задаче автоматического распознавания спонтанной украинской речи // Искусственный интеллект. 2010. № 3. C. 238-248.
Кипяткова И.С., Верходанова В.О., Ронжин А.Л. Сегментация паралингвистических фонационных явлений в спонтанной русской речи // Вестник Пермского университета. Российская и зарубежная филология. 2012. Вып. 2 (18). С. 17-23.
Корпус «Czech Broadcast Conversation MDE Transcripts» // Каталог LDC. URL: http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId= LDC2009T20 (дата обращения: 16.06.2012).
Корпус «Czech Broadcast Conversation Speech» // Каталог LDC. URL: http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId= LDC2009S02 (дата обращения: 16.06.2012).
Kolař J., Švec J., Strassel S. et al. Czech Spontaneous Speech Corpus with Structural Metadata // In Proc. INTERSPEECH 2005. Lisbon, Portugal, 2005. Р. 1165-1168.
SWITCHBOARD: A User's Manual. URL: http://www.ldc.upenn.edu/Catalog/readme_files/switchboard.readme.html (дата обращения: 20.06.2012).
Корпус «RT-03 MDE Training Data Text and Annotations» // Каталог LDC. URL: http://www.ldc.upenn.edu/Catalog/catalogEntry.jsp?catalogId= LDC2004T12 (дата обращения: 20.06.2012).
Skrelin P., Volskaya N., Kocharov D. et al. A Fully Annotated Corpus of Russian Speech // In Proc. of the Seventh conference on International Language Resources and Evaluation (LREC'10). Valletta, Malta, 2010. Р. 109-112.
Skrelin P., Kocharov D. Russian Speech Corpora Framework for Linguistic Purposes // In Proc. of the Seventh conference on International Language Resources and Evaluation (LREC'12). Istambul, Turkey, 2012. Р. 43-46.
Кожевникова Кв. О смысловом строении спонтанной устной речи // Новое в зарубежной лингвистике. Вып. XV: Современная зарубежная русистика. М., 1985. С. 512-524.
Masataka G., Katunobu I., Satoru H. A real-time filled pause detection system for spontaneous speech Recognition // In Proc. of the 6th European Conference on Speech Communication and Technology (Eurospeech '99). Budapest, Hungary, 1999. Р. 227-230.
Liu Y., Shriberg E., Stolcke A. Automatic Disfluency Identification in Conversational Speech Multiple Knowledge Sources // In Proc. of the EUROSPEECH 2003. Geneva, Switzerland, 2003. Р. 957-960.
Liu Y., Shriberg E., Stolcke A. et al. Enriching Speech Recognition with Automatic Detection of Sentence Boundaries and Disfluencies // IEEE Trans. Audio, Speech and Language Processing. 2006. № 14(5). Р. 1526-1540.
Kaushik M., Trinkle M., Hashemi-Sakhtsari A. Automatic Detection and Removal of Disfluencies from Spontaneous Speech // In Proc. of the Proceedings of the Thirteenth Australasian International Conference on Speech Science and Technology (SST). Melbourne,
Snover M., Dorr B., Schwartz R. A lexically-driven algorithm for disfluency detection // In Proc. of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics 2004 (HLT-NAACL-Short '04). Boston
Veiga A., Candeias S., Lopes C., Perdigao F. Characterization of hesitations using acoustic models // In Proc. of the 17th International Congress of Phonetic Sciences (ICPhS XVII). Hong Kong, China, 2011. Р. 2054-2057.
Lease M., Johnson M., Charniak E. Recognizing disfluencies in conversational speech // In Audio, Speech, and Language Processing, IEEE Transactions on. 2006. Vol. 14, № 5. Р. 1566-1573.
Kemp T., Jusek A. Modelling Unknown Words in Spontaneous Speech // In Proc. Int. Conf. on Acoustics, Speech, and Signal Processing (ICASSP- 96). Atlanta, 1996. Р. 530-533.
Korenevsky M., Bulusheva A., Levin K. Unknown Words Modeling in Training and Using Language Models for Russian LVCRS System // In Proc. of the International Conference on Speech and Computer (SPECOM'11). Kazan, Russia, 2011. Р. 144-150.