Линейное предсказание

Идея линейного предсказания (ЛП) такова: сформировать из нескольких отсчетов речи линейную комбинацию. Для этого сигнал речи сегментируют на блоки, обрабатывают окном и для каждого блока вычисляют автокорреляционную функцию (АКФ), число отсчетов которой обычно около 10. Оказывается, что такая АКФ содержит исчерпывающую информацию о формантном спектре речи на данном сегменте. На втором шаге находят решение системы линейных уравнений относительно коэффициентов предсказания - тех самых, что нужны для формирования синтезирующего фильтра. Фактически найденные коэффициенты задают спектральную модель голосового аппарата человека, и чем выше порядок ЛП, тем точнее модель. Пропустив исходную речь через фильтр, обратный полученному, мы получаем функцию, близкую к сигналу возбуждения. В ее спектре формантные области сглажены, а спектральный характер напоминает белый шум. Поэтому обратный фильтр также называют отбеливающим. Параметры ЛП квантуются, после чего передаются на приемную сторону. А ошибка предсказания (разностный сигнал), обозначенный в формуле 2 через R(n), обрабатывается с целью выделения существенных для человеческого восприятия параметров. Например, в простейших кодеках ЛП передается период ОТ и мощность возбуждающих импульсов. В кодеке RPE-LTP таких импульсов уже несколько, а в кодеках CELP (code-excited linear prediction - ЛП с кодовым возбуждением) вместо передачи самих импульсов подбирается наиболее подходящая запись из набора хранящихся в заранее сформированной кодовой книге. Тогда, вместо самой последовательности можно на прием передать ее порядковый номер в кодовой книге. Однако существуют и другие подходы. В любом случае по каналу связи вместо самой речи передают так или иначе выделенные и квантованные параметры предсказания, интервал и усиление ОТ, параметры возбуждения. В декодере ЛП по принятым параметрам восстанавливают сигнал возбуждения, пропускают его через синтезирующий фильтр и так восстанавливают речь.

В спектре звонкой речи на фоне общего спадания его к верхним частотам просматриваются три резонансные области - в районе 300 Гц, 1700 Гц и 2600 Гц, - описанные выше форманты. Спектр же возбуждения, сохраняя линейчатость (голосовые связки, вспомним, колеблются периодически), выровнен по амплитуде, или, как еще говорят, отбелен. Это происходит потому, что возбуждение носит случайный шумовой характер, хотя и следующий с некоторой периодичностью. Обратите также внимание на то, что энергия возбуждения много меньше энергии самой речи, то есть синтезирующий фильтр помимо спектрального окрашивания еще и усиливает входной сигнал. Говорят, что в ближней зоне сигнал возбуждения декоррелирован (статистически независим), что, кстати, усложняет его сжатие, и, напротив, в дальней зоне корреляция очень высока, достигая максимума в точке, равной периоду ОТ. Последнее свойство очень полезно, так как свидетельствует об избыточности, и в этом заложен большой ресурс для сжатия. Из-за периодичности сигналов присутствующий на показанном участке звонкой речи случайный компонент визуально обнаружить довольно трудно. Но он есть, и именно из-за него спектр речи в областях между гармониками частоты ОТ не спадает до нуля. Опыт разработки кодеков показал, что этот случайный компонент необходим для полноценного восприятия. Без него синтезированная речь звучит неестественно (вспомним, как иной раз разговаривает цифровой сотовый или Интернет-телефон). Артикуляционные изменения характеристик синтезирующего фильтра, формирующие звуки речи, происходят непрерывно, но медленно. Поэтому при сжатии речь сегментируют на короткие блоки (длиной 5-30 мс), в пределах которых параметры этого фильтра считают постоянными (свойство локальной квазистационарности речи). Известно, что значение ОТ для разных голосов может изменяться почти в 10 раз - от 2 до 18 мс. Это обстоятельство создает немало трудностей при оценке ОТ, так как слух очень чувствителен к его искажениям. Методов измерения ОТ известно очень много, и ежегодно на международных конференциях ICASSP (International Conference on Acoustics, Speech and Signal Processing) предлагаются всё новые и новые, так как до сих пор достаточно надежный и простой и, вместе с тем, не требующий чрезмерной задержки метод пока не появился. Что касается сокращенного описания сигнала возбуждения в целом, то с этим дела обстоят еще хуже: эффективных "конструктивных" методов не предложено, и значительная часть вычислительного ресурса CELP-кодеков, к примеру, расходуется именно на кодирование возбуждения.

Возбуждение, хотя и лишенное периодической составляющей, в голосовом тракте получило какое-то спектральное усиление, что отражено на спектре, а в целом, что речь, что возбуждение малокоррелированы. После появления первых вокодеров случилась “пауза”: развитие техники связи и появление многоканальных высококачественных телефонных линий, с одной стороны, и неразвитость цифровой техники, с другой, на некоторое время ослабили интерес к сжатию речи. Вокодеры уцелели только в системах засекреченной военной и правительственной связи, в некоторых каналах спецрадиосвязи, вроде аэродромной. А в нарождающейся цифровой связи господствовали два алгоритма нелинейной ИКМ, обеспечивающие прекрасное телефонное качество. Два - потому, что в Европе (”А-закон”) и в США (”мю-закон”) были приняты разные реализации одного и того же стандарта. Отсутствие единого стандарта с развитием международных связей стало очень неудобным, так как требовало перекодировки речи при передаче речевого сигнала из одной сети связи в другую, а с учетом того, что трафик между США и Европой большой, то и перекодировок требовалось немало. Вынужденная перекодировка вносит дополнительные шумы и снижает оценку MOS. Логарифмическая ИКМ никак не использует взаимную корреляцию между соседними отсчетами речи, поэтому первым примером сжимающей обработки стоит считать дифференциальную ИКМ (ДИКМ), при которой осуществляется предсказание речи первого порядка. Предыдущий отсчет берется с определенным весом, формируя прогноз. Разница между предсказанным и реальным отсчетом речи подвергается квантованию. Позднее появилась более продвинутая технология - адаптивная дифференциальная ИКМ (АДИКМ). При АДИКМ размеы шкалы квантования подстраивают в соответствии с энергией речи так, чтобы слабые сигналы квантовались малыми ступенями квантования, а сильные сигналы - большими. Благодаря непрерывной подстройке шага квантования к текущей мощности речи, разрядность шкалы квантования при АДИКМ удалось снизить до четырех бит и получить кодек со скоростью передачи 32 кбит/с и качеством, близким к ИКМ. В качестве входного сигнала в LPC используется та же последовательность цифровых значений амплитуды, однако этот метод применяется не к отдельным цифровым значениям, а к определенным их блокам. Для каждого такого блока значений вычисляются его характерные параметры: частота, амплитуда и ряд других. Именно эти значения и передаются по сети. При таком подходе к кодированию речи, во-первых, возрастают требования к вычислительным мощностям специализированных процессоров, используемых для обработки сигнала, а во-вторых, увеличивается задержка при передаче, поскольку кодирование применяется не к отдельным значениям, а к некоторому их набору, который перед началом преобразования следует накопить в определенном буфере. Задержка в передаче речи при использовании этого метода связана не только с необходимостью обработки цифрового сигнала (эту задержку можно уменьшать, увеличивая мощность процессора), а непосредственно следует из характера метода сжатия. Этот метод позволяет, вообще говоря, достигать очень больших степеней сжатия, которым соответствует полоса пропускания 2,4 или 4,8 кбит/с, однако качество звука здесь сильно страдает. Поэтому в коммерческих приложениях он не используется, а применяется в основном для ведения служебных переговоров.

Перейти на страницу: 1 2

Прочтите также:

Разработка системы управления ГАП (РТК), механообработка
Сегодня можно с уверенностью утверждать, что направление технического перевооружения производства на основе гибкой автоматизации всех его процессов получило всеобщее признание в машиност ...

Проектирования микропроцессорной системы управления объектом
Целью курсового проектирования является приобретение навыков разработки микропроцессорных систем (МПС) на примере проектирования микропроцессорной системы для управления некоторым объект ...

Технические средства охраны
В курсовом проекте решается задача построения СО с минимальной стоимостью при показателях качества не ниже требуемых, на основе анализа исходных данных периметровых систем обнаружения. Т ...

Основные разделы

2019 © Все права защищены! >> www.techeducator.ru