![]() |
|
сделать стартовой | добавить в избранное |
![]() |
Сжатие речевого сигнала на основе линейного предсказания |
Введение Одной из задач такого обширного раздела как «Цифровая обработка речевых сигналов», входящего в состав науки, занимающейся цифровой обработкой сигналов или просто обработкой сигналов является сжатие или кодирование речевого сигнала (РС). Сжатие РС может быть как без потерь (архивация), так и с потерями. Причем в последнем случае это кодирование можно подразделить на три вида: 1. кодирование непосредственно реализации РС (Wave Form Codec); 2. измерение, кодирование и передача на приемную сторону параметров РС, по которым уже на приемной стороне производится синтез этого (искусственного) РС. Такие системы называют вокодерными (Source Codec); 3. гибридные способы кодирования, т.е. сочетание первого и второго способов кодирования. В задачу данной работы входит рассмотрение первого способа кодирования. Под кодированием подразумевается преобразование РС в некоторый «другой» сигнал, который можно представить с меньшим числом разрядов, что в итоге повысит скорость передачи данных. Одним из видов такого кодирования является дифференциальная импульсно-кодовая модуляция (ДИКМ), о которой и пойдет речь в дальнейшем. Дифференциальная импульсно-кодовая модуляция В обычной импульсно-кодовой модуляции каждый отсчет кодируется независимо от других. Однако у многих источников сигнала при стробировании с частотой Найквиста или быстрее проявляется значительная корреляция между последовательными отсчетами (в частности, источник РС является квазистационарным источником и может относиться к рассматриваемым видам источников). Другими словами, изменение амплитуды между последовательными отсчетами в среднем относительно малы. Следовательно, схема кодирования, которая учитывает избыточность отсчетов, будет требовать более низкой битовой скорости. Суть ДИКМ заключается в следующем. Предсказывается текущее значение отсчета на основе предыдущих M отсчетов. Для конкретности предположим, что означает текущий отсчет источника, и пусть обозначает предсказанное значение (оценку) для , определяемое как . Таким образом, является взвешенной линейной комбинацией M отсчетов, а являются коэффициентами предсказания. Величины выбираются так, чтобы минимизировать некоторую функцию ошибки между и . Проиллюстрируем вышесказанное на отрезке РС: Прежде чем идти дальше, рассмотрим виды предсказания. «Линейное» предсказание означает, что является линейной функцией предыдущих отсчетов; при «нелинейном» предсказании – это нелинейная функция. Порядок предсказания определяется количеством используемых предыдущих отсчетов. То есть, предсказание нулевого и первого порядка является линейным, а второго и более высокого порядка - нелинейным. При линейном предсказании восстановить сигнал значительно проще, чем при нелинейном предсказании. Будем рассматривать только линейное предсказание. Виды линейных предсказаний 1. Предсказание нулевого порядка. В этом случае для предсказания текущего отсчета используется только предыдущий отсчет РС, т.е. => 2. Предсказание первого порядка (линейная экстраполяция). В этом случае для предсказания текущего отсчета используется не только предыдущий отсчет, но и разница между предпоследним и последним отсчетами, которая суммируется к общему результату: => Коэффициенты линейного предсказания (получение и расчет) Формирование сигнала ошибки при использовании линейного предсказания эквивалентно прохождению исходного сигнала через линейный цифровой фильтр.
Этот фильтр называется фильтром сигнала ошибки (ФСО) или обратным фильтром. Обозначим передаточную функцию такого фильтра как А(z): , где E(z) и X(z) – прямое z - преобразование от сигнала ошибки и входного сигнала соответственно. На приемной стороне при прохождении сигнала ошибки через формирующий фильтр (ФФ) мы в идеале получим исходный сигнал. Обозначим передаточную функцию формирующего фильтра как K(z). Т.е. передаточная функция K(z) связана с A(z) следующим соотношением: . Рассмотрим последовательно соединенные кодер и декодер: При условии, что A(z)K(z) = 1, будет обеспечено абсолютно точное восстановление сигнала, т.е. . Но это в идеале, на самом деле такого быть не может по причинам, о которых скажем ниже. Для примера, найдем передаточные функции ФСО и ФФ для разных типов линейного предсказания. а) предсказание нулевого порядка; ; ; Получили, что такой фильтр неустойчив (граница устойчивости), так как полюс находится на единичной окружности. б) предсказание первого порядка; ;; Получили, что и такой фильтр тоже неустойчив (граница устойчивости). в) общая форма предсказания; Было получено, что => . ; ; На основании рассмотренных примеров можно сделать следующие выводы. Фильтр сигнала ошибки всегда является КИХ фильтром, а формирующий фильтр – БИХ фильтром. Коэффициенты передаточной функции ФФ, которые, как уже было сказано выше, являются коэффициентами линейного предсказания (LPC: Li ear Predic io Coefficie s), должны быть такими, чтобы: 1. формирующий фильтр был устойчивым; 2. ошибка была минимальна. Для получения передаточной функции ФФ, наиболее точно воспроизводящего частотную характеристику голосового тракта для данного звука, следует определять коэффициенты передаточной функции исходя из условия наименьшей ошибки линейного предсказания речевого сигнала (по условию минимума среднего квадрата ошибки). Запишем выражение для оценки дисперсии сигнала ошибки, которую надо свести к минимуму: ; ; Получили, что - функция нескольких переменных. Продифференцируем ее и приравняем частные производные для нахождения экстремума: ; , где - символ Кронекера. Следовательно: ; ; => ; Получили нормальные уравнения или уравнения Юла-Волкера. Введем обозначение: , где - есть ни что иное, как корреляционная функция. Перепишем полученное выражение с учетом принятого обозначения: ( ) Для вычисления функции необходимо определить пределы суммирования по : , где – количество отсчетов в сегменте РС, а M - количество отсчетов, необходимых для расчета коэффициентов предсказания (M 1)-го отсчета. Значит, первое предсказанное значение запишется так: , где = M 1. Получили: ; Обозначим – k = j => = k j, – m = k j – m – m = i j, где i = k – m. Следовательно: Таким образом, получается выражение, имеющее структуру кратковременной ненормированной АКФ, но зависящей не только от относительного сдвига последовательности i, но и от положения этих последовательностей внутри сегмента РС, которые определяются индексом k, входящим в пределы суммирования. Такой метод определения функции называется ковариационным. Выражение ( ) представляет собой систему линейных алгебраических уравнений (СЛАУ) относительно , у которых все коэффициенты различны.
При использовании ковариационного метода получаются несмещенные оценки коэффициентов линейного предсказания, то есть E{ak}= ak.ист, где ak.ист – истинные значения коэффициентов линейного предсказания. Другой способ определения коэффициентов системы ( ) состоит в том, что вместо функции используется некоторая другая функция , которая определяется как , где - ненормированная кратковременная АКФ. Поскольку определение функции сводится к расчету АКФ, то такой метод называется автокорреляционным. При использовании этого метода мы получаем смещенные оценки коэффициентов линейного предсказания (однако, при M Перепишем СЛАУ ( ) с учетом введенной функции : . . При использовании автокорреляционного метода вся информация о сигнале, необходимая для определения коэффициентов линейного предсказания, содержится в кратковременной ненормированной АКФ B(i). Распишем полученную систему линейных алгебраических уравнений (СЛАУ) в явном виде: Перепишем ее в матричной форме: ; Свойства матрицы коэффициентов системы: 1) матрица симметрична; 2) матрица Теплица (матрица, в пределах каждой диагонали которой все элементы равны); Для решения СЛАУ с такой матрицей используется алгоритм Левинсона – Дурбина, который требует меньших вычислительных затрат, чем стандартные алгоритмы. Он выглядит следующим образом. Начальные значения для алгоритма: Алгоритм: Решетчатый фильтр сигнала ошибки предсказания В предыдущем разделе приводилась процедура вычисления коэффициентов предсказания Левинсона-Дурбина. В этой процедуре, как промежуточные величины, используются некоторые коэффициенты km, которые называются коэффициентами отражения. Их физический смысл заключается в следующем. Голосовой тракт человека представляет собой трубу, состоящую из секций, соединенных последовательно, но имеющих разный диаметр. При прохождении звуковой волны через такую систему, возникают отражения на стыках секций, т.к. каждый стык является неоднородностью. Коэффициент отражения характеризует величину проходимости стыка двух секций (сред). Коэффициент отражения равен: . Поясним его смысл на следующем рисунке («жирным» показана m – секция голосового тракта): Если rm = -1, то произойдет обрыв в цепи передачи сигнала (обрыв прямой ветви). Такого быть не должно, поэтому необходимо следить за этим. Модель акустических труб может быть представлена в виде фильтра, имеющего решетчатую (или лестничную) структуру. Основными параметрами такого фильтра являются коэффициенты отражения. Система акустических труб – резонансная система, поэтому если фильтр без потерь, то на его АЧХ будут наблюдаться разрывы (всплески в бесконечность). Реально на месте этих всплесков будут резонансные пики, и резонансные частоты таких пиков называются формантными. Обычно в реальных голосовых трактах человека формантных частот (или формант) не более трех. Более подробно о коэффициентах отражения и решетчатых фильтрах можно прочитать в . Так как коэффициенты отражения и коэффициенты предсказания вычисляются в рамках одной и той же процедуры алгоритма Левинсона-Дурбина, то они могут быть выражены друг через друга. Приведем здесь эти алгритмы.
PGPfone Owner's Manual Version 1.0, 1996, pp.6–7) PGPfone 1.0 для Macintosh и Windows 95/NT распространяется бесплатно. Существует также коммерческая версия PGPfone 2.0 (только для Macintosh и доступная «легально» лишь американским и канадским покупателям). Новые характеристики PGPfone 2.0 Выбор технологии сжатия речевого потока (GSM, GSM Lite and ADPCM) с возможностью динамической ее смены без разрыва связи. Это позволяет достичь оптимального качества звука. Возможность защищенного обмена файлами. Телефонная записная книжка. Требования к системе: MacOs 7.5 или старше, PowerPC Macintosh; или 68040 Macintosh с тактовой частотой не менее 33Mhz (для повышения качества звука рекомендуется более быстрый процессор); микрофон и наушники вместо колонок — в полнодуплексном режиме это позволяет избежать наводок от акустического короткого замыкания; Примечание для русских пользователей PGPfone 1.0 1. PGPfone изначально настроен на тоновый набор; переключение на импульсный набор, используемый большинством российских телефонных станций, опциями не предусмотрено и в документации не описано
1. Сжатие речевого сигнала на основе линейного предсказания
2. Кодер-декодер речевого сигнала. Амплитудно-фазовое преобразование
3. Основы линейной алгебры на примере балансовой модели
4. Сжатие речи на основе алгоритма векторного квантования
5. Лабораторная работа №5 по "Основам теории систем" (Транспортные задачи линейного программирования)
9. Основы речевой коммуникации
10. Штукатурные работы с основами охраны труда
11. Экологические основы устойчивости растений
12. Альбом схем по основам теории радиоэлектронной борьбы
13. Философские основы кибернетики и методология ее применения в военном деле
14. Правовые и организационные основы деятельности паспортно-визовой службы органов внутренних дел РФ
15. Правовые основы валютного регулирования и валютного контроля в Российской Федерации
16. Правовые основы создания, реорганизации и ликвидации кредитной организации
17. ЛИЗИНГ: правовые основы и проблемы развития правового регулирования в РФ
18. Основы конституционного права Франции
19. Основы конституционного строя Великобритании
20. Правовые основы государственной службы в зарубежных странах
21. Основы Конституционно-правового статуса субъектов РФ
26. Финансовые основы местного самоуправления по законопроекту комиссии Козака
27. Основы местного самоуправления
28. Организационные основы проведения налоговых проверок
29. Основы делопроизводства (Контрольная)
30. Нормативно - правовая основа социального обеспечения военнослужащих
31. Основы политики Эстонского государства в отношении образования и здравоохранения
32. Феодальное государство (экономическая основа, сущность, механизм, функции и формы)
33. Правовые основы бухгалтерской и статистической отчетности
34. Косвенные речевые акты в современном английском языке
35. Лингвистические основы обучения произношению английского языка в каракалпакской школе
36. Методика исправления речевых недостатков у актёров
37. Бахтин М.М. "Проблемы речевых жанров"
42. Фольклорные основы сказок-повестей В. М. Шукшина
44. Раскол православия. Никонианство, как духовная основа прозападных преобразований в России
45. Проектирование и разработка сетевых броузеров на основе теоретико-графовых моделей
47. Построение локальной компьютерной сети масштаба малого предприятия на основе сетевой ОС Linux
49. ПК на основе процессора INTEL 80286
50. Платежная система на основе смарт-карт
51. Разработка АРМ на основе персонального компьютера для дома
52. Сжатие данных
53. Основы алгоритмизации и алгоритмические языки
57. Разработка цикла лабораторных работ по основам работы в WINDOWS 2000
58. Исследования устойчивости и качества процессов управления линейных стационарных САУ
59. Критерии устойчивости линейных систем
60. Расчёт частотных и временных характеристик линейных цепей
61. Лабораторная работа №6 по "Основам теории систем" (Решение задачи о ранце методом ветвей и границ)
63. Основы теории систем и системный анализ
64. Контрольная работа по линейной алгебре
66. Методы решения систем линейных неравенств
67. Решение задач линейного программирования
68. Решение задачи линейного программирования
69. Итерационные методы решения систем линейных уравнений с неединственными коэффициентами
73. Зоотехнические основы воспроизводства стада
74. Природные ресурсы - как основа функционирования мировой экономики
75. Основы педагогической системы святителя Иоанна Златоуста
77. Речевая карта
79. Особенности речевых ошибок младших школьников в письменных творческих работах и пути их исправления
81. Формирование речевой деятельности младших школьников
82. Теоретические основы социально-педагогической работы с учащимися в микрорайоне
83. Основы промышленного рыболовства и технология рыбных продуктов
90. Патентный поиск на тему: "Современная оснастка станка" по курсу "Основы научной деятельности"
91. Основы монтажа оборудования
92. Основы технологии приготовления пищи
93. Основы конструирования: Проектирование привода общего назначения содержащего цепную передачу
94. Подбор сечения для сжатого стержня
95. Основы металлургичесуого производства
97. Основы проектирования и конструирования машин
99. Основы социальной информатики
100. Основы психологии