Top Banner
Система голосового управления технологическими комплексами Цель работы: Рассказова С.И. Провести анализ речевых сигналов и их параметров Провести исследование и классификацию методов распознавания речи и голосового управления Разработать модели распознавания голосовых команд управления технологическим комплексом Разработать аппаратно-программный комплекс голосового управления технологическим комплексом Провести отработку системы на экспериментальном комплексе на базе робота МП-9С Разработка системы голосового управления технологическими комплексами. Задачи: 1
13

Лекция 10 прил - ermak.cs.nstu.ruermak.cs.nstu.ru/neurotech/html/metodmat/pchmi2015/Lect10_pril1.… · Основныепараметрызвука ⎩ ⎨ ⎧ − < ≥

Jul 13, 2020

Download

Documents

dariahiddleston
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Лекция 10 прил - ermak.cs.nstu.ruermak.cs.nstu.ru/neurotech/html/metodmat/pchmi2015/Lect10_pril1.… · Основныепараметрызвука ⎩ ⎨ ⎧ − < ≥

Система голосового управления технологическимикомплексами

Цель работы:

Рассказова С.И.

• Провести анализ речевых сигналов и их параметров

• Провести исследование и классификацию методовраспознавания речи и голосового управления

• Разработать модели распознавания голосовых командуправления технологическим комплексом

• Разработать аппаратно-программный комплексголосового управления технологическим комплексом

• Провести отработку системы на экспериментальномкомплексе на базе робота МП-9С

Разработка системы голосового управлениятехнологическими комплексами.

Задачи:

1

Page 2: Лекция 10 прил - ermak.cs.nstu.ruermak.cs.nstu.ru/neurotech/html/metodmat/pchmi2015/Lect10_pril1.… · Основныепараметрызвука ⎩ ⎨ ⎧ − < ≥

Области применения систем голосовогоуправления

2

«интеллектуальный дом»

Page 3: Лекция 10 прил - ermak.cs.nstu.ruermak.cs.nstu.ru/neurotech/html/metodmat/pchmi2015/Lect10_pril1.… · Основныепараметрызвука ⎩ ⎨ ⎧ − < ≥

Классификация систем распознавания речи

Системыраспознавания

речи

По интервалу междусловами

Распознаваниенепрерывнойречи

Выделениеодного слова изинтервала речи

Распознаваниедискретной речи

По зависимости отдиктора

Диктороориентированные

Дикторонезависимые

Системы автоматическойнастройки на диктора

По степенидетализации призадании эталонов

Распознавание слов

Распознавание фонем

Распознавание слогов

Распознавание доменов

По размеру словаря

Системы с большимсловарем

Системы с маленькимсловарем

3

Page 4: Лекция 10 прил - ermak.cs.nstu.ruermak.cs.nstu.ru/neurotech/html/metodmat/pchmi2015/Lect10_pril1.… · Основныепараметрызвука ⎩ ⎨ ⎧ − < ≥

Основные параметры звука

⎩⎨⎧

<−≥

=

−= ∑=

0,1;0,1

)(signгде

,)(sign)(sign21

21

ss

s

ssZN

kkk

Спектральные характеристики(зависимость интенсивностисигнала от частоты)

• Формантные характеристики(частоты формант, амплитуда, ширина, скорость измененияформанты)• Параметры основного тонаголоса (среднее значение, дисперсия, статистическиемоменты, вариации)

Число переходовинтенсивности сигнала черезноль [6]

4

Page 5: Лекция 10 прил - ermak.cs.nstu.ruermak.cs.nstu.ru/neurotech/html/metodmat/pchmi2015/Lect10_pril1.… · Основныепараметрызвука ⎩ ⎨ ⎧ − < ≥

Структурная схема АПК голосового управления

Преобразование сигнала Микрофон

Оцифровка АЦП звуковой карты

Фильтрация

Распознавание команды

Формирование управляющегосигнала

Выполнение команды

Процессор ПК

Адаптер

Технологический комплекс

Программное обеспечение Аппаратное обеспечение

5

Микрофон Звуковая карта ПК Адаптер Технологическийкомплекс

Голосоваякоманда

Вверх

Вниз

ВправоВлево

Назад

Вперед

Сжать

Разжать

Page 6: Лекция 10 прил - ermak.cs.nstu.ruermak.cs.nstu.ru/neurotech/html/metodmat/pchmi2015/Lect10_pril1.… · Основныепараметрызвука ⎩ ⎨ ⎧ − < ≥

Классификация методов распознавания речи6

Оцифровка ифильтрация

Выделениефрагментов речи

Распознаваниефрагментов речи

Определениекоманды

Звуковойсигнал

Получение параметроввыделенного фрагмента

Обработанныйдискретный

сигнал

Фрагментыречи

Векторпараметров

Последовательностьэталонныхэлементов

Управляющаякоманда

Методы, использующие отрезкификсированной длины

Специальные алгоритмы

Скрытые Марковские модели

Искусственные нейронные сети

Динамическоепрограммирование

Комбинация методов

Анализ Фурье

Линейное предсказание

Формантный анализ

Голосовой анализ

Разделение речи на домены

По динамическому изменениюсуммы квадратов разности площади

сечения речевого тракта

По изменению кратковременнойэнергии и числа нулей

Спектральные характеристики

Параметры основного тона

Формантные характеристики

Алгоритм Байеса

Нейросетевая аппроксимация

Алгоритм временной нормализации

Page 7: Лекция 10 прил - ermak.cs.nstu.ruermak.cs.nstu.ru/neurotech/html/metodmat/pchmi2015/Lect10_pril1.… · Основныепараметрызвука ⎩ ⎨ ⎧ − < ≥

Алгоритм распознавания команды1. Выделение команды из потока аудиоданных

1. Уровень кратковременной энергии

2. Число нулей интенсивности

3. Пороговое значение кратковременной энергии

4. Пороговое значение числа нулей интенсивности

∑=

=N

kksN

E1

21

∑=

−−=N

kkk ssZ

21)(sign)(sign

21

tLtE EEDEMT≤≤

++=1max

4001)10,(3)10,(

tLtZ ZZDZMT≤≤

++=1max

201)10,(3)10,(

2. Схема распознавания команд

Гармоника 1

Гармоника 2

Гармоника N

Спектральноепредставление слова

ЭС1

ЭС2

ЭСN

Уровень 1Распознавание слов

по гармоникам

.

.

.

Формированиеобобщенной оценки

соответствия входногообраза словам словаря

Уровень 2Принятие решения ораспознаваемом слове

Номер словав словаре

7

Определение порогов Е и Z

Получение первых 10 кадров

Обработка каждого кадра

E<Te и Z<Tz?

Наложение значений энергий на входы НС

Нет

Обработка входных данных НС первого уровня

Обработка полученных достоверностей НС второго уровня

Команда определена?

Выполнение команды

Завершение распознавания команды

Да

Да

Нет

Page 8: Лекция 10 прил - ermak.cs.nstu.ruermak.cs.nstu.ru/neurotech/html/metodmat/pchmi2015/Lect10_pril1.… · Основныепараметрызвука ⎩ ⎨ ⎧ − < ≥

Двухуровневая схема распознавания командУровень 1 (параметры нейросетей)

Уровень 2

⎩⎨⎧

<≥

=pgеслиpgесли

gf,0,1

)(1

⎩⎨⎧

<≥

=0,00,1

)(2 gеслиgесли

gf

⎩⎨⎧

<≥

=ngеслиngесли

gf,0,1

)(3

⎩⎨⎧

≤>

=1,01,1

)(4 gеслиgесли

gf

• входной образ - распознаваемая гармоника;• выходной сигнал - функция принадлежности гармоники словам словаря;• желаемый выходной сигнал - вектор размерности словаря из нулей и одной единицы, соответствующей произнесенному слову;• структура нейросети - трехслойная с полными последовательными связями;• функция активации f(g) = 1/(1 + e-g);• функция ошибки - отклонение реального выхода от желаемого;• критерий качества обучения - минимум ошибки по всему обучающему множеству;• обучение - обратное распространение ошибки.

8

Page 9: Лекция 10 прил - ermak.cs.nstu.ruermak.cs.nstu.ru/neurotech/html/metodmat/pchmi2015/Lect10_pril1.… · Основныепараметрызвука ⎩ ⎨ ⎧ − < ≥

Функциональное описание системы9

Обучение системы Файлы обучения

Управление роботом

Параметры системы

Распознавание командПроизнесение командОператор

Загрузка параметров системы

Выбор обучающих файлов

Изменение списка команд

Настройщик

Настройка параметров системы

Page 10: Лекция 10 прил - ermak.cs.nstu.ruermak.cs.nstu.ru/neurotech/html/metodmat/pchmi2015/Lect10_pril1.… · Основныепараметрызвука ⎩ ⎨ ⎧ − < ≥

Физическая модель АПК голосового управленияроботом МП-9С

10

Page 11: Лекция 10 прил - ermak.cs.nstu.ruermak.cs.nstu.ru/neurotech/html/metodmat/pchmi2015/Lect10_pril1.… · Основныепараметрызвука ⎩ ⎨ ⎧ − < ≥

Работа с системой голосового управления

Режим обучения

• Добавление/удаление команд управления• Добавление/удаление обучающих файлов• Загрузка/сохранение параметров системы(нейронных сетей)• Обучение системы

Режим голосового управления

• Загрузка/сохранение параметров системы(нейронных сетей)• Распознавание и выполнение команд

11

Выбор режимаработысистемы

Сохранениепараметров

нейронных сетей

Загрузкапараметров

нейронных сетей

Завершениеработы с

программой

Началопроцесса

Page 12: Лекция 10 прил - ermak.cs.nstu.ruermak.cs.nstu.ru/neurotech/html/metodmat/pchmi2015/Lect10_pril1.… · Основныепараметрызвука ⎩ ⎨ ⎧ − < ≥

Экспериментальное исследование

00,2

0,4

0,6

0,8

1

1 2 3 4 5 6 7 8№ команды

Гармоника 1Гармоника 2Гармоника 3Гармоника 4Гармоника 5

0

0,2

0,4

0,6

0,8

1

1 2 3 4 5 6 7 8

№ команды

Набор входных данных (значения энергийнизкочастотных гармоник)

Оценка принадлежности гармоник командам

Интегральная оценка степенисоответствия команды словам словаря

12

0

20

40

60

80

100

0 2 3 4 5 7 9 10

Количество эталонов каждого слова

% распо

знавания

Эффективность распознавания

По результатам тестирования был получен процент распознавания 90%, чтосоответствует требования ТЗ

Команда ВВЕРХ

Page 13: Лекция 10 прил - ermak.cs.nstu.ruermak.cs.nstu.ru/neurotech/html/metodmat/pchmi2015/Lect10_pril1.… · Основныепараметрызвука ⎩ ⎨ ⎧ − < ≥

Выводы• Проведен анализ параметров голосовых команд. В результате анализа выбран наборпараметров, необходимый для распознавания голосовых команд управления технологическимкомплексом;

• Проведен анализ существующих методов распознавания речи и голосового управления. Врезультате анализа выбраны наиболее перспективные методы для построения системыголосового управления;

• Разработана модель распознавания голосовых команд управления технологическимкомплексом;

• Разработан аппаратно-программный комплекс голосового управления технологическимкомплексом;

• Проведена отработка системы на экспериментальном комплексе на базе робота МП-9С.

Результаты исследований и разработок были отмечены стипендией Правительства РФ идокладывались на студенческих конференциях:

• Рассказова С.И. «Системы распознавания речи и их использование на радиотехническомпредприятии». Сборник трудов V молодежной научно-технической конференции «Наукоемкиетехнологии и интеллектуальные системы 2003». М: МГТУ им. Н.Э.Баумана, 2003.

• Рассказова С.И. «Некоторые подходы к технологии получения частотных характеристикречи». Сборник трудов VI молодежной научно-технической конференции «Наукоемкиетехнологии и интеллектуальные системы 2004». М: МГТУ им. Н.Э.Баумана, 2004.

Апробация