![]() |
|
сделать стартовой | добавить в избранное |
![]() |
Компьютеры, Программирование
Программирование, Базы данных
Речевые технологии |
Перспективы речевого интерфейса Писать о речевом интерфейсе сложно. С одной стороны, тема абсолютно не нова, с другой- активное развитие и применение этой технологии только начинается (в который раз). С одной стороны, успели сформироваться устойчивые стереотипы и предубеждения, с другой - несмотря на почти полвека настойчивых усилий не нашли разрешения вопросы, стоявшие еще перед родоначальниками речевого ввода. Как бы то ни было, продолжатся поиски такого интерфейса, который устроил бы всех. Собственно говоря, это как раз то, к чему человечество всегда стремилось в общении с компьютером. Исследователи недалеко продвинулись за прошедшие десятки лет, что заставляет некоторых специалистов крайне скептически относиться к самой возможности реализации речевого интерфейса в ближайшем будущем. Другие считают, что задача уже практически решена. Впрочем, все зависит от того, что следует считать решением этой задачи. Построение речевого интерфейса распадается на три составляющие. Первая задача состоит в том, чтобы компьютер мог «понять» то, что ему говорит человек, то есть он доложен уметь извлекать из речи человека полезную информацию. Пока что, на нынешнем этапе, эта задача сводится к тому, чтобы извлечь из речи смысловую ее часть, текст (понимание таких составляющих, как скажем, интонация, пока вообще не рассматривается). То есть эта задача сводится к замене клавиатуры микрофоном. Вторая задача состоит в том, чтобы компьютер воспринял смысл сказанного. Пока речевое сообщение состоит из некоего стандартного набора понятных компьютеру команд (скажем, дублирующих пункты меню), ничего сложного в ее реализации нет. Однако вряд ли такой подход будет удобнее, чем ввод этих же команд с клавиатуры или при помощи мыши. Пожалуй, даже удобнее просто щелкнуть мышкой по иконке приложения, чем четко выговаривать (к тому же мешая окружающим); «Старт! Главное меню! Бери!» В идеале компьютер должен четко «осмысливать» естественную речь человека и понимать, что, к примеру, слова «Хватит!» и «Кончай работу!» означают в одной ситуации разные понятия, а в другой - одно и то же. Третья задача состоит в том, чтобы компьютер мог преобразовать информацию, с которой он оперирует, в речевое сообщение, понятное человеку. Так вот, из этих трех задач достаточно ясное и окончательное решение существует только для третьей. По сути, синтез речи - это чисто математическая задача, которая в настоящее время решена на довольно хорошем уровне. И в ближайшее время, скорее всего, будет совершенствоваться только ее техническая реализация. Препятствием для окончательного решения первой задачи служит то, что никто до сих пор толком не знает, каким образом можно расчленить нашу речь, чтобы извлечь из нее те составляющие, в которых содержится смысл. В том звуковом потоке, который мы выдаем при разговоре, нельзя различить ни отдельных букв, ни слогов , об этом более подробно я Вам расскажу позже . Во всяком случае, после предварительной тренировки современные системы распознавания речи работают довольно сносно и делают ошибок не больше, чем делали оптические системы распознавания печатных символов лет пять-семь назад.
Что касается второй задачи, то она, по мнению большинства специалистов, не может быть решена без помощи систем искусственного интеллекта. Последние, как известно, пока не созданы, хотя большие надежды возлагаются на появление так называемых квантовых. Если же подобные устройства появятся, это будет означать качественный переворот в вычислительных технологиях, и тогда, как знать, может быть , многие теперешние подходы к речевому интерфейсу вообще окажутся ненужными. Поэтому пока удел речевого интерфейса - всего лишь дублирование голосом команд, которые могут быть введены с клавиатуры или при помощи мыши. А здесь его преимущества весьма сомнительны. Впрочем, есть одна область, которая для многих может оказаться очень привлекательной. Это речевой ввод текстов в компьютер. Действительно, чем стучать по клавиатуре, гораздо удобнее продиктовать все компьютеру, чтобы он записал услышанное в текстовый файл. Здесь вовсе не требуется, чтобы компьютер «осмысливал» услышанное, а задача перевода речи в текст более или менее решена. Недаром большинство выпускаемых ныне программ «речевого интерфейса» ориентированы именно на ввод речи. Хотя и здесь есть место для скепсиса. Если читать вслух, четко выговаривая слова, с паузами, монотонно, как это требуется для системы распознавания речи, то на машинописную страничку у меня уйдет пять минут. Печатаю на клавиатуре я с той же скоростью. Но сочиняю, при наличии вдохновения, раза в два-три медленнее, а без оного - медленнее раз в пять, так что скорость «ввода» и при диктовке и при работе на клавиатуре у меня абсолютно одинакова. Но вот сочинять и одновременно выговаривать сочиняемое с четкой артикуляцией , хоть убей, те не смогу. Первый - и, пожалуй, основной - вопрос касается области применения. Поиск приложений, где распознавание речи могло бы продемонстрировать все свои достоинства, вопреки устоявшемуся мнению, является задачей далеко не тривиальной. Сложившаяся практика применения компьютеров вовсе не способствует широкому внедрению речевого интерфейса. Для подачи команд, связанных с позиционированием в пространстве, человек всегда пользовался и будет пользоваться жестами, то есть системой «руки- глаза». На этом принципе построен современный графический интерфейс. Перспектива замены клавиатуры и мыши блоком распознавания речи абсолютно отпадает. При этом выигрыш от возложения на него части функций управления настолько мал, что не смог предоставить достаточных оснований даже для пробного внедрения в массовых компьютерах на протяжении уже более тридцати лет. Именно таким сроком оценивается существование коммерчески применимых систем распознавания речи. Для иллюстрации своих аргументов возможно, несколько спорных утверждений рассмотрю перспективу и основные проблемы применения систем речевого ввода текстов, особенно активно продвигаемых в последнее время. Для сравнения: спонтанная речь произносится со средней скоростью 2,5 слов в секунду, профессиональная машинопись - 2 слова в секунду, непрофессиональная - 0,4. Таким образом, на первый взгляд, речевой ввод имеет значительное превосходство по производительности.
Однако оценка средней скорости диктовки в реальных условиях снижается до 0,5-0,8 слова в секунду в связи с необходимостью четкого произнесения слов при речевом вводе и достаточно высоким процентом ошибок распознавания, нуждающихся в корректировке. Речевой интерфейс естественен для человека и обеспечивает дополнительное удобство при наборе текстов. Однако даже профессионального диктора может не обрадовать перспектива в течение нескольких часов диктовать малопонятливому и немому (к этому я еще вернусь) компьютеру. Кроме того, имеющийся опыт эксплуатации подобных систем свидетельствует о высокой вероятности заболевания голосовых связок операторов, что связано с неизбежной при диктовке компьютеру монотонностью речи. Часто к достоинствам речевого ввода текста относят отсутствие необходимости в предварительном обучении. Однако одно из самых слабых мест современных систем распознавания речи- чувствительность к четкости произношения- приводит к потере этого, казалось бы, очевидного преимущества. Печатать на клавиатуре оператор учится в среднем 1-2 месяца. Постановка правильного произношения может занять несколько лет. Существует и еще одно неприятное ограничение применимости, сознательно не упоминаемое, на мой взгляд, создателями систем речевого ввода. Оператор, взаимодействующий с компьютером через речевой интерфейс, вынужден работать в звука изолированном отдельном помещении либо пользоваться звукоизолирующим шлемом. Иначе он будет мешать работе своих соседей по офису, которые, в свою очередь, создавая дополнительный шумовой фон, будут значительно затруднять работу речевого распознавателя. Таким образом, речевой интерфейс вступает в явное противоречие с современной организационной структурой предприятий, ориентированных на коллективный труд. Ситуация несколько смягчается с развитием удаленных форм трудовой деятельности, однако еще достаточно долго самая естественная для человека производительная и потенциально массовая форма пользовательского интерфейса обречена на узкий круг применения. Ограничения применимости систем распознавания речи в рамках наиболее популярных традиционных приложений заставляют сделать вывод о необходимости поиска потенциально перспективных для внедрения речевого интерфейса приложений за пределами традиционной офисной сферы, что подтверждается коммерческими успехами узкоспециализированных речевых систем. Самый успешный на сегодня проект коммерческого применения распознавания речи - телефонная сеть фирмы АТ&Т. Клиент может запросить одну из пяти категорий услуг, используя любые слова. Он говорит до тех пор, пока в его высказывании не встретится одно из пяти ключевых слов. Эта система в настоящее время обслуживает около миллиарда звонков в год. Несмотря на то, что одним из наиболее перспективных направлений для внедрений систем распознавания речи может стать сфера компьютерных игр, узкоспециализированных реабилитационных программ для инвалидов, телефонных и информационных систем, ведущие разработчики речевого распознавания наращивают усилия по достижению универсализации и увеличения объемов словаря даже в ущерб сокращению процедуры предварительной настройки на диктора.
В дальнейшем появились персональные компьютеры и суперкомпьютеры, способные выполнять миллиарды операций в секунду. Способность компьютера работать ныне со скоростью до десяти миллиардов операций в секунду равносильно прочтению около тысячи энциклопедиче 1 Белл В. Грядущее постиндустриальное общество. М., 1999. С. CLX. 220 ских томов в секунду [1]. Этот рубеж в развитии компьютерной технологии (т. е. создание персональных компьютеров) А. И. Ракитов считает началом второй компьютерной революции. Появление, массовое производство и распространение персональных компьютеров, пишет он в своей монографии (с. 122), представляет собой главное условие реальной информатизации общества, ибо лишь с возникновением машин этого класса оказывается возможным выполнить основное критериальное условие информационного общества - ничем не ограниченный доступ к информации каждого члена общества в любое время и из любой точки страны. Вместе с тем, их внедрение открывает практически неограниченные возможности для автоматизации производства, научных исследований, образования, медицинских исследований, всех видов социально-бытового сервиса и общения людей, включая возможность синхронного перевода текста, речевого общения с компьютером, проведения телеконференций, поиска и получения информации во всех доступных пользователю базах данных и знаний
2. Психологическая готовность к школьному обучению детей с речевыми нарушениями
4. Обучение детей школьного возраста на компьютерах
5. Обучение детей пересказу народных сказок и коротких рассказов
9. Проблемы обучения детей церковному пению
10. Рассуждение об аутентичности в методике обучения иностранных учащихся инженерного профиля
11. Личностно-ориентированные технологии в обучении детей
14. Психологическая готовность к школьному обучению детей с задержкой психического развития
15. Методика обучения истории в схемах, таблицах, описаниях
16. Анализ и методика обучения броска через спину с колен
17. Плавание в летнем оздоровительном лагере (методика обучения и организация водного праздника)
18. Методика обучения монологической и диалогической речи на начальном этапе изучения английского языка
19. Анализ и методика обучения техники барьерного бега на 100 м и 110 м с/б
20. Теория и методика обучения математике
21. Воспитание и обучение детей в ДОУ
25. Методика обучения математике как научная область
26. Методика обучения решению задач на построение сечений многогранников в 10-11 классах
27. Методика обучения решению текстовых задач алгебраическим методом
28. Методика обучения технологии машинной вышивки
29. Методика обучения чтению на английском языке в средней школе
31. Методика обучения электротехнике, радиотехнике и автоматике
33. Обучение детей 5-6 лет с общим недоразвитием речи словообразованию в повседневной жизнедеятельности
34. Обучение детей с общим недоразвитием речи сравнению предметов по тяжести и сосудов по вместимости
35. Особенности обучения детей ходьбе на лыжах в старшем дошкольном возрасте
36. Проблемы обучения детей-мигрантов
37. Система воспитания и обучения детей с нарушениями опорно-двигательного аппарата
41. Психологическая адаптация к школьному обучению детей в возрасте 6-7 лет
43. Методика обучения метанию копья и гранаты
44. Методика обучения технике легкоатлетических видов. Метание диска
45. Методика обучения технике отдельных видов метаний в лёгкой атлетике (копьё, молот)
50. Формирование пространственных представлений у детей в норме с общим недоразвитием речи
51. Цикл-метод обучения. (Методика преподавания эстонского языка)
52. Место интенсивной методики в системе обучения иностранному языку в средней школе ([Курсовая])
53. Проблема индивидуального подхода в обучении педагогически запущенных детей. Коррекционая педагогика
57. Слепоглухие дети. Реабилитация и обучение
58. Речевая характеристика героев пьесы М.Горького "Дети солнца"
59. Методика интенсивного обучения французскому языку
60. Интеллектуальная готовность детей к школьному обучению
61. Организация и методика производственного обучения
62. Использование проектной методики в преподавании иностранного языка на старшей ступени обучения
63. Обучение и воспитание детей с ФФНР в старшей группе детского сада
64. Проблемы готовности детей к обучению в школе
65. Психолингвистические аспекты речевой подготовки детей к школе
66. Развитие теории и методики воспитания нравственных качеств у детей
67. Оценка готовности детей дошкольного возраста к обучению в школе
68. Подготовка к обучению грамоте детей с задержкой психического развития
69. Способы обучения и принципы, положенные в основу методики занятий физическими упражнениями
73. Обучение речевому этикету на уроках английского языка
74. Организация и методика проведения производственного обучения по теме: "Блюда русской кухни"
75. Обучение чтению детей с общие недоразвитием речи
76. Применение программы "BAND in-a-BOX" на уроках обучения игре на синтезаторе
77. Анализ методик для определения готовности детей к школе
78. Коррекционная работа по устранению дислексии у детей с трудностями в обучении
79. Методика адаптивной физической культуры слабослышащих детей младшего школьного возраста
80. Методика повышения эффективности обучения истории
84. Обучение рассказыванию как метод формирования связной речи у детей с общим недоразвитием речи
85. Обучение словообразованию детей дошкольного возраста со стертой дизартрией
89. Речевое общение детей младшего дошкольного возраста
91. Элементы обучения рисованию детей дошкольного возраста
92. Занятия рисованием как средство подготовки детей к обучению в школе
93. Влияние типа родительского отношения на психологическую готовность к обучению в школе детей 6-7 лет
94. Готовность к школьному обучению шестилетних детей
95. Индивидуальные различия психологической готовности детей к обучению в школе
96. Обучение и воспитание детей с нарушением интеллекта в России и за рубежом
98. Психологическая готовность детей к обучению в школе
99. Условия формирования готовности детей к обучению в школе в условиях детского сада