Умное ожерелье распознает «безмолвные» английские и китайские команды

Создано 16.02.2022 13:36
Автор: Administrator

smart-necklace-recogni

Технология распознавания речи позволяет нам попросить Siri проверить погоду на завтра или попросить Alexa включить нашу любимую песню. Но эти технологии требуют слышимой речи. Что делать, если человек не может говорить или если вокализованная речь в определенной обстановке неуместна?

Ченг Чжан, доцент кафедры информатики Корнеллского колледжа вычислительной техники и информатики им. Энн С. Бауэрс, и докторант Руидонг Чжан нашли ответ: SpeeChin, устройство распознавания безмолвной речи (SSR), которое может распознавать молчаливые команды, используя изображения деформация кожи на шее и лице, снятые инфракрасной (ИК) камерой на шее.

Технология подробно описана в статье «SpeeChin: умное ожерелье для распознавания тихой речи», опубликованной 31 декабря в Proceedings of the Association of Computing Machinery on Interactive, Mobile, Wearable and Ubiquitous Technologies.

«Есть два вопроса: во-первых, почему ожерелье? И во-вторых, почему немая речь?» — сказал Чжан. «Мы считаем, что ожерелье — это форма, к которой люди привыкли, в отличие от ушных устройств, которые могут быть не такими удобными. Что касается безмолвной речи, люди могут подумать: «У меня уже есть устройство распознавания речи на моем телефоне». Но вам нужно озвучить команду для них, и это не всегда может быть социально приемлемым, или человек может быть не в состоянии озвучить речь».

SpeeChin оснащен ИК-камерой, установленной на напечатанном на 3D-принтере футляре-ожерелье, который подвешен на серебряной цепочке, а камера направлена вверх на подбородок владельца. Для повышения устойчивости разработчики спроектировали по крылу с каждой стороны, а снизу поместили монету.

Удобство и конфиденциальность, по словам Чэн Чжан, являются двумя причинами, по которым ИК-камера на шее может быть предпочтительнее, чем традиционная камера перед лицом. «Камера перед вашим лицом снимает то, что находится позади вас, — сказал он, — и это вызывает опасения по поводу конфиденциальности».

Для их первоначального эксперимента, в котором участвовали 20 участников (10 говорящих по-английски, 10 говорящих по-китайски), были проведены измерения для определения исходного положения подбородка, затем использовались дифференциальные изображения для обучения устройства распознаванию простых команд.

Жуйдун Чжан попросил участников произнести 54 команды на английском языке, состоящих из цифр, интерактивных команд, команд голосового помощника, команд пунктуации и команд навигации. Затем он проделал то же самое с 44 простыми словами или фразами китайского языка.

SpeeChin распознавал команды на английском и китайском языках со средней точностью 90,5% и 91,6% соответственно. Кроме этого, исследователи набрали шесть участников, которые произнесли 10 фраз на китайском и 10 английских фраз во время ходьбы. Показатели успеха в этом исследовании были ниже, отчасти из-за различий в стилях ходьбы (например, больше или меньше движений головы) среди участников.

Иными словами, SpeeChin является многообещающей разработкой, достойной наблюдения за её развитием.

Комментарии: