Специалисты из Исследовательского института искусственного интеллекта (AIRI) и Московского физико-технического института (МФТИ) в ходе совместной работы дообучили разработанную учеными НГУ нейросеть Wav2Vec2-Large-Ru-Golos для распознавания голосовых команд управления автономным роботом, сообщается на сайте вуза.
Научный сотрудник Лаборатории прикладных цифровых технологий Международного научно-образовательного математического центра НГУ Иван Бондаренко отметил, что нейросетевые модели Wav2Vec2-Large-Ru-Golos и Wav2Vec2-Large-Ru-Golos-With-LM ввиду своих высоких показателей качества распознавания речи, а также из-за простоты использования и доработки, оказались востребованными в сообществе специалистов по распознаванию речи на русском языке.
«Глубокую нейросеть, которая «понимает» язык, вполне можно дообучить превращению команды, поставленной человеком, в цепочку визуально-моторных инструкций управления, обеспечивающих выполнение роботом этой команды. Так, например, простая команда человека «подай стакан воды» должна быть трансформирована в достаточно длинную цепочку манипулирований объектами и перемещений в пространстве, выполняемых роботом», – отметил ученый.
Бортовой интеллект робота не только должен уметь генерировать детальный план низкоуровневых управляющих инструкций по высокоуровневой команде человека, он еще должен быть способен правильно услышать эту команду. Эту проблему специалисты AIRI решили с помощью нейросетевых моделей распознавания речи Wav2Vec2-Large-Ru-Golos и Wav2Vec2-Large-Ru-Golos-With-LM.Фото с сайта НГУ