Наушники AI M2: мгновенный перевод для нескольких говорящих

Беспроводные наушники всегда предлагали Pixel Buds Из Google Feature Мгновенный перевод удивительный. За последние несколько лет такие бренды, как Timkettle, предложили аналогичные наушники для бизнес-клиентов. Однако все эти решения могут обрабатывать только один аудиопоток за раз для перевода.

Исследователи из Вашингтонского университета (UW) разработали нечто поистине выдающееся — наушники с искусственным интеллектом, которые могут переводить голоса нескольких говорящих одновременно. Представьте себе многоязычного человека, находящегося в переполненном баре и способного одновременно понимать речь окружающих его людей, говорящих на разных языках. Это нововведение представляет собой качественный скачок в технологии синхронного перевода.

Команда называет свое нововведение «пространственным переводом речи» и реализует его с помощью бинауральных наушников. Для тех, кто не знаком, технология бинаурального звука пытается имитировать звуковые эффекты точно так, как их слышит человеческое ухо. Для записи на голову манекена помещают микрофоны, расположенные с каждой стороны на таком же расстоянии друг от друга, как и уши человека. Эта технология основана на записи звука из двух разных источников для создания эффекта 3D-прослушивания.

Такой подход имеет решающее значение, поскольку наши уши не только слышат звук, но и помогают нам определить направление его источника. Общая цель — создать естественную звуковую сцену со стереоэффектом, способную обеспечить живое, концертное ощущение. Или, в современном контексте, пространственное слушание. Эта технология улучшает пользовательский опыт, обеспечивая реалистичный объемный звук.

Эта работа стала результатом работы команды под руководством профессора Шьяма Голлакоты, в послужном списке которого — приложения для установки подводного GPS на умные часы, превращения жуков в фотографов, мозговые имплантаты, взаимодействующие с электронными устройствами, мобильное приложение, способное «слышать» инфекции, и Plus. Эти достижения подтверждают экспертные знания профессора Голлакоты в области инновационных технологий.

Как работает многоязычный перевод?

«Впервые мы сохранили голос каждого человека и направление, откуда он исходил», — объясняет Голкота, нынешний профессор Школы компьютерных наук и инженерии имени Пола Г. Аллена при институте.

Команда сравнивает свою технологию с радаром, который сначала определяет количество говорящих в окружающей местности, а затем обновляет это число в режиме реального времени по мере того, как люди входят и выходят из зоны слышимости. Этот подход полностью основан на использовании устройств и не предполагает отправки голосовых потоков пользователей на облачный сервер для перевода. О, конфиденциальность!

Помимо перевода речи, группа также сохраняет «выразительные качества и громкость голоса каждого говорящего». Кроме того, регулировка направления и громкости осуществляется по мере перемещения динамика по комнате. Интересно, что Apple, как говорят, также разрабатывает Система, позволяющая AirPods переводить голос в реальном времени.

Как достигается мгновенный перевод с помощью искусственного интеллекта?

Команда Вашингтонского университета (UW) протестировала возможности перевода интеллектуальных наушников на базе искусственного интеллекта почти в дюжине помещений и на открытом воздухе. С точки зрения производительности система может принимать, обрабатывать и воспроизводить переведенный звук в течение 12–2 секунд. Участники тестирования, похоже, предпочитают задержку в 4–3 секунды, но команда работает над ускорением процесса перевода.

Пока команда протестировала только переводы на испанский, немецкий и французский языки, но надеется добавить Plus в свой пакет. Технически им удалось объединить слепое разделение источника, локализацию, выразительный перевод в реальном времени и бинауральную доставку в единый поток, что является весьма впечатляющим достижением. Эта интеграция передовых технологий представляет собой качественный скачок в области синхронного перевода.

Для этой системы команда разработала модель перевода речи, способную работать в режиме реального времени на чипе Apple M2, обеспечивая вывод в реальном времени. За звук отвечали наушники Sony WH-1000XM4 с шумоподавлением и бинауральный USB-микрофон Sonic Presence SP15C.

И вот самое интересное. «Проверочный машинный код доступен другим для дальнейшего развития», — говорится в пресс-релизе фонда. Это означает, что научное сообщество и сообщество разработчиков программного обеспечения с открытым исходным кодом могут учиться и развивать более продвинутые проекты, основанные на фундаменте, заложенном командой Вашингтонского университета. Это открывает двери для будущих разработок в области технологий перевода с использованием искусственного интеллекта.