Технологии обработки звука в реальном времени. Что есть и чего ждать?

 | 06.00

voice headphones techs vezd

Не вдаваясь глубоко в хронологию развития аудио-технологий, коротко расскажем про основные этапы становления интерфейсов для ввода-вывода аудио и перейдем к современной части, где не обошлось без пресловутого искусственного интеллекта и машинного обучения. Более конкретно — о той части разработок которые призваны улучшить работу аудио-систем во время общения пользователей.

История

По части разработок в области аудио долгое время ничего не менялось и даже TRS ( в народе — миниджек), до сих пор остается актуальным, хотя этой технологии более 70 лет. Он относительно компактный и надёжный для мобильных устройств, поэтому до сих пор не был вытеснен полностью.

С популяризацией цифрового аудио на первый план выходят поддержки кодеков и передачи аудио без сжатия. Проводные интерфейсы вроде USB и Lightning и беспроводные, последние ревизии Bluetooth, заметно повысили качество звука. Но всё это касалось воспроизведения фактического файла, без какого либо вмешательства в его структуру.

Самым новым этапом стала обработка звука в реальном времени. Причем речь не о качестве или изменениях частотных амплитуд, но об уровне обработки алгоритмами. Конкретнее — подавление шумов при голосовой связи по мессенджерам и голосовых чатах в играх.

Проблематика вопроса

Мы отдаём себе отчёт в том, что все, что касается качества звука и термины, которыми его описывают профессионалы аудио, могут быть субъективными. Кому то понравится звучание наушников за $15, кому-то за $150. А, например, оценка влияния цены кабеля на качество звучания вообще скатывается в конкуренцию экспертными мнениями и регалиями. Заключения экспериментов и слепые тесты имеют самые разные толкования.

man in headset playing computer video game at home

Но с чем согласятся все пользователи, так это с актуальностью разработки технологий которые могли бы повысить качество записи аудио, особенно голоса. Одним из наиболее популярных направлений, стала обработка звука во время онлайн-общения. О нескольких решениях мы и расскажем.

«Тензорный» звук NVIDIA

Весной этого года компания NVIDIA представила технологию шумоподавления RTX Voice, призванную улучшить качество звука во время общения по мессенджерам и в играх. Разработчики заявляют новый продукт использует искусственный интеллект для борьбы с различными фоновыми шумами — от щелчков клавиатуры до гула офиса, шума машин за окном и прочего. Что касается потребления ресурсов, то энтузиасты уже оценили его в 10-15 % от производительности видеокарты, что может стать критичным в «тяжелых» играх. Однако технология всё ещё находится на стадии бета-тестов, а сам по себе ИИ подразумевает постепенное усовершенствование, так что эти цифры могут заметно измнится.

Дистрибутив можно скачать с сайта NVIDIA, там же есть очень подробная инструкция по установке и настройке. Так что опробовать работу алгоритма может каждый желающий. Любопытно, что оценить работу можно просто открыв любое видео на YouTube и активировав RTX Voice. На практике алгоритм NVIDIA успешно очищает от фоновых шумов, включая музыку и гул окружающей среды. Исключение составляют совсем сложные ситуации, когда звуковой фон чрезмерный. Тогда голос спикера может пропадать или приобретать «металлический» оттенок.

В данный момент NVIDIA RTX Voice поддерживает работу со следующими программами: XSplit Broadcaster, XSplit Gamecaster, Twitch Studio, Discord, Google Chrome, WebEx, Skype, Zoom и Slack.

Универсальный подход к шумоподавлению от ASUS

Компания ASUS также представила свою технологию интеллектуального шумоподавления. Она реализована программно, как в качестве обновления для материнских плат и гарнитур с цифровым подключением, так и в составе отдельных адаптеров. Одним из примеров гарнитуры с такой технологией является модель ROG Theta 7.1, тест которой, вы можете найти на нашем сайте.

AI Noise-Canceling Mic Adapter Scenario _work from home

Эффект от работы технологии аналогичен тому что получается при использовании решения NVIDIA, однако разработчики ASUS заявляют что потребление ресурсов уже процессора, составит менее 4 %, а видеокарты менее 1 %.

Компания уже анонсировала старт продаж микрофона AI Noise-Canceling Mic. Это компактный адаптер USB-C/3,5 мм с интегрированной технологией интеллектуального шумоподавления. В оснащение адаптера входит интегрированный 96 кГц/24-битный центральный аудио процессор.

Адаптер подключается к гарнитуре через 3,5-мм аудиоразъем. В комплект также входит переходник с USB-C на USB-A. В устройстве используется встроенный аппаратный контроллер, поэтому заявляется что адаптер не влияет на производительность мобильного устройства, ПК или ноутбука, к которому он подключен.

Другие вендоры и сервисы

MSI представила программу Sound Tune с поддержкой технологии искусственного интеллекта. Тренировка ИИ проводилась на базе Deep Neural Network (DNN) с использованием 0,5 млрд данных синтетических разговоров с шумом (Synthetic Noisy Speech Data). MSI Sound Tune в данный момент совместима с Zoom, Skype, Slack, Microsoft Teams, WebEx и Hangouts.

Сервис для онлайн-общения Discord также обновился поддержкой фильтрации посторонних шумов. Тем более что именно его чаще всего используют игроки для общения во время совместных игровых сессией. Для реализации функции был использован интегрированный в программу сервис Krisp.ai.

Перспектива

Спрос на подобные технологии не мог не подстегнуться переходом на удалённый режим работы из-за карантина. Сотрудникам часто приходится участвовать в онлайн-конференциях и видео-созвонах, а звуковые условия бывают самыми разными и неподходящими.

Использование же голосовой связи на улице не меняло свой тренд. Задувающий в микрофон ветер и шум транспорта всегда были главными врагами связи голосом. Здесь как раз пригодятся универсальные наработки, как раз желательно программные, чтобы пользователь не зависел от типа используемого устройства.

Михаил Черновой