Технологии обработки звука в реальном времени. Что есть и чего ждать?

 | 06.00

voice headphones techs vezd

Не вдаваясь глубоко в хронологию развития аудио-технологий, коротко расскажем про основные этапы становления интерфейсов для ввода-вывода аудио и перейдем к современной части, где не обошлось без пресловутого искусственного интеллекта и машинного обучения. Более конкретно — о той части разработок которые призваны улучшить работу аудио-систем во время общения пользователей.

История

По части разработок в области аудио долгое время ничего не менялось и даже TRS ( в народе — миниджек), до сих пор остается актуальным, хотя этой технологии более 70 лет. Он относительно компактный и надёжный для мобильных устройств, поэтому до сих пор не был вытеснен полностью.

С популяризацией цифрового аудио на первый план выходят поддержки кодеков и передачи аудио без сжатия. Проводные интерфейсы вроде USB и Lightning и беспроводные, последние ревизии Bluetooth, заметно повысили качество звука. Но всё это касалось воспроизведения фактического файла, без какого либо вмешательства в его структуру.

Самым новым этапом стала обработка звука в реальном времени. Причем речь не о качестве или изменениях частотных амплитуд, но об уровне обработки алгоритмами. Конкретнее — подавление шумов при голосовой связи по мессенджерам и голосовых чатах в играх.

Проблематика вопроса

Мы отдаём себе отчёт в том, что все, что касается качества звука и термины, которыми его описывают профессионалы аудио, могут быть субъективными. Кому то понравится звучание наушников за $15, кому-то за $150. А, например, оценка влияния цены кабеля на качество звучания вообще скатывается в конкуренцию экспертными мнениями и регалиями. Заключения экспериментов и слепые тесты имеют самые разные толкования.

man in headset playing computer video game at home

Но с чем согласятся все пользователи, так это с актуальностью разработки технологий которые могли бы повысить качество записи аудио, особенно голоса. Одним из наиболее популярных направлений, стала обработка звука во время онлайн-общения. О нескольких решениях мы и расскажем.

«Тензорный» звук NVIDIA

Весной этого года компания NVIDIA представила технологию шумоподавления RTX Voice, призванную улучшить качество звука во время общения по мессенджерам и в играх. Разработчики заявляют новый продукт использует искусственный интеллект для борьбы с различными фоновыми шумами — от щелчков клавиатуры до гула офиса, шума машин за окном и прочего. Что касается потребления ресурсов, то энтузиасты уже оценили его в 10-15 % от производительности видеокарты, что может стать критичным в «тяжелых» играх. Однако технология всё ещё находится на стадии бета-тестов, а сам по себе ИИ подразумевает постепенное усовершенствование, так что эти цифры могут заметно измнится.

Дистрибутив можно скачать с сайта NVIDIA, там же есть очень подробная инструкция по установке и настройке. Так что опробовать работу алгоритма может каждый желающий. Любопытно, что оценить работу можно просто открыв любое видео на YouTube и активировав RTX Voice. На практике алгоритм NVIDIA успешно очищает от фоновых шумов, включая музыку и гул окружающей среды. Исключение составляют совсем сложные ситуации, когда звуковой фон чрезмерный. Тогда голос спикера может пропадать или приобретать «металлический» оттенок.

В данный момент NVIDIA RTX Voice поддерживает работу со следующими программами: XSplit Broadcaster, XSplit Gamecaster, Twitch Studio, Discord, Google Chrome, WebEx, Skype, Zoom и Slack.

Универсальный подход к шумоподавлению от ASUS

Компания ASUS также представила свою технологию интеллектуального шумоподавления. Она реализована программно, как в качестве обновления для материнских плат и гарнитур с цифровым подключением, так и в составе отдельных адаптеров. Одним из примеров гарнитуры с такой технологией является модель ROG Theta 7.1, тест которой, вы можете найти на нашем сайте.

AI Noise-Canceling Mic Adapter Scenario _work from home

Эффект от работы технологии аналогичен тому что получается при использовании решения NVIDIA, однако разработчики ASUS заявляют что потребление ресурсов уже процессора, составит менее 4 %, а видеокарты менее 1 %.

Компания уже анонсировала старт продаж микрофона AI Noise-Canceling Mic. Это компактный адаптер USB-C/3,5 мм с интегрированной технологией интеллектуального шумоподавления. В оснащение адаптера входит интегрированный 96 кГц/24-битный центральный аудио процессор.

Адаптер подключается к гарнитуре через 3,5-мм аудиоразъем. В комплект также входит переходник с USB-C на USB-A. В устройстве используется встроенный аппаратный контроллер, поэтому заявляется что адаптер не влияет на производительность мобильного устройства, ПК или ноутбука, к которому он подключен.

Другие вендоры и сервисы

MSI представила программу Sound Tune с поддержкой технологии искусственного интеллекта. Тренировка ИИ проводилась на базе Deep Neural Network (DNN) с использованием 0,5 млрд данных синтетических разговоров с шумом (Synthetic Noisy Speech Data). MSI Sound Tune в данный момент совместима с Zoom, Skype, Slack, Microsoft Teams, WebEx и Hangouts.

Сервис для онлайн-общения Discord также обновился поддержкой фильтрации посторонних шумов. Тем более что именно его чаще всего используют игроки для общения во время совместных игровых сессией. Для реализации функции был использован интегрированный в программу сервис Krisp.ai.

Перспектива

Спрос на подобные технологии не мог не подстегнуться переходом на удалённый режим работы из-за карантина. Сотрудникам часто приходится участвовать в онлайн-конференциях и видео-созвонах, а звуковые условия бывают самыми разными и неподходящими.

Использование же голосовой связи на улице не меняло свой тренд. Задувающий в микрофон ветер и шум транспорта всегда были главными врагами связи голосом. Здесь как раз пригодятся универсальные наработки, как раз желательно программные, чтобы пользователь не зависел от типа используемого устройства.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *