Искусственный интеллект уменьшает реверберацию, шум и улучшает записываемый звук. Действительно ли работает бесплатная программа Adobe Podcast Enhance Speech?

Одной из отличительных черт нашего времени является то, что все больше и больше людей записывают видео, подкасты и другие материалы, в основном для социальных сетей. В таких случаях обычно также необходимо записать звук. Проблема в том, что начинающие артисты обычно просто используют для этой цели смартфоны или дешевые микрофоны, а это, как мы знаем, не гарантирует высочайшего качества передачи голоса. Однако существует инструмент, который явно помогает улучшить качество записанной речи за счет уменьшения шума, реверберации и фонового шума. Сервис называется Adobe Podcast и на данный момент находится в стадии бета-тестирования, то есть он не закончен, но работа над его улучшением еще продолжается. Однако стоит проверить, какие возможности у него есть, ведь может оказаться, что для некоторых людей он уже будет очень полезным инструментом. В этом кратком руководстве я сосредоточусь только на функции улучшения голоса, которая доступна каждому.

Автор: Томаш Дуда

Наверное, никого не удивляет тот факт, что функция Enhance Speech в Adobe Podcast использует алгоритмы искусственного интеллекта для обработки аудиозаписей, распознавания в них человеческих голосов, а также их усиления и «очистки», при этом уменьшая фоновые шумы. Что ж, похоже, что в наши дни от искусственного интеллекта становится все труднее уйти, и я думаю, нам придется с этим смириться. Некоторые скажут, что это угроза человечеству, а другие скажут, что раз оно нам служит и помогает, то стоит его использовать. Я полагаю, что истина лежит где-то посередине. С чем мы здесь на самом деле имеем дело? Прежде всего: Adobe Podcast в настоящее время бесплатен, и все, что для этого требуется, — это войти в свою учетную запись Adobe. Во-вторых: вам не нужно скачивать или устанавливать какую-либо программу, поскольку сервис работает онлайн, то есть через веб-браузер. Адрес веб-сайта: podcast.adobe.com/enhance.

Бесплатная функция Enhance Speech в Adobe Podcast предназначена для удаления нежелательного фонового шума и повышения четкости голоса, записанного с помощью микрофона. Так ли это на самом деле? Ознакомьтесь с тремя примерами ниже и решите, будет ли вам полезен этот инструмент.

Искусственный интеллект уменьшает реверберацию, шум и улучшает записываемый звук. Действительно ли работает бесплатная программа Adobe Podcast Enhance Speech? (NC1)

Искусственный интеллект к вашим услугам. Новая функция «Генераторная заливка» в Adobe Photoshop. Гид

Интерфейс Enhance Speech минималистичный и простой в использовании. Просто перетащите файл записи голоса в соответствующее поле или дополнительно воспользуйтесь кнопкой «Загрузить», чтобы выбрать файл, сохраненный в памяти. Процесс обработки начнется автоматически, и когда он закончится, просто нажмите кнопку «Загрузить», чтобы загрузить эффект алгоритмов искусственного интеллекта. Как вы уже могли заметить, сервис пока работает только на английском языке, но я не думаю, что это проблема, потому что, как я писал ранее, все работает по принципу перетаскивания. Тот факт, что это онлайн-инструмент, упрощает его использование на различных системах и устройствах, включая смартфоны. Создатели заявляют, что необходим браузер Google Chrome, но я тестировал сервис, например, на Safari, и все работало так же. В настоящее время Adobe Podcast может обрабатывать только два типа файлов: MP3 и WAV. Возможно, в будущем сфера применения будет расширена, но пока этого достаточно, тем более, что формат WAV популярен и несжат, а значит, сохраняет полное качество.

Ладно, без лишних слов, давайте перейдем к образцам записей моего голоса. Я выбрал три ситуации и в каждой из них записывал речь простейшими методами. Известно, что «очистить» и улучшить звук, записанный с помощью хорошего микрофона, – не искусство. Сложнее становится, когда кто-то, например, записывает материал на смартфон в полевых условиях. Во-первых: я записал свой голос на микрофон своего телефона Google Pixel 6a, сидя в машине. В данном случае была некоторая реверберация и мне было любопытно, каким будет результат работы ИИ. Сможет ли он на самом деле устранить его и заставить человеческую речь звучать так, как если бы она была записана на более качественном оборудовании? Ниже я включил ту же запись, только первая — оригинальная (записанная на смартфоне), а вторая — улучшенная с помощью алгоритмов Enhance Speech в Adobe Podcast. Послушайте оба и посмотрите, сможете ли вы услышать разницу. Внимание! Я настоятельно рекомендую использовать для этого наушники и увеличить громкость, чтобы фоновый шум и реверберация были слышны при первой записи.

На мой взгляд, разница существенная. Это к лучшему? Судите сами. Конечно, функция Enhance Speech в Adobe Podcast значительно снизила реверберацию и шум уличного движения снаружи автомобиля (от себя добавлю, что окна и двери в машине были закрыты, а вентиляция отключена). Первое впечатление — функция ANC в наушниках включена. Сам голос на самом деле звучит четче и сильнее, но в то же время надо признать, что некоторые звуки звучат несколько искусственно (особенно это слышно в наушниках). Общее качество, конечно, выше, особенно если учесть, что запись производилась с помощью микрофона телефона, который находился почти в метре ото рта. Думаю, если бы я записывал в аналогичных условиях более качественным микрофоном, пусть даже внешним петличным, помимо «очистки» фона я мог бы рассчитывать на гораздо более привлекательный, естественный по звучанию голос.

Другой пример представляет собой более сложную задачу для алгоритмов ИИ. Здесь речь также была записана простым микрофоном смартфона, но в непосредственной близости от оживленной улицы и в ветреный день. Отчетливо слышен шум проезжающих мимо транспортных средств и другие шумы, а также помехи, вызванные движением воздуха. Даже в оригинале человеческий голос понятен, но звучит все это не так уж и хорошо. Сможет ли Enhance Speech справиться с этой сложной ситуацией? Сравните два видео ниже и судите сами. На мой взгляд, нет никаких сомнений в том, что даже после обработки ИИ фоновые шумы и некоторый шум ветра все еще слышны, но они уменьшились и уже не так сильно мешают. Так что если бы кто-то записал фильм или просто озвучил на смартфон на природе, такая процедура могла бы помочь немного улучшить качество. Тем не менее, я считаю, что алгоритмы не справились с этой задачей идеально. Возможно, когда сервис выйдет из бета-фазы, этот вопрос будет улучшен, но сейчас, в столь непростых обстоятельствах, рассчитывать на удивительно хорошие результаты не приходится.

Третью запись я сделал там же, т. е. на оживленной улице, в достаточно ветреный день, но для записи голоса использовал не сам смартфон, а небольшие беспроводные наушники в паре с ним. Это была модель Samsung Galaxy Buds 2 Pro, которая, на мой взгляд, показала себя в данной ситуации весьма средне. Итак, как же повлияла обработка? Голос стал чище? Сравните образцы ниже и убедитесь сами. На мой взгляд, шум и другие фоновые шумы уменьшились лишь в незначительной степени. Вы все еще можете слышать движение транспорта, а иногда и ветер, мешающий работе микрофона. Однако сам голос был значительно усилен. Алгоритмы ИИ сделали его громче, но с другой стороны, на мой взгляд, в некоторых моментах он начинает звучать искусственно, как будто его сжали или создали каким-то слабым генератором речи.

Итак, как подвести итог тому, что делает Enhance Speech в Adobe Podcast? Лично я считаю, что приведенные выше примеры говорят о том, что в не очень требовательных ситуациях, когда вы имеете дело с реверберацией, поскольку записываете в незатухающем помещении, алгоритмы искусственного интеллекта в описываемом сервисе работают просто хорошо. Они действительно способны устранять отраженное эхо и улучшать звучание человеческой речи, даже если она записана обычным микрофоном, встроенным в телефон. Однако если кто-то хочет как следует «очистить» шум дорожного движения, помехи ветра или другой фоновый шум, на данный момент он не может рассчитывать на хорошие результаты. На данный момент ИИ Adobe пока не может справиться с такими ситуациями. В лучшем случае вы добьетесь незначительного уменьшения нежелательных звуков, но сам голос не будет полностью изолирован и его качество будет оставлять желать лучшего. Напоследок рекомендую посмотреть короткое официальное видео, демонстрирующее возможности Project Shasta (таково было первоначальное название), сосредоточив внимание в основном на фрагменте, начинающемся после первой минуты ролика. Здесь вы можете увидеть, среди прочего: автоматическая транскрипция голоса и возможность редактировать его не в виде звуковых файлов, а в виде текста. Если мы когда-нибудь увидим полную поддержку польского языка в Adobe Podcast, это может оказаться полезным инструментом для некоторых людей.