Выразительные субтитры теперь доступны на YouTube. Искусственный интеллект распознает тон, крики и вздохи в видеороликах
Субтитры в фильмах всегда были функциональными, но безжизненными. Сухие слова на экране, передающие содержание, но теряющие эмоции. YouTube меняет это. Компания запустила на всех устройствах систему Expressive Captions, которая использует искусственный интеллект для анализа не только того, что говорят люди, но, прежде всего, того, как они это говорят. Крики переведены заглавными буквами, вздохи записаны в скобках, на заднем плане — аплодисменты. Пока на английском.
Expressive Captions использует искусственный интеллект для передачи не только слов, но и тона, громкости и эмоционального контекста. Это настоящая революция в доступности видеоконтента.
YouTube Recap — итоги 2025 года выходят на платформу Google. Новая функция скоро появится в Польше
Выразительные субтитры теперь работают с видео YouTube на английском языке, загруженными после октября этого года. YouTube объявляет, что постепенно расширит эту функцию, включив в нее дополнительные материалы. Система искусственного интеллекта в реальном времени анализирует аудиодорожку, распознавая громкость голоса (слова, написанные заглавными буквами, обозначают крик), эмоциональный тон высказывания (помеченный как (радость) или (печаль)) и окружающие звуки — вздохи, вздохи, аплодисменты и другие звуки, ранее терявшиеся при транскрипции. Это как разница между чтением сухого сценария и просмотром театрального спектакля. Эмоциональный контекст меняет все.
Конец эпохи WebGL. Технология WebGPU обеспечивает графику уровня настольного компьютера для каждого крупного веб-браузера.
Решение не появилось из ниоткуда. Выразительные субтитры — это развитие функции Live Caption, которую Google представила в Android еще в 2020 году как инструмент для автоматического создания субтитров для любого контента, воспроизводимого на устройстве. Первоначально это были простые дословные транскрипции, но в декабре 2024 года Android получил улучшенную версию с распознаванием эмоций и тонов — той же технологией, которая сейчас появляется на YouTube. Для глухих и слабослышащих людей это огромный шаг вперед, потому что они наконец-то смогут уловить сарказм, нервозность или энтузиазм, не догадываясь. В то же время функция полезна всем, кто смотрит фильмы без звука даже в общественном транспорте, в офисе или поздно вечером.
Burger King тестирует ИИ в автосервисе в Польше. VOX AI призван заменить сотрудников за стойкой. Будем надеяться, что это не закончится, как Макдональдс.
Для пользователей это означает реальное улучшение качества видеоконтента. Выразительные субтитры устраняют один из важных барьеров цифровой доступности — отсутствие эмоционального контекста, который является основой человеческого общения. На практике это разница между буквальным пониманием и пониманием намерения. YouTube впереди конкурентов. Netflix и другие стриминговые платформы по-прежнему предлагают традиционные субтитры, эмоциональный контекст которых зависит исключительно от качества работы профессиональных транскрибаторов. Здесь у нас есть автоматизация в реальном времени, доступная каждому создателю без каких-либо дополнительных затрат. В долгосрочной перспективе это может определить новый стандарт в отрасли. Если YouTube покажет, что ИИ может эффективно передавать эмоции в субтитрах, другим платформам придется последовать этому примеру. Вопрос в том, когда система начнет поддерживать другие языки, кроме английского, в том числе и польский?
Источник: Официальный блог YouTube, Блог Google.