Alibaba представляет модель искусственного интеллекта Qwen-Image-Layered для разложения изображений на слои RGBA с полной возможностью редактирования

Редактирование изображений с использованием искусственного интеллекта уже много лет сталкивается с одной и той же дилеммой: как изменить выбранные элементы, не нарушая связность всего кадра? Команда Qwen из Alibaba Cloud только что представила решение, которое может полностью изменить правила игры. Модель Qwen-Image-Layered автоматически разлагает плоские растровые изображения на независимые слои RGBA — так же, как это делают профессионалы в Photoshop, но без утомительного ручного выбора.

Модель Qwen-Image-Layered представляет концепцию физической изоляции элементов изображения посредством автоматического разложения на семантически независимые слои RGBA, устраняя фундаментальные ограничения традиционных методов маскировки.

Праздничная пасхалка в ChatGPT. Модель Сора генерирует персонализированное видео с Сантой на основе одного смайлика.

Модель Qwen-Image-Layered пытается решить две фундаментальные проблемы современного редактирования ИИ. Первый — глобальное нарушение консистентности, когда вы изменяете часть изображения, алгоритм часто меняет и области, которых он не должен трогать. Второе — несовершенство методов маскировки, которые регулярно создают артефакты с окклюзиями и размытыми границами. Решение Alibaba — полностью изменить свой подход. Вместо применения масок к плоскому изображению модель разбивает его на слои с помощью метода «чистить лук»где каждый слой содержит информацию о цвете RGB и прозрачности (альфа-канал).

Сам Альтман заявил, что Google может сокрушить OpenAI в 2023 году. OpenAI объявляет состояние повышенной готовности

Технически модель состоит из трёх элементов. RGBA-VAE позволяет ИИ одинаково «видеть» обычные фотографии и прозрачные слои, что предотвращает пустые отверстия и нечитаемые края между слоями. Архитектура VLD-MMDiT поддерживает переменное количество слоев, от 3 до более 10, за один проход без повторения процесса. Обучение было постепенным. Модель сначала научилась генерировать изображения, затем создавать слои и, наконец, освоила разбиение обычных фотографий на независимые элементы. Модель обучалась на данных, экстраполированных из PSD-документов Photoshop, что гарантирует высокое качество послойного семантического разделения.

Sony хочет подвергать ваши игры цензуре. Компания запатентовала систему искусственного интеллекта для автоматической цензуры игрового контента в режиме реального времени.

На практике это означает революцию для пользователя. Вы можете изменить цвета конкретного объекта, заменить символ другим, изменить текст, удалить элементы или масштабировать их без деформации, и все это без риска испортить остальную композицию. Более того, каждый слой можно дополнительно рекурсивно разложить, достигая бесконечной точности редактирования. По сравнению с конкурентами, такими как Adobe Firefly или методами рисования в Stable Diffusion, Qwen-Image-Layered предлагает огромное преимущество, то есть физическую изоляцию компонентов изображения вместо вероятностного маскировки.

Google Disco — новый браузер Chromium с технологией GenTabs, которая превращает вкладки в интерактивные веб-приложения.

Этот подход аналогичен переходу от разрушительного к неразрушающему редактированию, который Photoshop представил два десятилетия назад, только теперь автоматический и на основе искусственного интеллекта. Модель теперь доступна с открытым исходным кодом на GitHub, HuggingFace и ModelScope. В долгосрочной перспективе технология декомпозиции слоев может стать новым стандартом в редактировании графики, заменив традиционные методы маскировки и закрашивания там, где требуется точность и визуальная последовательность.

Источник: Qwen, Reddit, arXiv, AI Base, HuggingFace.