Yandex AI Rendering Technology генерирует изображения и анимацию по текстовым запросам. В компании говорят, что сервис «понимает российский культурный код» и знает важные символы, персонажей и личностей из российской истории.
Сервис создает изображения и анимацию методом каскадной диффузии, поясняют в компании. Сначала нейросеть генерирует картинки и кадры по запросу пользователя, после этого поэтапно увеличивает их разрешение, наполняя деталями.
Глубокая детализация и реалистичность — преимущество YandexART перед предыдущим поколением диффузионной модели, которая была внедрена в «Шедеврум», говорят в компании.
Для улучшения качества работы нейросети разработчики увеличили размер обучающего набора данных в 1,5 раза — до 330 млн картинок с текстовым описанием. А благодаря новому алгоритму сервис лучше понимает запрос пользователя.
Также для повышения качества работы используется дообучение с подкреплением. Эксперты в ручном режиме отсматривают сгенерированный нейросетью контент и выделяют удачные и неудачные варианты.
Технологию уже внедрили в сервисы компании, например, в «Шедеврум». А в «Яндекс.Бизнесе» нейросеть помогает иллюстрировать рекламу. В будущем YandexART появится в «Яндекс.Клавиатуре».
Ранее «Сбер» научил свою нейросеть Kandinsky генерировать анимационные видео по текстовому запросу. Kandinsky 2.2. создает четырехсекундные ролики разрешением 640×640.