Теперь умеет по-русски: Kandinsky Image научился генерировать изображения с надписями на кириллице

Нейросеть научилась писать без ошибок и на любых поверхностях

Сбер выпустил обновление модели генерации изображений Kandinsky, которая теперь умеет генерировать надписи на кириллице с учётом текстуры поверхностей.

Разработчики обучили нейросеть, используя более 10 миллионов изображений с русским текстом, написанным различными способами. Это позволило модели научиться различать печатные и прописные буквы.

Сначала Kandinsky обучался генерировать кириллический текст нативно, без использования дополнительных модулей, а потом его дообучили на экспертном датасете, тщательно отобранном и проверенном дизайнерами и художниками.

У новой модели все ещё возникают трудности в ряде категорий запросов — длинные надписи, надписи со смесью кириллицы и латиницы, подробное детальное описание сущности или фона могут получаться не с первого раза. Короткие запросы без указания фона, масштаба и ракурса получаются быстрее и качественней, но тут модель будет фантазировать сама, что, впрочем, часто только к лучшему.

Указание текстуры и освещения помогает создать интересные вариации надписей — камни, вода, лёд, стекло, мармелад, старая древесина, мох, лаковая кожа, глянцевый стол. Буквам можно добавить рельеф или объём. Для прозрачных фактур можно указать «контровой свет», «контражур» — буквы станут полупрозрачными. А для эффектности можно добавить дым или туман.

Потестировать модель самостоятельно уже можно в Telegram-боте Kandinsky и во всех ботах GigaChat (Telegram, ВКонтакте, Одноклассники, Max), а также в web-версии.

Мы тоже попробовали и результат нам понравился.

Читайте ещё материалы по теме:

19 июн 15:51 Новости
Игры снова можно оплатить из России: T2 открыла оплату через СБП для Steam и PlayStation Пользователи любых операторов смогут пополнять аккаунты и покупать внутриигровую валюту
19 июн 15:38 Новости
Один портал вместо десятка нейросетей: Ростелеком раскрыл «Нейрошлюз» Сервис обрабатывает 360 тысяч запросов в месяц и экономит сотрудникам до 40% времени на рутине
19 июн 10:06 Новости
Браузеры перестанут открывать: японцы начали массово отзывать цифровые паспорта крупных российских сайтов Chrome, Safari и Firefox начнут блокировать сайты «Роснефти», «Газпромбанка» и других гигантов из-за требований CA/B Forum.
19 июн 09:21 Новости
Каждый третий блогер в подписках у россиян к 2030 году может оказаться ИИ-персонажем Только 28% опрошенных уверены, что смогут отличить виртуального автора от живого человека
18 июн 15:56 Новости
Ближе к Китаю, дальше от Европы: «МегаФон» изменил маршрут международного трафика Новый канал из Хабаровска в Гонконг должен ускорить WeChat, Taobao, AliExpress и другие платформы
Источники:
Сбер

Сейчас на главной