Ahora entiende ruso: Kandinsky Image ha aprendido a generar imágenes con inscripciones en cirílico

La red neuronal ha aprendido a escribir sin errores y en cualquier superficie

Sber ha lanzado una actualización del modelo de generación de imágenes Kandinsky, que ahora puede generar inscripciones en cirílico teniendo en cuenta la textura de las superficies.

Los desarrolladores entrenaron la red neuronal utilizando más de 10 millones de imágenes con texto ruso escrito de diversas maneras. Esto permitió al modelo aprender a distinguir entre letras mayúsculas y minúsculas.

Primero, Kandinsky fue entrenado para generar texto cirílico de forma nativa, sin utilizar módulos adicionales, y luego fue reentrenado en un conjunto de datos experto, cuidadosamente seleccionado y verificado por diseñadores y artistas.

El nuevo modelo todavía tiene dificultades en varias categorías de solicitudes: las inscripciones largas, las inscripciones con una mezcla de cirílico y latín, la descripción detallada de la entidad o el fondo pueden no funcionar a la primera. Las solicitudes cortas sin indicar el fondo, la escala y el ángulo funcionan más rápido y con mayor calidad, pero aquí el modelo fantaseará por sí solo, lo que, sin embargo, a menudo es para mejor.

Indicar la textura y la iluminación ayuda a crear variaciones interesantes de inscripciones: piedras, agua, hielo, vidrio, mermelada, madera vieja, musgo, cuero lacado, mesa brillante. Se pueden agregar relieve o volumen a las letras. Para texturas transparentes, se puede especificar "luz de fondo", "contraluz": las letras se volverán translúcidas. Y para mayor efecto, se puede agregar humo o niebla.

Ya puedes probar el modelo por ti mismo en el bot de Telegram Kandinsky y en todos los bots de GigaChat (Telegram, ВКонтакте, Одноклассники, Max), así como en la versión web.

Nosotros también lo probamos y nos gustó el resultado.

Lee más materiales sobre el tema:

Fuentes
Sber

Ahora en la página principal