Исследователи Сбера разработали GigaEmbeddings — модель, которая улучшает работу с русскоязычными текстами. Она основана на GigaChat-3B и использует трёхэтапное обучение: предварительную подготовку, точную настройку и мультизадачное обучение. Архитектура оптимизирована, что сократило параметры нейросети на 25% без снижения качества.
До сих пор бизнесу не хватало эффективных инструментов для анализа текстов на русском. Существующие решения либо требовали больших мощностей, либо плохо справлялись с поиском и классификацией. GigaEmbeddings решает эти проблемы. Модель подходит для умного поиска в e-commerce, создания чат-ботов с расширенными функциями, анализа обращений клиентов и генерации рекомендаций.
Сегодня мы закрываем критически важную потребность рынка в качественных NLP-решениях для русского языка. Наша комплексная платформа позволяет бизнесу радикально оптимизировать все процессы работы с текстами — от базового поиска и рекомендательных алгоритмов до передовых RAG-систем в чат-ботах. [...] Компании наконец-то получают единое решение — им больше не нужно собирать функционал по частям из зарубежных продуктов.
Модель доступна на GitVerse и HuggingFace. Разработчики ожидают, что она станет стандартом для финансового сектора, ретейла и госуслуг.
Читайте ещё материалы по теме:
Платформа для безопасного внедрения ИИ в госструктуры и корпорации разработана в СПбГУ «ЛЭТИ»
Российская система сборки ПО от «НТЦ ИТ РОСА» вошла в реестр Минцифры