Ученые из НИТУ МИСИС и НИУ ВШЭ представили инновационную нейронную сеть LAPUSKA (LaPlacian UpScale Knowledge Alignment), которая обещает значительное улучшение качества изображений. Этот новый подход в обработке изображений ускоряет процесс вдвое по сравнению с аналогичными моделями. По прогнозам, разработка поможет улучшить распознавание лиц и повысить точность обработки изображений.
Анализ и интерпретация изображений с помощью машинного зрения уже широко используется в медицине, сельском хозяйстве, транспорте и развлекательной индустрии. Одним из перспективных направлений развития этой технологии является супер-разрешение изображений, не только увеличивающее размер, но и значительно улучшающее их качество. Это открывает новые возможности для получения большего количества информации и деталей, ранее недоступных человеческому глазу при низком разрешении фотографий.
Технология получения изображений со сверхвысоким разрешением является перспективной в различных областях. Она помогает увеличить качества снимков с видеокамер для распознавания лиц или номеров автомобилей в области безопасности. Также такая нейросеть поможет улучшить качество фотографий, восстанавливая старые или поврежденные снимки, а также изображения, сделанные в сложных условиях освещения или на большом расстоянии.
Существующие модели для получения изображений высокого разрешения имеют определенные недостатки. Например, популярные нейронные модели SRGAN и LapSRN требуют больших вычислительных мощностей и объема памяти, что ограничивает их доступность и требует значительного времени для обработки изображений. Модель LapSRN создает более гладкие изображения, но уменьшает некоторые мелкие детали. В свою очередь, SRGAN сохраняет много цифрового шума.
Новая архитектура нейронной сети LAPUSKA объединяет лучшие характеристики моделей SRGAN и LapSRN, избегая их недостатков. Она предлагает качество, сопоставимое с LapSRN, но обрабатывает изображения вдвое быстрее.
Илья Макаров, соавтор исследования и директор центра искусственного интеллекта НИТУ МИСИС, рассказал, что архитектура LAPUSKA включает несколько сверточных слоев разной структуры, базируясь на SRGAN, показывающей лучшие результаты обучения. Она использует стратегию пост-апсемплинга для извлечения признаков из входных данных и масштабирования изображения в конце процесса. Разработчики использовали датасет DIV2K с 800 обучающими цветными изображениями RGB HR и соответствующими уменьшенными изображениями LR с различными коэффициентами.
Исследование проводилось в рамках стратегического проекта НИТУ МИСИС «Цифровой бизнес» по программе Минобрнауки России «Приоритет 2030».
Сейчас на главной
Проект реализуется совместно с китайским холдингом Famsun
Регулятор напомнил, что доступ к сервису ограничен из-за распространения запрещённого контента и нарушений законодательства
Индия рассматривает аналогичный угол наклонения для своего проекта
Минцифры РФ предложило расширить список юридически значимых электронных документов
Судно проекта КСП 01 строят в рамках программы «Квоты под киль»
Проект 12700 разработали инженеры КБ «Алмаз»
Минцифры заявило о постепенном отказе от СМС-кодов
Официальный канал президента России Владимира Путина стал первым миллионником на платформе
Регион использует дроны для обработки полей
За третий квартал 2025 года зафиксировано более 44 000 случаев заражения смартфонов «NFC-троянами»
Россия готова обеспечить поставку топлива для энергетики страны-партнёра
Научно-производственный комплекс начнёт работу в 2026 году