Ученые из НИТУ МИСИС и НИУ ВШЭ представили инновационную нейронную сеть LAPUSKA (LaPlacian UpScale Knowledge Alignment), которая обещает значительное улучшение качества изображений. Этот новый подход в обработке изображений ускоряет процесс вдвое по сравнению с аналогичными моделями. По прогнозам, разработка поможет улучшить распознавание лиц и повысить точность обработки изображений.
Анализ и интерпретация изображений с помощью машинного зрения уже широко используется в медицине, сельском хозяйстве, транспорте и развлекательной индустрии. Одним из перспективных направлений развития этой технологии является супер-разрешение изображений, не только увеличивающее размер, но и значительно улучшающее их качество. Это открывает новые возможности для получения большего количества информации и деталей, ранее недоступных человеческому глазу при низком разрешении фотографий.
Технология получения изображений со сверхвысоким разрешением является перспективной в различных областях. Она помогает увеличить качества снимков с видеокамер для распознавания лиц или номеров автомобилей в области безопасности. Также такая нейросеть поможет улучшить качество фотографий, восстанавливая старые или поврежденные снимки, а также изображения, сделанные в сложных условиях освещения или на большом расстоянии.
Существующие модели для получения изображений высокого разрешения имеют определенные недостатки. Например, популярные нейронные модели SRGAN и LapSRN требуют больших вычислительных мощностей и объема памяти, что ограничивает их доступность и требует значительного времени для обработки изображений. Модель LapSRN создает более гладкие изображения, но уменьшает некоторые мелкие детали. В свою очередь, SRGAN сохраняет много цифрового шума.
Новая архитектура нейронной сети LAPUSKA объединяет лучшие характеристики моделей SRGAN и LapSRN, избегая их недостатков. Она предлагает качество, сопоставимое с LapSRN, но обрабатывает изображения вдвое быстрее.
Илья Макаров, соавтор исследования и директор центра искусственного интеллекта НИТУ МИСИС, рассказал, что архитектура LAPUSKA включает несколько сверточных слоев разной структуры, базируясь на SRGAN, показывающей лучшие результаты обучения. Она использует стратегию пост-апсемплинга для извлечения признаков из входных данных и масштабирования изображения в конце процесса. Разработчики использовали датасет DIV2K с 800 обучающими цветными изображениями RGB HR и соответствующими уменьшенными изображениями LR с различными коэффициентами.
Исследование проводилось в рамках стратегического проекта НИТУ МИСИС «Цифровой бизнес» по программе Минобрнауки России «Приоритет 2030».
Сейчас на главной
Протяжённость пути из Хайдарабада до Жуковского составила около 7000 км
Аппарат можно объединять в грузовые платформы
Дженерик под названием «Арцетукс» поможет при лечении онкологии с метастазами
Средняя стоимость не новой Granta составляет 567 тысяч рублей
Судно способно толкать составы из 4 барж водоизмещением до 15 100 т
Государственную информационную систему закрыли в связи с неэффективностью
«Кукурузник» сможет полететь на силовой установке от Ка-62
Ожидаемый объём производства — до двух миллионов плат шестого класса точности ежегодно
Псевдоученики рассылают репетиторам фальшивые ссылки
Всего за первый месяц нового года россияне приобрели 81 942 легковые машины
«Муроммашзавод» будет собирать рулевые рейки с электроусилителем
Три специализированных перегрузчика СММ с вылетом 32 м обеспечивают надёжную работу в условиях Крайнего Севера