Ученые из НИТУ МИСИС и НИУ ВШЭ представили инновационную нейронную сеть LAPUSKA (LaPlacian UpScale Knowledge Alignment), которая обещает значительное улучшение качества изображений. Этот новый подход в обработке изображений ускоряет процесс вдвое по сравнению с аналогичными моделями. По прогнозам, разработка поможет улучшить распознавание лиц и повысить точность обработки изображений.
Анализ и интерпретация изображений с помощью машинного зрения уже широко используется в медицине, сельском хозяйстве, транспорте и развлекательной индустрии. Одним из перспективных направлений развития этой технологии является супер-разрешение изображений, не только увеличивающее размер, но и значительно улучшающее их качество. Это открывает новые возможности для получения большего количества информации и деталей, ранее недоступных человеческому глазу при низком разрешении фотографий.
Технология получения изображений со сверхвысоким разрешением является перспективной в различных областях. Она помогает увеличить качества снимков с видеокамер для распознавания лиц или номеров автомобилей в области безопасности. Также такая нейросеть поможет улучшить качество фотографий, восстанавливая старые или поврежденные снимки, а также изображения, сделанные в сложных условиях освещения или на большом расстоянии.
Существующие модели для получения изображений высокого разрешения имеют определенные недостатки. Например, популярные нейронные модели SRGAN и LapSRN требуют больших вычислительных мощностей и объема памяти, что ограничивает их доступность и требует значительного времени для обработки изображений. Модель LapSRN создает более гладкие изображения, но уменьшает некоторые мелкие детали. В свою очередь, SRGAN сохраняет много цифрового шума.
Новая архитектура нейронной сети LAPUSKA объединяет лучшие характеристики моделей SRGAN и LapSRN, избегая их недостатков. Она предлагает качество, сопоставимое с LapSRN, но обрабатывает изображения вдвое быстрее.
Илья Макаров, соавтор исследования и директор центра искусственного интеллекта НИТУ МИСИС, рассказал, что архитектура LAPUSKA включает несколько сверточных слоев разной структуры, базируясь на SRGAN, показывающей лучшие результаты обучения. Она использует стратегию пост-апсемплинга для извлечения признаков из входных данных и масштабирования изображения в конце процесса. Разработчики использовали датасет DIV2K с 800 обучающими цветными изображениями RGB HR и соответствующими уменьшенными изображениями LR с различными коэффициентами.
Исследование проводилось в рамках стратегического проекта НИТУ МИСИС «Цифровой бизнес» по программе Минобрнауки России «Приоритет 2030».
Сейчас на главной
Персонализированные препараты обучат иммунитет пациента бороться с опухолью
Чипы заявлены конкурентами серверных решений от Intel и AMD
Токен занял второе место среди всех активов в сети TRON
Судно проекта 03141 оснащено RSW-танками для хранения улова
Завод «Яковлева» установил окрасочные камеры в Комсомольске-на-Амуре
Представительский седан прошёл полное восстановление и теперь доступен для осмотра в экспозиции музея
Оказалось, всё упирается в SMS, которые тоже больше не приходят
Новая функция позволяет задавать вопросы нейросети прямо во время чтения сайтов
РФ сохраняет лидерство по поставкам вооружений в республику
Модернизация на базе вездехода БАЗ-69092 с колёсной формулой 6×6 увеличила запас хода и скорость машины
Телефонные мошенники охотятся на потенциальных клиентов МФО
Материал, который обычно разлагается сотни лет, оказался уязвим перед насекомыми