Ученые из НИТУ МИСИС и НИУ ВШЭ представили инновационную нейронную сеть LAPUSKA (LaPlacian UpScale Knowledge Alignment), которая обещает значительное улучшение качества изображений. Этот новый подход в обработке изображений ускоряет процесс вдвое по сравнению с аналогичными моделями. По прогнозам, разработка поможет улучшить распознавание лиц и повысить точность обработки изображений.
Анализ и интерпретация изображений с помощью машинного зрения уже широко используется в медицине, сельском хозяйстве, транспорте и развлекательной индустрии. Одним из перспективных направлений развития этой технологии является супер-разрешение изображений, не только увеличивающее размер, но и значительно улучшающее их качество. Это открывает новые возможности для получения большего количества информации и деталей, ранее недоступных человеческому глазу при низком разрешении фотографий.
Технология получения изображений со сверхвысоким разрешением является перспективной в различных областях. Она помогает увеличить качества снимков с видеокамер для распознавания лиц или номеров автомобилей в области безопасности. Также такая нейросеть поможет улучшить качество фотографий, восстанавливая старые или поврежденные снимки, а также изображения, сделанные в сложных условиях освещения или на большом расстоянии.
Существующие модели для получения изображений высокого разрешения имеют определенные недостатки. Например, популярные нейронные модели SRGAN и LapSRN требуют больших вычислительных мощностей и объема памяти, что ограничивает их доступность и требует значительного времени для обработки изображений. Модель LapSRN создает более гладкие изображения, но уменьшает некоторые мелкие детали. В свою очередь, SRGAN сохраняет много цифрового шума.
Новая архитектура нейронной сети LAPUSKA объединяет лучшие характеристики моделей SRGAN и LapSRN, избегая их недостатков. Она предлагает качество, сопоставимое с LapSRN, но обрабатывает изображения вдвое быстрее.
Илья Макаров, соавтор исследования и директор центра искусственного интеллекта НИТУ МИСИС, рассказал, что архитектура LAPUSKA включает несколько сверточных слоев разной структуры, базируясь на SRGAN, показывающей лучшие результаты обучения. Она использует стратегию пост-апсемплинга для извлечения признаков из входных данных и масштабирования изображения в конце процесса. Разработчики использовали датасет DIV2K с 800 обучающими цветными изображениями RGB HR и соответствующими уменьшенными изображениями LR с различными коэффициентами.
Исследование проводилось в рамках стратегического проекта НИТУ МИСИС «Цифровой бизнес» по программе Минобрнауки России «Приоритет 2030».
Сейчас на главной
Региональный лайнер вышел на завершающую стадию лётных испытаний
Пиковая нагрузка кибератаки на «Орион Телеком» составила 297 Gbps
Новое приложение позволяет совершать покупки без телефона
Проект находится на завершающей стадии подготовки, уточнили в Минцифры
Новый сервис тестируется в мобильном приложении
Российские авиакомпании всё ещё эксплуатируют свыше 100 самолётов Airbus, как это отразится на них?
До конца года городской парк пополнится 15 экологичными автобусами
Авиакомпании получат российские самолёты после сертификации в 2026 году
Только локализованные или отечественные приложения для контроля диабета смогут работать при ограничениях интернета
Авиапарк оценили как минимум в 20 машин
Отечественный двигатель 4-го поколения отработал без замечаний
Беспилотники используются для тактической разведки, установки мин и точечного поражения вражеских объектов