交大要闻
上海交大学子在CVPR 2025 NTIRE挑战赛中获佳绩
近日,国际计算机视觉顶会CVPR 2025的NTIRE(New Trends in Image Restoration and Enhancement)研讨会在美国纳什维尔展开。本届NTIRE 2025研讨会设23个挑战赛,涵盖图像恢复、增强、评估等多个前沿方向,吸引了全球众多知名高校与业界企业团队参与。
上海交通大学集成电路学院(信息与电子工程学院)师生团队在赛道“Efficient Super-Resolution Challenge”(高效图像超分辨率挑战),“Challenge on Short-form UGC Video Quality Assessment and Enhancement Track:Diffusion-based SR”(短视频图像超分辨率挑战)和“Challenge on Short-form UGC Video Quality Assessment and Enhancement Track: Efficient VQA”(高效视频质量评价挑战)分别获得冠亚季军。
高效图像超分辨率赛道:冠军(Winner Award)
团队成员:张耀(22级本科生)、柴歆宁(20级博士生),张宇轩(22级本科生)
指导老师:宋利、程正雪
近年来,随着移动设备的普及,实时图像超分辨率(Super-Resolution, SR)需求激增,用户对高分辨率图像的获取效率与质量提出了更高要求。然而,传统方法在提升分辨率的同时往往伴随计算资源与参数量的显著增加,难以满足移动端低功耗、低延迟的严苛条件。
团队基于低秩自适应(LoRA)技术提出DSCLoRA超分辨率框架,从参数效率与蒸馏优化两方面实现突破:
1.轻量化架构设计:创新性地将LoRA模块嵌入预训练卷积层,通过提出的SConvLB模块实现参数压缩与计算加速,确保模型推理速度、浮点运算次数(FLOPs)及参数量均达到挑战赛约束条件;
2.混合蒸馏训练:采用混合蒸馏策略,融合空间关联性蒸馏损失、像素级蒸馏损失及L1/L2重建损失,通过统一损失函数优化生成质量;
3.零额外成本增强:在不增加参数量与计算开销的前提下,通过知识蒸馏提升模型性能。
短视频图像超分辨率赛道:亚军(Runner-Up Award)
团队成员:梁盈(22级本科生)、汪奕文(23级硕士生)、张宇轩(22级本科生)、柴歆宁(20级博士生)
指导老师:宋利、解蓉、程正雪
图像处理作为计算机视觉领域的核心任务,旨在修复退化内容、填补缺失信息或通过优化感知质量与功能性能提升图像可用性。近年来,随着快手、抖音等短视频平台的爆发式增长,用户生成内容(UGC)的增强技术面临双重挑战:一方面,动态模糊、压缩伪影等复杂退化模式难以通过传统合成数据集建模;另一方面,先进的内容生成模式(如特效叠加)对算法的泛化能力提出更高要求。
团队提出基于扩散模型的超分辨率框架,从数据构建、语义细化到优化质量三方面攻克难题:
1.真实退化建模:通过将竞赛合成数据集与LSDIR数据集结合,针对短视频图像特点施加可控退化处理,构建覆盖合成与真实场景的混合训练集;
2.语义感知重建:引入Stable Diffusion的生成先验能力,结合ControlNet实现空间结构精准对齐,并通过语义分割模型提取高层语义信息,嵌入扩散模型潜空间以指导细节恢复;
3.感知质量优化:平衡短视频图像的画质提升与真实感保持。
高效视频质量评价赛道:季军(3rd Place Award)
团队成员:付康(23级博士生)、曹淋涵(24级硕士生)、张楷伟(20级博士生)、张子澄(22级博士生)
指导老师:翟广涛、孙伟
近年来,随着短视频平台的兴起,用户对短视频质量的感知需求不断提升。短视频视觉质量依赖于拍摄环境、设备性能、压缩处理与增强算法等多种因素,导致其视频质量存在复杂多样的失真类型。面对大规模视频分发与实时应用场景,现有视频质量评价(VQA)模型往往面临“高精度vs高算力”的矛盾,亟需兼具准确性与效率的解决方案。
团队围绕高效VQA关键技术,提出了E-VQA高效视频质量评价框架,全面兼顾评价性能与计算效率:
1.高效视频预处理策略:探索空间分辨率与时间帧采样平衡,采用稀疏关键帧抽取,降低计算负载的同时保留核心质量信息。
2.双分支特征感知架构:创新设计语义感知分支与失真感知分支,充分融合全局语义信息与局部失真特征,实现更全面的质量建模。
3.优化训练与迁移学习:引入PLCC损失与知识蒸馏机制,利用强大教师模型生成伪标签进行预训练,显著提升模型泛化能力与收敛速度。