近日,北京大学王选计算机研究所彭宇新教授团队在细粒度多模态大模型领域取得多项突破性进展,研发并开源全球首个细粒度多模态大模型,提出多款创新算法,同时发表该领域首篇综述论文。相关成果均发表于IEEE TPAMI、CVPR、ICLR等国际顶级期刊和会议,有效破解了多模态大模型“泛化强、细感知弱”的痛点,为其在自动驾驶、医疗影像等实际场景落地提供关键支撑。

当前多模态大模型在通用任务中表现优异,但细粒度感知能力不足,难以区分相似类别、识别微小目标、分析复杂动作,成为其落地核心瓶颈。彭宇新团队长期深耕该领域,针对不同场景痛点定向攻关,形成一系列具有国际影响力的成果。
针对细粒度类别区分难题,团队研发并开源首个细粒度多模态大模型Finedefics,通过多轮交互构建属性知识、指令微调实现数据-知识协同训练,分类准确率达76.84%,较阿里QwenVL-Chat、HuggingFace Idefics2分别提升9.43%、10.89%,成果发表于ICLR 2025。
针对图像微小目标识别问题,团队提出细粒度视觉推理算法DyFo,通过双模型协同模拟人类视觉搜索,准确率达81.15%,较阿里Qwen2-VL提升8.90%。该成果发表于CVPR 2025,并入选大会亮点论文(接收率13.5%)。
针对运动视频人体动作分析难题,团队提出Uni-FineParser评估方法,通过分解动作步骤、量化质量差异实现精准评分,动作得分斯皮尔曼相关系数达95.01%,成果发表于IEEE TPAMI(影响因子18.6)。
此外,团队发表该领域首篇综述论文,剖析了模型架构、数据稀缺、效率平衡三大挑战,从类别、空间、时间维度定义细粒度感知,明确未来研究方向,为全球同行提供重要参考。
全部评论(0条)
①本文由仪器网入驻的作者或注册的会员撰写并发布,观点仅代表作者本人,不代表仪器网立场。若内容侵犯到您的合法权益,请及时告诉,我们立即通知作者,并马上删除。
②凡本网注明"来源:仪器网"的所有作品,版权均属于仪器网,转载时须经本网同意,并请注明仪器网(www.yiqi.com)。
③本网转载并注明来源的作品,目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品来源,并自负版权等法律责任。
④若本站内容侵犯到您的合法权益,请及时告诉,我们马上修改或删除。邮箱:hezou_yiqi
参与评论
登录后参与评论