11月1日上午,北京大学王选计算机研究所彭宇新教授应邀访问软件学院,为软件学院师生作了题为“细粒度多模态场景理解与生成”的学术报告。
彭宇新教授在报告中指出,场景是现实世界的基本组成元素,对场景的准确理解与生成是推动通用大模型落地的重要应用之一。与传统的粗粒度、单模态的场景理解与生成相比,细粒度、多模态的场景理解与生成能够更加精确地描述现实世界,并充满挑战性。细粒度多模态场景理解与生成的目标是识别场景中不同模态的对象的细粒度信息,从而实现场景的深入理解,并生成语义可控、内容真实的场景。
彭宇新教授还分享了其团队在该领域的最新研究进展,包括刚刚发表于ACM MM 2024会议的6篇论文。这些工作涵盖了细粒度视觉提示学习、细粒度在线增量学习、开放词汇目标检测、基于文本的3D场景生成等多个方向,对未来细粒度多模态场景理解与生成的发展方向与趋势进行了讨论与展望。
彭宇新,北京大学二级教授、博雅特聘教授、博士生导师,国家杰出青年科学基金获得者,国家万人计划科技创新领军人才,科技部中青年科技创新领军人才,863项目首席专家,中国人工智能产业创新联盟专家委员会主任,中国工程院“人工智能2.0”规划专家委员会专家。他还是中国电子学会、中国人工智能学会及中国图象图形学学会的会士,兼任中国图象图形学学会副秘书长、提名与奖励委员会副主任,以及北京图象图形学学会副理事长。
(文/图:魏广顺 责任编辑:周元峰)