主要从事多模态大模型、航空智能、具身无人机等方向的研究,关注真实复杂场景中的视觉理解、智能航空安全监测、遥感理解、城市安防感知等。目前所在团队为多模态增强智能实验室(MAIL)。在顶级期刊及会议发表论文 80 余篇,包括 T-PAMI、IJCV、T-IP、CVPR、NeurIPS、ICLR、ACL 等,谷歌学术被引 5800 次。
- 多模态大模型:视觉语言模型、多模态生成、模型安全、面向具身场景的感知理解。
- 航空智能:航空器安全监测、长时序信号分析、具身无人机。
- 视觉理解:语义分割、变化检测、目标计数、持续学习。