报告时间:2024年12月30日(周一)10:00
报告地点:计算机与人工智能学院D303
报告专家:刘进,武汉大学教授
报告内容:跨模态食谱检索是一项新兴的视觉-文本检索任务,旨在将食物图片与相应的食谱进行匹配。尽管大规模视觉-语言预训练(VLP)模型在广泛的下游任务上取得了令人印象深刻的性能,但由于以下两个问题,它们在这项跨模态检索任务上的表现仍然不尽如人意:(1)食物图片和食谱的特征需要对齐,仅仅微调预训练VLP模型的图像编码器并不能明确帮助实现这一目标。(2)食谱中的文本内容比VLP模型预训练语料库中的文本标题更有结构,这阻止了VLP模型适应食谱检索任务。在本文中,我们提出了一种组件感知的实例特定提示学习(CIP)模型,该模型充分利用了大规模VLP模型的能力。CIP使我们能够学习结构化的食谱信息,从而允许在不进行微调的情况下对齐视觉-文本表示。此外,我们构建了一个基于层次变换器的食谱编码器,称为自适应食谱合并器(ARM),鼓励模型学习更有效的食谱表示。在公共Recipe1M数据集上的广泛实验表明,我们提出的方法通过超越最先进方法在跨模态食谱检索任务上显示出优越性。
专家简介:
刘进教授,武汉大学计算机学院教授、博士生导师,工业软件及产业应用协同研究中心主任,武汉大学软件工程国家重点实验室软件工程博士、中科院计算所/自动化所博士后。中国计算机学会软件工程/服务计算专委/标准工作专委委员,中国人工智能学会知识工程与分布智能专业委员,人工智能-食品安全康健专家委员会常务委员,以及中铁科工国家企业技术中心中核集团DCS检修中心技术专家,是智能软件方向(“人工智能”2030、国家重点研发计划“工业软件”、长江学者、国家“111计划”、中国工程院专家库候选、广东省杰青)评审专家主持国家重点研发计划课题1项、国家自科基金项目4项;承担国家自科基金国际合作项目3项、服务计算国家自科基金重点项目1项,发表论文180余篇,科研成果获全国商业科技进步特等奖。