学术动态

学术动态

当前位置: 网站首页-> 学术动态-> 正文

人工智能与大数据安全研究所第十一次研讨会

发布时间:2023-12-27

人工智能与大数据安全研究所第十一次研讨会

时间:2023年12月26日   下午14:00-17:00

地点:广州大学 (大学城校区) 理科南314#

 

报告1:

报告人:谢翊(硕士生)

指导老师:汤茂斌,王洋涛

报告题目:Image-text Retrieval with Main Semantics Consistency

 

在这次的报告中,谢翊同学首先介绍了图文检索领域的背景、研究意义及相关方法。图文检索(ITR)作为计算机视觉和自然语言处理的桥梁,一直是跨模态检索的核心任务。最近几年,将图像和文本映射到一个共同的空间,以建立这两种模态之间的对应关系取得了显著的进展,其中包括全局对齐和局部对齐等方法。然而,由于每个图像中包含的语义丰富,可能导致错误的匹配,使得匹配的文本忽略主要语义而关注次要或其他语义。为了解决这个问题,谢翊同学提出了一种新颖的主语义一致性(MSC)损失函数的语义优化方法。该方法的目标是在检索过程中,将语义上最相似的图像(或文本)排名在前几个位置,以对应于给定的查询。在每个图像-文本对的批次中,首先分别计算图像-图像相似度、文本-文本相似度和图像-文本相似度。然后,通过确保两个图像的文本描述保持高度的语义一致性,使得它们的主要语义高度接近,从而有效地对齐上述相似度。这种方式可以捕捉每个图像的主语义,以更优先地考虑语义上相关的检索结果。实验证明,该方法在广泛使用的基准数据集MSCOCO和Flickr30K上取得了最先进的效果。此外,彭伟龙老师针对可视化内容提出了关于匹配问题的问题,特别是在局部对齐中涉及的摩托车和自行车的内容。杨柳老师对三个矩阵的相似度也提出了其他的计算方法,为进一步研究提供了有价值的思考。

 

11A7B0

 

 

报告2:

报告人:陈庆丰(硕士生)

指导老师:方美娥,彭伟龙

报告题目:基于多粒度线索注入Transformer人物交互检测

 

在本次的报告中,陈庆丰同学汇报的内容是自己在人物交互检测领域的研究成果,首先介绍了人物交互检测的研究背景和应用场景,并详细介绍了HOI检测的相关方法,包括了一阶段、二阶段和基于Transformer的方法。同时指出了当前方法的局限性并引述出自己的研究方法。针对现有Transformer方法没有充分利用额外信息的问题,陈庆丰同学提出了基于多粒度线索注入Transformer方法,设计了一种新的 Transformer 架构,该架构包含用于两阶段 HOI 检测的多粒度线索。同时构造了具有三维姿态信息的查询,促进了上下文特征的精细化。该方法在HICO-DET和V-COCO数据集取得了最优的效果。最后,老师与同学对此提出了一些疑惑和宝贵的指导意见。


14FB3E