【獻禮黨代會 笃行建新功】我院2篇論文被CCFA類會議 ACMMultimedia 錄用

發布時間:2023-08-30浏覽次數:766

  近日,由Association for ComputingMachinery主辦的ACM MM 2023(ACM International Conference onMultimedia, CCF A類會議)公布論文的收錄結果,我院2篇論文被錄用,第一作者分别為多媒體認知計算實驗室2022級博士生餘鵬航與2022級博士生袁博聞。研究内容涵蓋多媒體推薦、低資源視覺問答等多個研究方向,展示了我院多媒體認知計算實驗室在人工智能與多媒體領域的技術能力和學術成果。錄用論文“Multi-View Graph Convolutional Network forMultimedia Recommendation”提出了一種針對多媒體推薦的多視圖圖卷積網絡,使用用戶行為信息作為引導,解決了商品模态噪聲污染問題并增強了模型對用戶偏好的建模能力;錄用論文“Self-PT: Adaptive Self-Prompt Tuning forLow-Resource Visual Question Answering” 提出了針對視覺問答任務的自适應提示學習方法,使用問題-圖像對作為條件生成動态的實例級提示,解決了靜态提示和可見答案間的過拟合問題。

  ACM MM是計算機圖形學與多媒體領域的頂級國際會議,也是中國計算機學會推薦的該領域唯一的A類國際學術會議。本屆ACM MM有效投稿量達3072篇,接收論文902篇,接收率約為29.3%。

論文介紹

1.論文題目:Multi-View Graph Convolutional Network for MultimediaRecommendation

 作者:餘鵬航,譚智一,盧官明,鮑秉坤

 通訊作者:鮑秉坤

 論文概述:

  近年來,多媒體推薦飽受學術界和工業界關注,其基于用戶行為信息和物品多模态信息來建模用戶偏好,從而為用戶推薦感興趣的物品。目前,盡管基于圖卷積神經網絡(GCN)的多媒體推薦方法已經取得了不錯的推薦效果,但他們存在着兩個缺陷:(1)現有方法忽視了物品多模态信息中存在着與用戶偏好無關的噪聲信息。同時,現有基于GCN的方法通常在單一視圖(例如用戶-物品視圖)中建模用戶偏好,這導緻物品多模态特征和用戶行為特征高度耦合,從而使得物品多模态信息中的噪聲将污染用戶行為特征,這導緻了用戶偏好區分度的降低;(2)平等的對待物品不同模态下的信息不足以充分建模用戶偏好。由于用戶在購買物品時對物品不同模态信息關注度不同,因此如果平等的對待物品不同模态下的信息将導緻次優的用戶偏好建模。

  為了解決上述問題,該論文提出了一種針對多媒體推薦的多視圖圖卷積網絡(MGCN)。具體來說,為了避免模态噪聲污染,該論文首先利用用戶行為信息對物品的模态特征進行了淨化。然後,在不同視圖下對行為特征和模态特征進行特征聚合,從而捕獲用戶對于不同模态的偏好特征。進一步的,該論文設計了一個行為感知的融合器,其根據用戶對不同模态的關注度,自适應的融合商品不同模态特征,從而全面地建模用戶偏好。此外,該論文為融合器的訓練設計了一個自監督輔助任務。該任務旨在最大化模态特征與行為特征之間的互信息,以鼓勵模型進一步捕捉行為信息與模态信息之間的相似信息與互補信息。在三個公共數據集上的大量實驗表明,該論文的方法優于現有的多模态推薦方法。

  項目地址:https://github.com/demonph10/MGCN


2.論文題目:Self-PT: Adaptive Self-Prompt Tuning forLow-Resource Visual Question Answering

 作者:袁博聞,遊思思,鮑秉坤

 通訊作者:鮑秉坤

 論文概述:

  視覺問答任務要求計算機能夠根據圖像和文本問題給出相應的文本答案。該任務能夠衡量一個模型的跨模态理解能力,因而在互聯網時代有着重要的研究價值和意義。現如今,預訓練和微調大型跨模态模型在視覺問答任務取得了不錯的效果,但是在低資源場景下的視覺問答任務中,完全微調方法大量消耗計算資源,且容易過拟合可見樣本。以往的提示學習方法雖然減少了微調模型的參數量,但是它們無法在提示編碼期間進行上下文感知,導緻:1)對未見問題類别的泛化能力差;2)參數效率低,增加參數量隻能獲得有限的性能提升。

  為增強模型對未見問題的泛化能力,該論文提出了自适應提示學習方法,使用問題-圖像對作為條件生成動态的實例級提示,解決了靜态提示和可見答案間的過拟合問題。為了進一步減小參數量,該論文提出了超網絡結構與參數低秩分解方法。超網絡結構可以解耦自适應提示學習模塊參數量與提示長度的相關性,使得固定參數量下可以生成任意長度的提示。參數低秩分解方法可以在一個低秩空間中重新表示自适應提示學習模塊的參數,進一步降低模塊參數量。在VQA,GQA,OK-VQA三個視覺問答數據集上,不同可見樣本數量的設置下視覺問答正确率均優于完全微調以及現有的參數高效微調方法。

  項目地址:https://github.com/NJUPT-MCC/Self-PT

 (撰稿:聶凡 編輯:呂瑞蘭 審核:徐雷)


Baidu
sogou