近日,2022年度國際計算機視覺與模式識别會議CVPR (IEEE Conference on Computer Vision and Pattern Recognition) 在美國新奧爾良以線上線下混合形式舉行。CVPR是由IEEE舉辦的計算機視覺和模式識别領域的頂級會議,在今年剛統計的谷歌學術期刊和會議影響力排行榜中,CVPR保持總榜第4,僅次于Science,是人工智能領域影響力最高的會議。
谷歌學術2022學術指标
本次CVPR共收到8161篇投稿,2064篇論文被接收,其中340篇優秀的論文被接收為Oral論文,僅占總投稿數量的4%。我校伟德官网下app官方网站,鮑秉坤教授團隊的基于文本生成圖像的研究成果(DF-GAN: A Simple and EffectiveBaseline for Text-to-Image Synthesis)被大會接收為口頭彙報論文(Oral Presentation),論文一作、我院博士生陶明同學參加了會議,并于會上分享了研究成果以及讨論了文本到圖像生成的應用與未來。
DF-GAN提出後,對文本到圖像生成領域産生了巨大的影響,截至目前谷歌學術引用近百篇,被國際知名機構包括OpenAI、Facebook、Google、微軟、智源、百度、字節、京東、達摩院等正面評價或擴展,并引發了大量的跟随研究,包括DTGAN、SSA-GAN、OptGAN、CIGLI、SketchBird、Vastr-GAN、RAT-GAN等模型。
論文被選為口頭彙報
會議現場的海報
陶明同學在線上會議進行論文分享
論文介紹
論文題目:DF-GAN: A Simple and EffectiveBaseline for Text-to-Image Synthesis
作者:陶明,唐浩,吳飛,荊曉遠,鮑秉坤,徐常勝
通訊作者:鮑秉坤
論文概述:
根據文本生成圖像任務要求計算機能夠由文本生成對應的圖片,由于其為創作帶來的便利性,使其在互聯網時代有着重要的研究價值和意義。該任務會給定一段文本,要求模型能夠充分理解文本中蘊含的語義信息,并将文本中的語義信息映射為圖像中對應的視覺信息,從而得到真實且符合文本描述的圖像。
利用生成對抗網絡進行對抗學習是解決該任務的主要方法之一,在對抗學習中,判别器需要區分生成圖片和真實圖片,而生成器則需要生成足夠逼真的圖片,使得判别器無法區分生成的和真實的圖片,通過生成器和判别器之間的互相博弈,從而提高生成圖片的質量。
該論文提出了一個簡單且有效的一階段文本到圖像生成框架,它可以直接由文本生成高分辨率的圖片,避免了多階段框架帶來的特征糾纏問題。在生成器中,提出了一個深度文本-圖像融合模塊,通過堆疊基于文本的圖像仿射變化,加深了文本與圖像的特征融合,從而使得文本信息能夠更好地表達在圖片中。在判别器中,提出了一個目标感知判别器,它由兩部分組成,包括一個匹配感知梯度懲罰策略和一個單路判别器。這兩個模塊構造了一個利于收斂到目标圖片的判别器損失曲面,使得模型可以更快且穩定地收斂,從而使得模型得到更好的優化。通過定性和定量的實驗表明,所提出的方法在簡化當前生成網絡的同時,優化了生成圖像的質量,并且提高生成圖像與文本的匹配度。
(撰稿:張濤 編輯:呂瑞蘭 審核:徐雷)