虽然是一个安排在周日下午的讲座,但庆大的会场早早就坐满了人。陆实予和姜豪到达的时候,只能勉强在靠后的区域里找位置。
“实予,你们也来啦。”彭建国猫着腰从过道挤过来,“你们不是才来吧,这活动火得很,我一早来占的座,早说给你们也占上。”
陆实予接过建国递来的会议手册,发现内页被画满了歪歪扭扭的流程图。“我们从外头过来,没事,站着也成。”他瞥见建国T恤上印着的“Hello World”字样已经被洗成“Hello Worl”,补了句,“你跟卢俊一起的么?”
“对对对,”建国挠挠头,“我俩这两天闲下来没事,反而跟其他人对不上节奏,又沦为饭搭子了。”
话没说完就被主持人试麦克风的声音打断。
陆实予和姜豪终于在靠后的两排找到两个分开的位置——左边坐着个正用平板画思维导图的眼镜妹,右边是个抱着三台手机刷arXiv的卷毛男生。
“各位同学请把手机调至静音模式。”主持人敲了敲话筒。
投影仪在幕布上投出“多模态大模型:机遇与挑战”的标题,庆大AI4S研究院院长张明宇教授大步走上讲台,声音像编译成功的代码般清晰有力。
“大模型作为核心驱动力,通过千亿级参数和海量跨模态数据训练,涌现出惊人的泛化能力。”他身后的PPT翻到一页满是数学公式的幻灯片,“然而,挑战同样显著。”幕布切换成红色警示风格的幻灯片,“如何解决模态间的数据偏差?如何降低训练成本?伦理上又该如何应对深度伪造等风险?”
会场响起一片窸窣的讨论声。
接下来的几位学者轮番上台。剑桥来的Viswanathan教授演示了用扩散模型生成分子结构的新方法;MIT的华人研究员林晓展示了如何用强化学习优化多模态对齐。
“现在进入交流环节。”主持人话音刚落,前排京大的李教授就站了起来,银发在灯光下闪闪发亮。
“关于张院长提到的模态偏差问题,”李教授的声音像他的代码一样干净利落,“我认为根本症结在于表征空间的拓扑结构不匹配。视觉模态的局部线性与语言模态的离散性导致嵌入空间存在不可微点……”
张教授接过话筒:“李老说得很好,但我们团队的最新研究表明,通过引入对比学习损失函数,可以构建统一的黎曼流形。”
两位泰斗的语速越来越快,台下学生们像观看网球比赛般左右摆头,姜豪悄悄给陆实予发微信:【我赌五毛钱张教授会用那个著名的‘火锅理论’反击】
果然,张教授突然拿起跟前的马克笔:“这就好比吃火锅——”会场顿时响起会意的笑声,“你不能要求四川人放弃麻辣,也不能要求广东人放弃鲜甜,但可以通过设计多层级调料碗……”
李教授随即扶了扶眼镜,“确实是个生动的比喻,但火锅类比忽略了一个关键,真正的多模态融合应该是分子料理级别的重构,而不是简单的物理混合。”
陆实予前方扎马尾的女生正用手机直播这场“巅峰对决”。
“李教授这个拓扑流形理论简直绝了!”后排突然传来一个清亮的声音。陆实予回头,一个穿着京大文化衫的男生正激动地跟同伴比划,约莫一米八的个子,一双闪着精光的眼睛,还有几分眼熟,“张教授的‘火锅理论'虽然形象,但根本没法解决跨模态的语义坍缩问题。”
前排扎马尾的女生突然转身:“但张教授的团队在CVPR上发表的实验证明,”女生语速飞快,“他们的跨模态蒸馏框架在MS-COCO数据集上取得了SOTA结果。数据不会说谎,不是吗?”
余岳从背包里取出一个平板电脑。他的手指在屏幕上快速滑动,调出一组复杂的数据图表:“那篇论文的baseline有问题。”他指着其中一条曲线,“他们用的评估指标过度偏向视觉模态,就像,”
“就像让一个四川人评判广东靓汤的辣度标准?”陆实予突然接话,声音不大却足够清晰。
余岳的眼睛亮了起来,他仔细打量着眼前这个穿着简单白衬衫的庆大学生:“有意思的类比。你是?”
“陆实予,庆大计算机系。”陆实予简短地自我介绍。
这个名字着实有点耳熟,但一时又没想起来,“我叫余岳,今年刚上研一。既然你提到了评估标准的问题,那你怎么看李教授刚才说的语义坍缩?”
陆实予沉思片刻:“我认为问题不在于流形结构本身,而在于我们试图用单一度量来描述多模态关系。”
姜豪也注意到陆实予这边几人热闹的交流:“行啊,咱们两校的交流从台上深入到台下了呀。”
在扎马尾的女生与余岳的讨论愈发升级的时候,她的同伴又在旁边添油加醋,“这位同学,照这个逻辑,你们京大是觉得自己的多模态研究已经稳压庆大一头了?”
余岳推了推眼镜,突然露出一个真诚的笑容:“我想说的是,庆大的食堂确实比我们京大好,这点我们甘拜下风。”
周围突然爆发出一阵笑声。