斯坦福大学CS25讲座今天:Edward Hu,前OpenAI
今天(周四,5月16日)下午4:30 PDT,@苹果岛(前OpenAI)将在CS25(https://cs25.stanford.edu)进行演讲。讲座将在斯坦福大学盖茨计算机科学大楼(Room B01)现场举行,并通过Zoom进行直播,链接为:https://stanford.zoom.us/j/99922151759?pwd=dW5CcUtVYkNybGZGY0hMWUZtVkZBZz09。
演讲题目:在大语言模型中摊销不可处理的推理
演讲摘要:自回归的大语言模型(LLMs)通过下一个词的条件分布压缩其训练数据中的知识。这限制了对该知识的可处理查询,仅限于从头到尾的自回归采样。然而,许多感兴趣的任务——包括序列续写、填充和其他形式的约束生成——涉及从不可处理的后验分布中采样。我们通过使用摊销贝叶斯推理来解决这一限制,从这些不可处理的后验分布中采样。这种摊销是通过多样性寻求强化学习算法:生成流网络(GFlowNets)对LLMs进行微调在算法上实现的。我们通过实验证明,这种分布匹配范式的LLM微调可以作为最大似然训练和奖励最大化策略优化的有效替代方法。作为一个重要的应用,我们将链式思维推理解释为一个潜变量建模问题,并证明我们的方法能够实现数据高效的LLMs适应需要多步骤推理和工具使用的任务。
演讲者简介:Edward Hu(@苹果岛)正在创建自己的公司。他之前是OpenAI的研究员,并在2018年A.M.图灵奖得主Yoshua Bengio的指导下作为博士生接受研究训练。研究生之前,Edward是微软的研究员,在那里他发明了LoRA和μTransfer。LoRA现在是定制AI模型的最受欢迎方法之一,而μTransfer则支持着今天正在开发的最大AI模型。
录音:讲座的录音将在讲座后大约3-4周内发布于我们的YouTube播放列表:https://www.youtube.com/playlist?list=PLoROMvodv4rNiJRchCzutFw5ItR_Z27CM。幻灯片和更多信息都将发布在我们的Discord服务器(https://discord.gg/2vE7gbsjzA)和课程网站(https://cs25.stanford.edu)。期待今天晚些时候见到大家!
@Wayne Gao @小雏菊爱蒲公英 @谢週五 @宝之大者 @宝之大者AILab @快乐一点吧 @宝之大者HAI @知乎圈子
- 复制链接
- 举报