DeepMind:
下一代大模型碾压 GPT-4
要训练出 OpenAI GPT-4 这样的大语言模型,研究人员需要将书籍、网页和其他来源处的大量精选文本输入到 Transformer 机器学习软件当中。模型会利用训练数据中表现出的模式,熟练预测一段文本之后应该出现的一个个字母和单词。这种简单的文本预测机制在回答问题、生成自然语言 / 代码方面被证明拥有强大的潜力空间。
要进一步开发 ChatGPT 及类似功能的语言模型,DeepMind 认为还有另一个重要的附加步骤,就是使用基于人类对 AI 模型答案做出的反馈,进而借助强化学习提高其性能。DeepMind 在强化学习方面的丰富经验,也许能让研究人员为 Gemini 赋予更多新颖能力。
AlphaGo 基于 DeepMind 首创的强化学习技术。这项技术要求 AI 模型在问题之上反复尝试并接收关于性能的反馈,据此设计接下来将要采取的行动(例如围棋或电子游戏),从而让软件一步步学会解决棘手问题。它还采用所谓“树搜索”方法,以探索并记住棋盘上可能采取的各种动作。如果这一思路能够帮助语言模型迎来下一次重大飞跃,则新 AI 或能在互联网和计算机上执行更多种类的任务。