大模型与强化学习的AGI之旅「中篇③ 之 世界模型的内涵」
文章于2023年底-2024年初尝试挖掘并探寻以ChatGPT为代表的LLMs和以AlphaGO/AlphaZero及当下AlphaDev为代表的Alpha系列之间的AR和RL思想的背后底层理论及形式上的统一,同时尝试基于去年OpenAI暴露出的project Q*可能的关于推理过程学习再到系统1·快思考与系统2·慢思考的形式化统一的延展性思考,以展望未来AGI路径可行性...正如不久前AI一姐李飞飞教授所说,人工智能也许即将迎来它的「牛顿时刻」...
全篇文章分为「上篇」「中篇」「下篇」(本笔记是「中篇③」),因中篇内容比上篇还要冗长,因此暂且将中篇内容按章节分为③个部分分阶段发布,包含「① 系统1·快思考与系统2·慢思考的认知本质&阐释」「② RL与LLM融合下的探索&思考」「③ 世界模型的内涵」,同样,因篇幅较长问题,也许会给大家造成一定的阅读困扰,但仍希望大家能够阅读下去,内容上尽量采用简单通俗的表述,并制作了长图片方便大家掌上阅读。其中文章囊括了诸如强化学习「RL」、自回归「AR」大语言模型「 LLMs」等技术领域深刻内涵思考,穿插关联了丰富的计算机科学/数学/物理学/哲学/心理学等领域跨学科内容,回顾了人工智能近现代发展历史,并在部分章节中以作者视角回顾总结过去一年中大模型给自己带来的思想冲击...大家如有疑问困惑和不同看法也非常欢迎评论指正,感谢!
本文原创作者: 吕明