大模型与强化学习的AGI之旅「中篇③之世界模型的内涵」文章于-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

trueweixin_42619619

大模型与强化学习的AGI之旅「中篇③ 之世界模型的内涵」

文章于2023年底-2024年初尝试挖掘并探寻以ChatGPT为代表的LLMs和以AlphaGO/AlphaZero及当下AlphaDev为代表的Alpha系列之间的AR和RL思想的背后底层理论及形式上的统一，同时尝试基于去年OpenAI暴露出的project Q*可能的关于推理过程学习再到系统1·快思考与系统2·慢思考的形式化统一的延展性思考，以展望未来AGI路径可行性...正如不久前AI一姐李飞飞教授所说，人工智能也许即将迎来它的「牛顿时刻」...

全篇文章分为「上篇」「中篇」「下篇」（本笔记是「中篇③」），因中篇内容比上篇还要冗长，因此暂且将中篇内容按章节分为③个部分分阶段发布，包含「① 系统1·快思考与系统2·慢思考的认知本质&阐释」「② RL与LLM融合下的探索&思考」「③ 世界模型的内涵」，同样，因篇幅较长问题，也许会给大家造成一定的阅读困扰，但仍希望大家能够阅读下去，内容上尽量采用简单通俗的表述，并制作了长图片方便大家掌上阅读。其中文章囊括了诸如强化学习「RL」、自回归「AR」大语言模型「 LLMs」等技术领域深刻内涵思考，穿插关联了丰富的计算机科学/数学/物理学/哲学/心理学等领域跨学科内容，回顾了人工智能近现代发展历史，并在部分章节中以作者视角回顾总结过去一年中大模型给自己带来的思想冲击...大家如有疑问困惑和不同看法也非常欢迎评论指正，感谢！

本文原创作者：吕明

CSDN App 扫码分享

分享

评论

点赞

打赏

复制链接
举报

下一条：

我和@高山流水233、@王失败、@毛刷、@梦想做个翟老师和 @gaga salamer 合作，进行了一系列关于使用LLMs的三部分系列文章，过程非常有趣。从他们那里我学到了很多，我真的认为这是关于应用LLMs最好的资源。这里是第一部分：https://www.oreilly.com/radar/what-we-learned-from-a-year-of-building-with-llms-part-i/