憋大招中，对于reparametrisation，离散变量采-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

4 年前

truem0_64432790

憋大招中，对于reparametrisation，离散变量采样或reinforce算法想要探讨的欢迎滴滴。个人感觉policy gradient的推导怪怪的，不知道是否有人有同感。🧐

CSDN App 扫码分享

分享

评论

点赞

打赏

复制链接
举报

下一条：