热门
最新
红包
立Flag
投票
同城
我的
发布
m0_64432790
4 年前
truem0_64432790
憋大招中,对于reparametrisation,离散变量采样或reinforce算法想要探讨的欢迎滴滴。个人感觉policy gradient的推导怪怪的,不知道是否有人有同感。🧐
下一条:
转发
立即登录