哈喽啊，老铁们。有伙伴研究强化学习中的DDPG算法吗，我现在-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

我的名字会很长长长长长长长长

4 年前

trueweixin_39035039

哈喽啊，老铁们。有伙伴研究强化学习中的DDPG算法吗，我现在的问题是：算法中对于actor网络，目标网络权值w'的更新与当前网络权值w有关，也就是w'=tau*w+(tau-1)*w'。当前网络权值w是基于梯度下降法更新的，而目标网络权值w'更新是基于上面那个式子的，那目标网络对于权值的训练是不是就不需要梯度下降法了?

你问我答

CSDN App 扫码分享

分享

评论

点赞

打赏

复制链接
举报

下一条：

从绝望之谷中挣扎出来，开始艰难的爬坡