可迁移模型 · TRANSFERABLE MODEL
探索的本质是在"已知的最优"和"未知的可能"之间动态分配计算资源
ε-贪心是最简单的探索策略,但在高维空间中效率极低——随机动作几乎不可能触达有意义的新状态。真正有效的探索需要"结构化好奇心":智能体应该对"预测最不确定"或"与已知区域最不同"的状态产生内在兴趣。这本质上是一个信息论问题:每步探索应该最大化获取的信息量。
来自这本书的解读报告
《深度强化学习》
这本书回答了如何让智能体在高维复杂环境中自主学习决策,其答案是用深度神经网络作为函数逼近器嵌入强化学习框架
阅读完整解读报告 →