可迁移模型 · TRANSFERABLE MODEL

探索的本质是在"已知的最优"和"未知的可能"之间动态分配计算资源

ε-贪心是最简单的探索策略，但在高维空间中效率极低——随机动作几乎不可能触达有意义的新状态。真正有效的探索需要"结构化好奇心"：智能体应该对"预测最不确定"或"与已知区域最不同"的状态产生内在兴趣。这本质上是一个信息论问题：每步探索应该最大化获取的信息量。

深度强化学习 — 探索-利用权衡

产品创新策略（在已验证的市场和未知的蓝海之间分配资源）、科研方向选择（在成熟领域和前沿交叉点之间分配精力）、内容创作（在读者已知的类型和全新尝试之间平衡）。

这本书回答了如何让智能体在高维复杂环境中自主学习决策，其答案是用深度神经网络作为函数逼近器嵌入强化学习框架

PRESS YOUR OWN BOOK

90 秒得到核心模型 · 行动接口 · 失效边界 · 三套 SOP