Q学习的思想非常巧妙,DQN也非常巧妙。

通过神经网络,将Q学习原本的表做成一个神经网络,表格是离散的,而神经网络则不是,加以算力的夹持,似乎可以胜任任何工作。

但实际并非如此,DQN只能依赖随机值不断试错来调整自身,但是对较为复杂的情况来说,探索与利用之间的平衡真的很难达到,这涉及到太多的超参数。

可能本质上,DQN还是缺乏一个能够理解环境的引擎,一个大脑,他有了不断拟合的能力,却没有迅速学习和外化的能力。

困难重重。