currently reading articles under ai

DQN及其局限小记

Q学习的思想非常巧妙,DQN也非常巧妙。

通过神经网络,将Q学习原本的表做成一个神经网络,表格是离散的,而神经网络则不是,加以算力的夹持,似乎可以胜任任何工作。

但实际并非如此,DQN只能依赖随机值不断试错来调整自身,但是对较为复杂的情况来说,探索与利用之间的平衡真的很难达到,这涉及到太多的超参数。

可能本质上,DQN还是缺乏一个能够理解环境的引擎,一个大脑,他有了不断拟合的能力,却没有迅速学习和外化的能力。

困难重重。

迭代的神经网络

今天花了很长时间,从最底层开始,写好了感知机和有一个隐藏层的神经网络。

非常感谢Andrew Ng的课程。

有一个隐藏层的神经网路迭代的很慢,现在还在跑。

看着这东西的cost越来越小,一遍一遍休整自己的参数,他的每个细节我都知道,除了偏导数那里不太熟。

还挺有趣的。

今天还算没白费。

不想做炼丹师,所以继续在底层学习吧,还有很多东西可以做。

——Z