回顾深度学习的起源：用神经网络玩打砖块打砖块游戏手机

发布时间：2024-07-09浏览：3

深度学习现在非常火，在国际象棋上已经超越了人类，它的源头就是强化学习。强化学习最先引起人们关注是因为它成功学会了打砖块游戏。本文将详细介绍整个过程，并会介绍很多细节，以便你详细了解整个过程。我认为这是初学者学习AI的最佳学习材料。

首先介绍一下Brick Breaker这款游戏。如果你没有亲自玩过这款游戏，你肯定不知道它的很多细节。这款游戏由雅利达公司于1976年制作，是世界上最早的电子游戏之一。在雅利达游戏机上运行，其大小只有2k，是今天普通游戏大小的百万分之一甚至更小。见下面的游戏画面。

打砖块截图

上方的数字055是得分，第二个数字2是剩余生命数。初始数字是5条生命。最右边的1是双人游戏，所以不用管它。外围左、右、上方的白色边缘是墙，球会在上面弹跳。下方没有墙，但有一个可移动的板，由玩家控制左右移动以阻挡球反弹回来。如果接球失败，就会摔倒并失去1条生命。

中间的彩色砖块一共有6层砖块，每层18块砖块。当小球击中砖块时，砖块消失，小球弹开。砖块越高，小球弹起的速度就越快。这就是游戏的难点所在，如果在击打上面的砖块时反应慢，就接不住小球。还有，小球从最上面的墙壁弹起后，接球的板子长度会变短，这也增加了难度。第一层和第二层砖块的得分为1，第三层和第四层砖块的得分为4，第五层和第六层砖块的得分为7，所以所有砖块打完后的得分为18*24，一共432分。所有砖块打完后会刷新一次，所以这个游戏的最高得分为864分。

此外，球从墙壁和砖块上反弹的方式与光反射相同，但在接球板上的反弹则具有一定的随机性，并不完全与光反射相同。此外，当接球板与球接触时，接球板的速度、方向和大小也会影响反弹方向。换句话说，反弹方向可以在一定程度上人为改变，但球的方向无法完全控制。

2015 年，DeepMind 研究员 Andriy Mnih 发布了一段视频，展示了他们如何利用神经网络玩这个游戏。以下是视频截图：

视频一开始是100轮训练的结果，得分很低，5分以内，打了几块砖，球也经常接不住。

训练 100 个 epoch

然后我们又训练了200轮，成绩接近10分。

训练 200 个 epoch

然后又训练了400个回合，成绩达到了17分。

训练400发子弹

打砖块游戏_打砖块游戏手机_小游戏打砖块

随后进行了600轮训练，神奇的情况出现了，此时得分达到了70分左右，视频中说神经网络找到并运用了最佳策略，突破了砖墙，将小球击入砖墙后面的空间，砖墙不断弹起，获得了高分。

训练600发子弹

这个视频当时引起了轰动，但是正如我们刚才对反弹细节的分析，反弹是随机的，不可能打到任何地方，并且控制得很好。如果我们自己玩这个游戏足够多次，或者复现DQN方法和用程序实验足够多次，你会发现，只要你的分数足够高，比如80分左右，上面那种撞穿墙壁反弹到后面的情况就很有可能出现，而且不需要你刻意控制反弹方向，它就会自然而然地发生。

与其说网络学会了某种高级策略，不如说游戏设计师把它设计得十分巧妙。后面砖墙到屋顶之间留出的空间就是一个独特而巧妙的设计，只要达到一定的分数，就会出现上述奇妙的情况。当然，这并不是否定神经网络的作用，它的确从零开始学会了玩这个游戏，并且已经超越了人类的水平。只是这里没有高级策略而已。后面还有其他证据可以证明这一点。

这个视频在训练了600轮之后就不行了，那么训练了800轮之后会怎么样呢？根据我的经验，学习波动很大，在突破砖墙，成绩有大幅度提升之后，成绩肯定会迅速下降，然后经过长时间的训练，成绩又会慢慢上升。最后能过关吗？我觉得DeepMind的第一版和第二版网络是不行的。当然，既然他们在围棋这么难的项目上都取得了突破，过这一关是没有问题的。

后来 DeepMind 发表了相关论文，并开源了它的网络设计。接下来我们来看看 DeepMind 是如何利用神经网络来玩这个游戏的。它的程序由几部分组成，一部分是游戏模拟器，可以控制游戏的进程；第二部分是神经网络；第三部分是连接以上两部分的控制程序，负责把模拟器输出的图像输入到神经网络中，把网络的输出转换成游戏的输入。这样，网络就可以不断的玩这个游戏，训练自己。

网络输入是白墙范围内的游戏截图，是一张 210 x 160 像素的图片，经过压缩后转换成 84 x 84 的黑白图像输入到网络中。另一个输入是当前得分和剩余生命数。网络输出一共四个：接发牌板左移、接发牌板右移、发球，牌板原地不动。

可以看出，系统没有任何与打砖块游戏相关的信息，例如球拍的位置、球的位置、球的速度、砖块的位置等，只提供了图像和分数、生命值的信息。训练初期，它基本是随机移动的，比如它甚至不知道什么时候发球，可能表现为还没有发球，而是不停地左右移动球拍。

但它不断随机动作，最终会把球发出去，并最终随机接住球。经过几百次、几千次甚至更多的重复，接球的成功率会慢慢上升。根据我的经验，在一台最普通的笔记本电脑上，2010 年的主流配置，只用 CPU 运行它，运行两三个小时后就能看到明显的进步。此时，你可以成功接球三到五次左右，得分在十分左右。看着这个程序从一无所知到慢慢进步，非常令人震惊。这种感觉和 Alpha Zero 一样，在与自己比赛，不断提高自己。

纵轴为分数，横轴为训练次数。

但事情并不是一帆风顺的。看上图，经过3000次训练，平均得分都在10分以上，最高甚至达到了30分。随着越来越多的砖块被击倒，上层的砖块露出来了，球在撞到第三层砖块时弹起的速度要快得多，在撞到第五层砖块时弹起的速度甚至更快。然而挡板的速度是有限的，很可能来不及做出反应。这时候，第一策略：球下落时挡板要靠近球是不够的。需要第二策略：在球上升阶段将挡板放在中间，这样当球下落时才有足够的时间接住球。这才是真正的高级策略。

根据我的经验，使用DeepMind开源的网络结构（有两个不同版本的网络）学习上述高级策略比较困难，分数会在30-70之间波动，很难突破砖墙获得高分。而且由于网络使用ReLU激活神经元，如果学习率过大，就会无限大，网络会爆炸。为什么达不到DeepMind论文的效果呢？可能是硬件太弱，训练次数不够，也可能有其他原因，这个我还没搞清楚。

总结一下，我们可以使用非常普通的硬件，在 GitHub 上复现 DeepMind 的 DQN 代码来做自己的实验，几个小时之内就能看到分数稳步提升，达到人类玩家玩这个游戏的水平（30 分左右）并不难，但要达到 DeepMind 的水平（400 分左右）就比较难了。

当 DeepMind 取得 400 分成绩时，它转向围棋研究，而没有继续深挖 Breakout。事实上，这虽然是一个玩具项目，但难度还是比较大的，而且随着时间的推移难度越来越大，最高分是 864 分，距离 400 分还很远。这也间接证明了 DeepMind 的 DQN 并没有学到最先进的策略，无法主动控制小球的飞行方向。在后期，当剩下的砖块非常少时，就需要控制小球反弹的方向，否则就无法击中剩余的砖块。而且它的 400 分是几生积累下来的，而不仅仅是一生。

所以这是一个很好的人工智能入门项目，还有很大的探索空间，爱好者可以关注一下。

本文不涉及具体的网络结构和程序，因为这类文章已经很多了，但是讲到搬砖细节的文章就不多了。希望能丰富大家对这件事情的了解。如果有人想知道自己做实验的过程，然后在网上找了一大堆相关文章还是抓不住重点，或者遇到了爬不起来的坑，可以在评论里留言。如果人多的话我会再写一篇文章介绍实际的操作过程。

热点资讯