当前位置:首页 > 【组图】Neurons字幕组 | 2分钟看强化学习如何优雅地解决地形穿越问题(附论文下载)_搜狐科技_搜狐网

【组图】Neurons字幕组 | 2分钟看强化学习如何优雅地解决地形穿越问题(附论文下载)_搜狐科技_搜狐网

时间:来源:大数据文摘

原标题:Neurons字幕组 | 2分钟看强化学习如何优雅地解决地形穿越问题(附论文下载)_搜狐科技_搜狐网

原标题:Neurons字幕组 | 2分钟看强化学习如何优雅地解决地形穿越问题(附论文下载)

时间轴 | 韩振峰 翻 译 | 数据酱

校 对 | 云 舟 后期 | Halo

项目管理 | 大 力

Neurons字幕组

第5期作品震撼来袭!

Neurons字幕组源自英文单词Neuron,一个个独立的神经元,汇聚千万,成就了四通八达,传递最in最酷炫信息的神经网络。

来吧,和Neurons一起,玩点不一样的AI!

随着2016年3月AlphaGo与李世乭惊天人机大战的谢幕,深度学习逐渐走入了大众的视野,在这背后,则是AI基于与环境互动的目标导向的强化学习。作为一种机器学习算法,它不仅可以让电脑学习如何玩游戏,甚至学习其它一切具有时间序列性的行为,并在与我们生活息息相关的各种领域中都能有很好的应用。今天的Neurons小视频,就以可爱的虚拟狗狗为切入点,带大家看一下强化学习在地形穿越问题中的应用。

关注大数据文摘公众号,并在后台回复“神经元”,可直接下载本期论文。

▼ 请在WiFi下观看小视频,暂时无法观看的读者可以先收藏,或者下拉直接查看文字版要点,土豪请随意~

强化学习算法的侧重点并不在于分辨出我们在图像中看到的具体内容,因为具体答案并不重要,我们关心的是具有时间先后性的一系列动作。我们称强化学习的输入为状态,也就是我们目前所处的状态,还有我们周围的环境的状态。强化学习的输出我们称之为最佳后续动作,我们以一个虚拟狗狗的跑步动作为例子,在跑动过程中跳起来并跳到障碍物上,这一系列动作都由我们的算法来完成。

这个任务很难,因为狗身上有很多部位需要控制得当,动作才显得协调。这个算法需要决定很多事情,包括如何控制腿部的力量脊柱的弯度,还有肩膀、肘部、臀部还有膝部的角度。

狗狗的控制参数,从上往下分别是:前腿力、后腿力、脊柱弯度、肩膀角度、肘部角度、臀部角度、膝部角度、后蹄角度

当然,这个算法最厉害的地方,在于如果算法运用得当,它最后所得出的所有的动作,都会跟我们所想象的动物的动作完全相同。其实强化学习的本质就是:做得好,被奖励;做得不好,被惩罚;奖罚分明。而且用评分量化,分数增长,则代表算法的选择不错。学习过程就是自省的过程。通过分析最后的几步动作,来找出哪一些动作可以得到奖励。

我们举个可以拿到奖励的例子,比如这只狗可以在不摔倒的情况下跑多远。同时,我们还需要注意,如何用最少的代价来实现这个目标。简而言之,强化学习模仿了现实生活中的动物,甚至人类学习的方法,如果你这次做得不够好,尝试新的动作;如果你做到了,记住你是如何做到的,然后继续这样做下去。我们在这里只是用狗狗作为一个例子来解释这个算法,但是其实同样的原理也适用于人类。

强化学习被应用于很多控制领域,这些领域的难题很难用其它技术来解,比如,如何控制一个无人机。很高兴能看到这项技术所带来的成果,尤其是,在这项技术在某些领域其实还没有被很广泛的应用的情况下,比如说计算机图形学领域为什么会这样呢?是因为并没有太多的图像任务要求处理具有时间序列的动作?还是因为我们需要改变我们的思维方式来接受新的想法。从不同的角度来看待问题,然后才能用这个强大的算法来解决它,毫无疑问,这个改变将会是值得的。

很多人说,强化学习被认为是真正的人工智能的希望。看了今天的小视频,对于强化学习有没有想更深入的了解呢?返回搜狐,查看更多

责任编辑:

声明:百瑞头条网所有内容均来源于网络,如稿件涉及版权/违规举报/商务合作 Email:jieseng999@gmail.com