• 销售经理:张松
    联系电话:15072998836
    商务Q Q:674188234
    MAIL:674188234@qq.com
    网 址:www.xgcszs.com

阿尔法元来了,人类限制了机器的想象力吗?

  • 原题目:阿尔法元来了,人类限制了机器的想象力吗? 谁能想到,我们会在一年之内连续被AlphaGo刷屏

    原标题:阿尔法元来了,人类限制了机器的想象力吗?

    谁能想到,我们会在一年之内持续被AlphaGo刷屏两次?关于阿尔法元如何快捷学习成长击败AlphaGo Lee和AlphaGo Master的新闻这里就不再赘述,给出两个要害信息,供读者一起思考。

    一、阿尔法元没有录入人类棋谱数据,单纯通过自我对弈,依靠强化学习获得了现在的能力。

    二、阿尔法元的工作和训练效率都有了很大的晋升,仅用了三天的时间就能击败原版阿尔法狗,同时在推理时,阿尔法元只用了4块TPU。

    阿尔法元之所以震撼了整个业界,是因为当我们以为Master已经封神时,它用三天的时间告诉人类,人类以为的最高水平,在机器眼前不值一提。人类经验成了阿尔法狗的包袱,甩掉这些,算法可以更快更好的完成任务。

    对于很多人来说,这是一个宏大的打击:我们引以为傲的大数据不仅仅会误导算法,还会占用更多的计算资源,妨碍了通用人工智能的发展。

    这篇文章的主要任务,就是来安抚一下惶恐不安的人类。先从第一个问题说起,看看阿尔法元到底是怎么提升计算效率的。

    从监督学习到强化学习

    以前在国际象棋的人机对弈中,计算机使用暴力穷举法推算双方对立时的种种可能,通过运算速度取胜。可穷举法一度曾经被以为不适合围棋,围棋每走一步就会创造出19×19种可能,运算量太过伟大。

    直到有人开端用卷积神经网络解决围棋问题,用卷积神经网络善于的降维下降搜索空间,机器便有了战胜人类的可能。

    在击败了柯洁的阿尔法狗大师版本中,应用了整整40层的策略网络/价值网络,前者用于肯定当前局势,预测下一步行动,价值网络则用来判定执黑执白两方的胜率。另外,还要参加倏地走子系统,以在轻微牺牲走棋质量的条件下,极高的提升运算速度。最后,再用蒙特卡罗树搜寻算法把以上三者衔接起来。

    而阿尔法元则直接将策略网络和价值网络相联合,并且去掉了疾速走子系统。也就是说,以往由三部分组成的阿尔法狗在现在直接变成了一个整体。

    简化之后,策略+价值网络的输入特征由48个减少到了17个,加上被删掉的快速走子系统,根本关于人类围棋的知识都被去掉了。

    从图中可以看到,没有任何人类知识的阿尔法元,在自我对弈的初期常常出现一些毫无逻辑的诡异棋局,可到了后期,却总能有出人意料的打法。

    去掉人类已知知识的特点输入,意味着阿尔法元从监督学习走向了强化学习——决裂成两个一无所知的棋手,开始对弈,呈现胜者后用成果进行训练,然后持续循环对弈。

    而走向强化学习,不仅仅是因为去掉了人类棋谱的监督,还有关于残差网络的应用。残差网络可以懂得为卷积神经网络的深入,简单来说,就是尽量减少每一层网络的神经元,而把网络做的更深。结合阿尔法元从监督学习转向强化学习,减少了输入特征,也利于把整个神经网络做的更加简略粗鲁。

    总之,阿尔法元的重点就在于,去掉人类的围棋知识所需的计算的资源,把网络做的更深,好让阿尔法元在越来越深的网络中自己发现这些知识。

    而阿尔法元的确做到了。

    甩掉数据,通用人工智能就来了吗?

    所以,阿尔法元效率提升的重点在于,去掉人类数据的监视,才有可能实现构造的优化。

    那么同样的套路,可以应用在其他领域吗?

    答案很有可能让人扫兴。

    首先,围棋这种游戏自身就是透明规则的数学计算,此前的Master和Lee,无非是在没法单纯应用推理时的权宜之计。到了其余无法使用通行透明规则的领域,深度学习可能就没那么好用了。

    今年DeepMind对《星际争霸》的挑衅就是案例之一,把整个游戏拆分成多个仿真场景,打算以散布式的模仿训练解决整体问题。可目前来看,结果却不尽如人意。究竟在不完全信息环境中,对长期计划能力、多智能体协作能力的考验都太过严苛了。机器都不一定能很好的模拟人类的经验,更不用提完全依靠机器的自己了。

    在强化学习中,最轻易涌现的情形就是机器只顾获取单一前提下的嘉奖,无法顾及到多任务环境中的整体过程。

    游戏中尚且如斯,那在语音辨认、图像识别等等其他领域中,数据的价值就更为重要了。现在提出强化学习=通用人工智能,还为时尚早。

    所以,没有必要因为数学游戏中的失败就去否认人类存在的价值。用自己短处去和机器的优点相比,才是最没意义的事。

    人类限制了机器的想象力吗?

    而提到人类的短处,就不得不说在阿尔法元和Master对弈中发现的有趣的信息。对典型的,就是在人类的影响下,Master经常走向部分最优。而一些围棋手们在刚刚接触围棋时就要学习的打法,阿尔法元却在训练的极后期才干发现。

    用我们常常评论学校教导的话讲,就是人类的规则限制了机器的想象力。

    这一切提示了我们两件事,第一,由于人类本身能力所限,我们常常限于局部收敛而不自知,进而会影响机器学习的能力;第二,大数据中的信息噪声不可疏忽。

    也就是说,假如老是依靠人类经验和数据,依靠机器学习的人工智能的程度顶多是一个头脑特殊好使人类。

    而阿尔法元的胜利,是不是告知了我们,依靠强化学习绕过大数据的局限、甚至是人类本身的局限?

    固然在许多没有明白规矩的场景中强化学习还表示乏力,但我们是否能够创造仿真环境,尝试用强化学习重新解读那些我们习以为常的基本问题?好比分子的组成和运动甚至基础物理,以此能影响到的资料、生物等等范畴,都有着无限的想象空间。

    阿尔法元对通用人工智能的推进虽然有限,却证实了用物美价廉的强化学习解决更多问题的可能。在未来,我们可以等待更多贸易化的场景,看看强化学习是不是真的能让机器学习有更多的应用空间。

    作为一个从小就数学不好的人,我非常坦然的接收了自己的失败——作为人类,我们的计算能力的确输了机器一大截。那些通过计算而得来的智慧,显然也不见得比机器更高超。

    可我们存在的意义,素来不是算数,而是把本人的才能付诸到更高等的系统上,施展出更壮大的作用。就像我们未曾被盘算器战胜一样,虽然在计算这件事上,阿尔法元后来居上。可换个角度想想,我们自己作为算法的发明者,看着自己的造物补足了自己能力上的不足,是不是应该露出造物神一样的微笑呢?

    凤凰号

  • Copyright ©xgcszs.com 1998 - 2016 . All Rights Reserved
    厦工楚胜(湖北)专用汽车有限公司 版权所有