假设你从来没有见过菠萝。有一天,有人送了你一个菠萝。尽管你这辈子只见过这一个菠萝,但你只用一眼就看出了菠萝的特征。第二天,你去水果店,很快就能从一堆苹果、葡萄、柚子中认出菠萝来。你甚至还能在纸上画出菠萝的简笔画。这种「仅从一个例子就形成概念」的能力对人来说很容易。然而,尽管人工智能近年来取得了长足的进步,但要让机器做到这一点,却难于上青天,因为目前的人工智能通常需要从大量的数据中进行学习,你得让它看成千上万张菠萝的图片才行。不过,这个事实或许从今天开始改变了。今天,一篇人工智能论文登上了《科学》杂志的封面,为人们带来了人工智能领域的一个重大突破:三名分别来自麻省理工学院、纽约大学和多伦多大学的研究者开发了一个「只看一眼就会写字」的计算机系统。(论文Human-level concept learning through probabilistic program induction见文末,或回复12可下载pdf格式。)
《科学》杂志封面只需向这个系统展示一个来自陌生文字系统的字符,它就能很快学到精髓,像人一样写出来,甚至还能写出其他类似的文字——更有甚者,它还通过了图灵测试。下面就是机器和人写出的字符。你猜哪些是机器写出来的?傻傻分不清了吧?机器的作品是1,2;2,1;1,1这三名研究者分别是纽约大学数据科学中心的Brenden Lake,多伦多大学计算机科学与统计学系的Ruslan Salakhutdinov和麻省理工学院大脑与认知科学系的Joshua Tenenbaum。他们创造的AI系统能够迅速学会写陌生的文字,从某种意义上说明它领悟到了字符的本质特征(也就是字符的整体结构),同时还能识别出非本质特征(也就是那些因书写造成的轻微变异)。三名研究者从左到右分别是:Ruslan Salakhutdinov, Brenden Lake和Joshua B. Tenenbaum。图/Alain Decarie/The New York Times人类的概念具有极大的弹性,因此,尽管许多概念的边界十分模糊,但我们依然能进行明确的分类。这三位研究者声称,他们的系统就抓住了这种弹性。该系统能模仿人类的一个特殊天赋——从少量案例中学习新概念。它所根植的计算结构叫做概率程序(probabilistic program),还可能有助于对人类获得复杂概念的过程进行建模。Joshua B. Tenenbaum是麻省理工学院大脑与认知科学系的教授,他说:「目前的人工智能领域大都聚焦在对模式进行分类。但是,这种类型的智能所缺少的不是分类或识别的能力,而是思考。所以,尽管我们研究的只是手写字符,但依然大言不惭地使用『概念』这种词。因为我们能用字符来研究更加丰富和复杂的概念。我们能理解字符的来历和构件,也能理解如何用不同的方式来使用字符,并造出新的字符来。」通过「图灵测试」
这篇论文的第一作者Brenden Lake曾在Tenenbaum的团队中获得认知科学博士学位,如今他是纽约大学的博士后。根据Lake的介绍,他们在论文中分析了三个核心原则。这些原则都很通用,既可以用在字符上,也可以用在其他的概念上:1.组合性(compositionality):表征是由更简单的基元构建而成。2.因果性(causality):模型表征了字符生成的抽象因果结构。3.学会学习(learning to learn):过去的概念知识有助于学习新的概念。研究者对这个AI系统进行了几项测试。1.测试1:研究者向它展示了它从未见过的书写系统(例如藏文)中的一个字符例子,并让它写出同样的字符。这里并不是让它复制出完全相同的字符,而是让它写出9个不同的变体,就像人每次手写的笔迹都不相同一样。例如,在看了一个藏文字符之后,算法挑选出该字符用不同的笔迹写出来的例子,识别出组成字符的笔画,并重画出来。2.测试2:研究者向系统展示了一个陌生书写系统中的几个不同的字符,并让它创造出一些相似的字符。3.测试3:研究者让它在一个假定的书写系统中创造出全新的字符。与此同时,人类被试也被要求做同样的事情。最后,研究者要求一组人类裁判(来自亚马逊土耳其机器人,Amazon Mechanical Turk)分辨出哪些字符是机器写的,哪些是人类写的。结果,裁判的正确率仅为52%,和随机的结果差不多。于是,机器通过了所谓的视觉图灵测试。红圈标出的是机器的作品传统的机器学习系统(比如手机上的语音识别算法)在某些分类任务上的表现很好,但它们首先需要大量的数据集来进行训练。相比之下,人类只需要少量的例子就能抓住某个概念的精髓。这种「一次性学习」正是研究者希望他们的系统能模拟的能力。学会如何学习
三位研究者采用的方法是「贝叶斯程序学习」(BPL,Bayesian Program Learning),能让计算机系统对人类认知进行很好的模拟。传统的机器学习方法需要大量的数据来训练,而这种方法只需要一个粗略的模型,然后使用推理算法来分析案例,补充模型的细节。
在这篇论文中,研究者的模型只规定了字符由笔画组成,笔画由抬高笔触来区分,而笔画又由更小的子笔画组成,子笔画用笔尖速度为零的点来区分。有了这个初始模型之后,研究者向AI展现了人类手写文字的方式,包括笔画顺序等,让系统学习连续的笔画和子笔画之间的统计关系,以及单个笔画所能容忍的变异程度。这个系统从未在它所分析的书写系统上进行过任何训练,它只是推理出了人类写字的一般规律。Tenenbaum说:「每个星期,我们似乎都能读到机器在人脸识别、语音识别方面与人类旗鼓相当的新闻。但是,对我这种研究心智的科学家来说,机器学习和人类学习之间的鸿沟是巨大的。我们希望弥合这个鸿沟,这是我们的长期目标。」各方评价
在未来,这种机器学习的技术能够完成很多任务,例如读懂手语、提升语音识别软件的性能等。运用这种方法,或许只用向计算机展示一张人脸照片,它就能从任何角度识别出这个人。它甚至有可能用来制定军事行动计划。
当然,尽管这个成果很重要,但它对人工智能领域来说只是一个小小的起点,不代表未来的机器学习都必须采用这种方法。正如它颠覆了「计算机如何理解概念」这个课题一样,在这个日新月异的领域中,极有可能下个月就出现一种新方法,将它甩在后面飞扬的尘土中。参考:•Brenden M. Lake1, Ruslan Salakhutdinov, Joshua B. Tenenbaum. Human-level concept learning through probabilistic program induction. Science 11 December 2015: Vol. 350 no. 6266 pp. 1332-1338.•Larry Hardesty. Computer Drawings fool human judges, pass “Visual Turing Test”. MIT News•John Markoff. A Learning Advance in Artificial Intelligence Rivals Human Abilities. nytimes•Researchers create an artificial intelligence model that learns, and draws, just like you. Torstar News Service•Dave Gershgorn. Computers are closer to copying the way human learn. Popsci.