传媒教育网

 找回密码
 实名注册

QQ登录

只需一步,快速开始

搜索
做个试验
楼主: 刘海明
打印 上一主题 下一主题

人工智能与新闻业案例集锦

[复制链接]
111#
 楼主| 发表于 2019-7-27 23:17:50 | 只看该作者
【案例】
自然哲学复归

1


有决定性的理由认为,我们需要发起一场哲学革命,一场科学革命,然后再把两者结合起来,创造一个现代版的自然哲学。

从前,哲学不仅仅是科学的一部分,更确切地说,科学是哲学的一个分支。我们需要记住,现代科学始于自然哲学——它是哲学发展的产物,也是哲学与科学的融合。如今,我们把伽利略、约翰尼斯·开普勒、威廉·哈维、罗伯特·波义耳、克里斯蒂安·惠更斯、罗伯特·胡克、埃德蒙德·哈雷,当然还有艾萨克·牛顿,视为开创性的科学家,而把弗朗西斯·培根、勒内·笛卡尔、托马斯·霍布斯、约翰·洛克、巴鲁克·斯宾诺莎和戈特弗里德·莱布尼兹看作哲学家。然而,这种分裂是我们强加于过去的东西。我们犯了“以今论古”的错误。

那时,他们都认为自己是自然哲学家(natural philosophers)。除了解决更专门的物理学、天文学、化学、生理学、数学、力学和技术问题外,所有人都乐于思考形而上学和哲学的根本问题。哲学作为对根本问题的富于想象力的批判性思考,在当时已有开创性的建树。开普勒和伽利略都做了细致的观察,并进行了实验,就像优秀的科学家应该做的那样;但他们同时采用了一种形而上学的自然观,认为“自然之书是用数学的语言写成的”,就像伽利略说的那样。他们都坚称简单的数学法则支配着自然现象的发生方式,这与当时正统的亚里士多德主义形而上学截然相反;无论是开普勒发现行星运动规律,还是伽利略探索地球上物体的运动方式,这些重大科学进展都受惠于他们的形而上学观。笛卡尔、惠更斯、波义尔、牛顿等人则认同宇宙由原子组成的形而上学观,虽然在具体问题上的想法有所差异。

— Israel G. Vargas

但后来,由于自然哲学家对科学本质的深刻误解,科学脱离了形而上学,也脱离了哲学。结果,自然哲学消亡了,科学与哲学的巨大鸿沟诞生,哲学就此开始衰弱。

牛顿在《自然哲学的数学原理》第三版里,无意中扼杀了自然哲学:他宣称通过归纳法推导出了他的万有引力定律。

矛盾的是,牛顿《原理》的第一版(1687年)无疑是自然哲学的伟大著作。书中有九个命题被他明确称为“假说”(hypotheses),而假说是极具形而上学意味的概念。到了第三版(1726年),前两个假说已经变成了前两个“推理规则”,而最后五个关于太阳系的假说摇身一变成了“现象”。还有一个假说彻底消失了,而另一个对主要论证而言多余的假说,被隐藏在定理中。在第三版中,还新增了两个“推理规则”,都是归纳性的。对于第二条新规则,牛顿注解道:“应遵循这条规则,使得归纳论证不被假说消除。”他还补充了以下关于归纳和假说的评述:

任何不能从现象中推断出来的东西都称为假说;假说,无论是形而上学的还是物理学的……在实验哲学中都没有立足之地。在这种哲学中,特定的命题是从现象中推断出来的,然后通过归纳法来普遍化。正因此……运动定律和万有引力定律得以被发现。

牛顿一直在以各种方法尝试将他在自然哲学领域的伟大创见转化为归纳科学的成果。

牛顿痛恨争议。他知道他的万有引力定律本身就极具争议,所以他修改了他的《原理》的后续版本,以隐藏作品中假说性的、形而上学的和自然哲学的元素,使万有引力定律看似毋庸置疑是由归纳法推导出来的。由于牛顿的无上威望,尤其是在法国启蒙运动吸纳了他的成果后,后来的自然哲学家想当然地认为,要想成功就需要按照牛顿的方法论行事。定律和理论必须通过对现象的归纳来达成,或至少是通过归纳现象草创。形而上学和哲学已经变得无关紧要,可以被忽略。现代科学就是这样诞生的,而最初孕育了现代科学的自然哲学却被悄悄地遗忘了。

牛顿的归纳主义方法论依然与我们同在。如今我们称之为“最佳解释推理”(inference to the best explanation)。(牛顿没有忽视解释。他的推理规则强调,归纳法要求人们接受最简单的理论实际上就是对现象最好的解释。)如今的科学家可能不认为理论可以通过归纳法从现象中“推断”出来,但他们确实认为,单凭证据(加上解释方面的考量)就能决定科学应该接受或拒斥何种理论。

换言之,他们想当然地接受了某种形式的标准经验主义(standard empiricism),即证据决定了哪些科学理论应该被接受或拒绝——虽然也需要考虑理论的简单性、统一性或解释力,但不应把世界或现象本身假设为简单、统一或可理解的。从牛顿那里继承下来的关键一点是,任何关于世界的论题,都不能独立于证据成为科学知识的一部分,更不用说违反证据了。从本质上来看,牛顿关于证据和理论的方法论仍然掌控着局面。科学与哲学之间的决定性分裂,作为后果之一持续到了今天。

— 中鸟

由于这种分裂,哲学陷入了极度无力的境地。科学不再是哲学(或言自然哲学)的一个分支,科学变成了与哲学截然不同且独立于哲学的东西。哲学失去了它的一大主干,而且是迄今为止最成功的部分。

与自然科学脱节后,哲学存在的意义直至今日仍在不断削弱。心理学、人类学、社会学、经济学、政治学、语言学、逻辑学和宇宙学都脱离了哲学,成为独立的学科。到20世纪初,哲学陷入了危机状态。完全不清楚它还能做些什么。人们尝试过一些解决方案,其一是主要在欧洲流行的欧陆哲学:它可以忽视科学,忽视理性,陷入夸夸其谈和语无伦次的庆典之中。另一种办法是分析哲学,主要英语国家和地区进行:哲学可以全身心投入概念分析,将严肃的问题掩埋在一种深奥的、虚假的概念分析之中。

但这一切都是不必要且荒谬的。我说过哲学不可避免走向衰弱,而它曾经的组成部分变得愈发科学、成功和独立——然而这个故事是荒唐的。哲学本真的任务,是延续理性思维的火种,让我们用想象力和批判性思维,考察那些关于思想和生活的最紧迫、最基本的问题;而且,这一点在当下前所未有的重要。关键在于,哲学能够让我们继续用这种方式思考最为基本的问题,具体地说:我们人类的世界,我们眼中的世界,我们生活的世界,我们看到、触摸、听到和闻到的世界,生物的世界,人、意识、自由意志、意义和价值的世界——这一切事实上都镶嵌在物理宇宙中,但它们是何以存在的?又如何得以枝繁叶茂?

这一根本问题涵盖了思想和生活中所有更加专门和特定的问题。哲学的一项固有的基本任务是确保我们在教育和学术探究的核心积极地探寻这个问题,从而使得对它的理性思考影响自然、社会和技术领域,以及形式科学、人文科学和教育学等更加专门的学科中更为专业的思考,甚至影响我们对更具体的个人、社会和全球生活境况的思考;这种影响是双向的。


2


哲学非但没有自己独有的主旨、问题或方法,反而,在恰当的哲学实践中,哲学包含所有专门学科的主旨和问题,还囊括了所有学科共通的探究方法,即理性解决问题的方法。哲学非但不是另一门专门化学科——不同于其他专业学科,与其他专业学科并驾齐驱——而是一项基本任务,通过保持对基本问题的思考,与专业研究双向作用,从而作为一项根本任务来对抗专门化,而不是像当今许多学院派哲学所追求的那样把自身专门化。同样,恰当的哲学不是科班出身的哲学家的专属领地;专业哲学家的一项基本固有任务是鼓励每个人都涉足哲学研究,对一些根本问题进行理性思考:无论是非专业人士,还是学术研究其他各专业领域的学者。

我们需要为本着这种精神前行的哲学命名。我们可以称之为批判式基要主义(Critical Fundamentalism)——一种与欧陆哲学和分析哲学相竞争的哲学。批判式基要主义对自然哲学的重建大有助益,因为批判式基要主义探索自然科学各个领域的根本问题,从理论物理、宇宙学到神经科学、演化生物学无所不包。批判式基要主义对科学持开明态度,它既会影响科学研究,也会受到科学研究的影响。它将有能力澄清基本的科学问题并提出可能的科学解决办法,从而对科学作出贡献;当然,它也将吸纳科学研究的成果。这种批判式基要主义哲学和科学的双向结合,除了名字不同,就相当于自然哲学


因此,前文关于哲学必然衰落的故事就是一派胡言。自然科学、社会科学、逻辑学和语言学的成功建立与发展,并不会使批判式基要主义哲学变得贫乏。对根本问题进行理性(富有想象力和批判性的)思考的需求一如既往的迫切。因为只有当我们理性思考时,科学以及作为整体的学术研究,才能够满足最基本的理性条件。(理性要求人们孜孜不倦地思索自己想要解决的根本问题。)采取欧陆哲学或分析哲学的进路,会把哲学引向自我毁灭,会导致哲学对它最紧切的任务无计可施——这是完全没有必要的。

那么,为什么会发生这种情况呢?或许部分原因在于,我们未能认识到对根本问题的理性思考有多么重要、多么必要,尤其是在专门化变得越来越猖獗的情况下。在20世纪,学院派哲学并没有努力对抗日渐猖狂的专门化,而是趋向于急切地,甚至绝望地寻找专属于自己的置锥之地。然而,还有一个更为重要的原因,使得哲学在过去的几十年甚至几百年中,逐渐丧失了批判式基要主义的精神。这一困境源于哲学未能解决其一大最根本的问题:归纳法问题。

— Mike Winkelmann

在文章的开头,我提到牛顿是如何在《原理》第三版中,用一个错误论断扼杀自然哲学的;他称万有引力定律是通过归纳法从现象中推导出来的,而没有诉诸形而上学的假说。后来的自然哲学家决定他们必须跟随牛顿,在考虑应该接纳或拒斥哪些规律和理论时,忽略形而上学和哲学,只关心证据。彻底脱离哲学的科学就此诞生。牛顿的科学观至今仍被科学家们认为是理所当然的。这一观念的关键原则是,在科学中,任何关于世界的论题都不能在缺乏证据的情况下成为科学知识的一部分,更不用说与证据相左了。归根结底,证据决定了什么可被视为科学知识。

但是,这种牛顿式的科学观把关于科学本质的根本问题留给了哲学,对大多数哲学家来说,这个问题至今仍未得到解决。这就是归纳法问题;大卫·休谟在《人性论》(1739年)中出色地阐述了这一问题,见第一卷第三部分。可以这样表述:无论我们收集多少证据来支持一条定律或一种理论,都不能证实该定律或理论,甚至不能证明它正确的可能性大于零。这是因为任何物理定律或理论都可做出无限多的预测(predictions),不仅是对过去和现在的预测,也包括对未来的预测,以及对尚未发生(或许永远不会发生)的可能事态(possible states of affairs)的预测。我们离完全验证理论无限多的预测,必然还有无限远的距离。

换句话说,无论一个理论有多么完善,总会有无限多不同的理论与我们迄今积累的证据相一致,但与我们尚未观察到的现象的预测有各种各样的不一致,因为这些现象尚未发生,或者它们涉及的可能事态或实验尚未被创造。例如,假如我们公认牛顿万有引力定律是正确的,同时有一个截至目前在实证上与牛顿理论一样成功的竞争理论,该理论或许会断言:一切都如牛顿理论所预测的那样发生,但是直到2050年,引力突然变成了一种斥力。另一个类似的竞争理论或许会断言:一切都如牛顿理论所预测的那样发生,除了外太空里质量超过1000吨的金球,它们之间的相互吸引符合反立方比定律(而不是牛顿理论的反平方比定律)。这些竞争理论极度不统一,甚至有些天方夜谭;然而,就目前而言,它们和牛顿理论一样,在实证上是成功的。我们甚至可以无休止地编造出不统一的牛顿理论的竞争理论,通过在牛顿理论中增加额外而独立的可检验的假设,让这些竞争理论在实证上更成功。

— Gizem Vural


3


证据不能证实理论。它甚至不能挑选出一个理论——因为总是存在无限多个不统一的竞争理论,它们同样符合现有证据,甚至更为符合。(如果一个理论对适用的现实和可能现象做出了N个不同断言,其不统一度为N;如果N=1,它就是统一的。)

这个著名的问题就是休谟的归纳问题,它实际上决定性地驳斥了科学界至今依然拥护的牛顿式科学观。

有人尝试过把牛顿的科学观从休谟的反驳中解救出来。他们称科学在决定接受或拒斥一种理论时,不仅仅考虑证据,而是要考虑两个方面:(1)证据;(2)理论的简洁性、统一性或解释力。这种观点的优势在于,它更符合目前科学实践的实际状况。那些实证上很成功,却极度不统一的牛顿式理论都被排除了。


但仍然存在一个问题。假如物理学坚持只接受统一的理论——即使有无数不统一的竞争理论同样符合甚至更符合现有事实,便意味着物理学一定对宇宙的本质做出了大有问题的宏大假设,无论我们承认与否。这个宏大假设是:在这个宇宙中,所有不统一的理论都是错误的。大自然有某种深层次的统一性。我们默认该假设是科学知识的一部分,因为那些与之冲突的理论,即不统一的理论都被拒斥了(甚至无视了),无论它们在经验上可能取得怎样的成功。然而,我们在接受深层统一性假设时并未考虑证据,甚至可以说,它其实违反了证据(因为它与无数虽然不统一,却比公认理论更符合经验的理论向左)。这与我所说的“牛顿式科学观”,即标准经验主义相矛盾。

— Jose David Morales

如下结论不可避免:一旦失去统一性这一形而上的假设(无论是隐含的还是公然的),科学便无法前进。之所以说该假设是“形而上的”,是因为它过于模糊,无法由证据证实或证伪。从牛顿那里继承下来的,至今仍被科学家视为理所当然的正统科学观——科学必须只诉诸证据,而不能对宇宙的本质做出独立于证据的形而上假设——是站不住脚的,因此必须予以拒斥。

又该用什么取代它呢?为了回答这个问题,我们必须要认识到这一特定版本的统一性形而上假设,在物理学发展的任何阶段岿然不动,对寻找新理论和接受现有理论都产生了深刻的影响。然而,它仅是纯粹猜想,是个在任何时刻都几乎必然为假的假设的特殊版本——历史便是明证(从17世纪以来,在那些形而上思想中,从微粒论到弦论,已经发生了多次根本性的变化)。我们需要的新型科学明确承认这种实质的、有影响力且大有问题的统一性形而上假设存在,并使它持续经受审查;同时不断发展并批判替代方案,力求改进这一公认的特殊版本。

我将这一新科学观称为以目标为导向的经验主义(aim-oriented empiricism),它将该形而上假设呈现为一组层级式的假设。越沿着层级向上攀升,假设越欠缺实质性,其为真的可能性也就越高,且愈发接近科学所需的真理,或者说使得追求知识成为可能。以这样的方式,我们创建了假设(及相关方法)的层级式构架,它很可能为真;我们可以批判地评估构架低层更具实质性的假设(及相关方法),并加以改进。

以目标为导向的经验主义。
— Aeon

最高层级的假设是,宇宙是部分可知的(partially knowable);据此,我们得以获知我们赖以生存的局部情况。无论认为该假设是真是假,我们已经接纳了它。这样做没有坏处,而且或许能指引我们增进知识以夯实这一假设,无论宇宙究竟是怎样的。即使我们没有理由假定该假设为真,基于狭义的实用主义,我们有正当理由将该假设作为科学知识的一部分。

下一层级假设宇宙是元可知的(meta-knowable);据此我们可以提出关于宇宙的推测,它为真,并且接受该推测使我们得以随着知识的增长,改进那些促进知识增长的方法。换句话说,在我们身处的宇宙中,在增进知识与增进关于如何增进知识的知识之间有类似正反馈的东西。


下一层级假设宇宙在某种程度上是可理解的(comprehensible)。在所有现象中,都有某种内在的东西,它使得事件以特定的方式发生;从原则上说,每件事都可以被解释和理解。这种无处不在的东西可能是上帝,或者是宇宙的目的(所有事件都是为了实现其目的),或者是物理法则的统一模式。鉴于承认了元可知性,可理解性就是一个很好的假设,如果它为真,我们就可以继续打磨出某个可理解性的特定版本,从而大大增进知识。我们提出了各种各样的解释理论;如果有一种解释理论被证明符合特定的实践上的成功,那么元可知性就证明了我们有正当理由专注于以这种特定方式解释的理论。

下一层级假设宇宙在物理上是可以理解的( physically comprehensible);物理定律的统一模式贯穿于所有的现象,根据这个模式,所有的物理现象在原则上都可以被解释和理解。自伽利略以来,这一物理可理解性的假设为科学带来了惊人的丰硕成果。物理学中的连续性理论给越来越广泛的现象带来了越来越强的统一性。牛顿理论、麦克斯韦电动力学、阿尔伯特·爱因斯坦的狭义和广义相对论、沃纳·海森堡、埃尔温·薛定谔、保罗·狄拉克、阿布杜斯·萨拉姆、史蒂文·温伯格等人的量子理论都是如此。鉴于元可知性以及这些事实,我们有正当理由接受物理上的可理解性(除非我们有更好的选择)。

下一层级假设我们有特定版本的物理可理解性,它最合乎当前的物理理论知识,并对未来发展给出最佳保障。目前我们可以说这个假设是弦理论:在10维或11维时空中,所有的东西都是由微小的“弦”组成的。

接下来是我们最容易接受的物理学基本理论——目前是广义相对论和所谓的标准模型(基本粒子和它们之间的力的量子场论)。再接下来,在层级的底部,我们有经验现象——通过实验建立的低层级经验定律。

— Timo Kuilder


4


这种假设和相关方法的层级有助于改进物理学的形而上预设,部分是通过在最有可能为科学进步带来成果的地方(即假设层级的底部)开展想象力探索和批判性审查。另一方面是通过有效地约束低层有价值的新假设;约束力来自两方面:更高层级的假设,以及取得最大经验性成功的物理理论。如果某个低层的形而上假设能够激励最具经验进步性的物理研究项目,或与之密切相关,我们就应该选择它。通过这些方式,目标导向的经验主义的层级结构有助于改进那些已被接纳的较低层级的形而上论题——这些论题最有可能为假。

随着物理理论知识日渐丰满,形而上学的预设也会得到改进,甚至发挥引领作用。在改进形而上假设及相关方法,与改进物理理论知识之间,存在类似于正反馈的关系。当我们提高科学知识并理解宇宙时,我们相应地改进了科学的本质。我们改善了增进科学知识的方法。

其结果是自然哲学,是物理和形而上学、科学和哲学的综合


形而上学、方法论,甚至认识论,这些哲学的传统主题,已经成为科学不可分割的、富有成果的一部分。批判式基要主义的哲学观得到了广泛认可。在以目标为导向的经验主义自然哲学的框架内,科学几乎已经成为哲学的一部分!科学和哲学之间的分离曾深深伤害了哲学,而如今二者重归于好。哲学在科学中扮演着有卓有成效且至关重要的角色;它的一些问题处于科学研究的前沿。还有一个好处是,目标导向的经验主义自然哲学完成了牛顿科学不能做的事情:它解决了休谟的归纳问题。

还有更多,甚至更重要的影响。目标导向的经验主义可以推广开来,形成一种新的理性观——目标导向的理性,我们可以将这种理性注入任何目标存疑但颇具价值的人类事业。无论是个人的、社会的、制度的还是全世界的,人们行动的真正目标往往是有问题的,或是因为它们与其他值得欲求的目标相冲突,或是因为它们根本无法实现,抑或两者兼而有之。显而易见,这些问题都与实现美好文明世界的宏大目标相关,而这一目标根本上也是有问题的。过去创造文明的种种努力,无论是左派还是右派,结果都是南辕北辙,反倒创造了各种各样的人间地狱。在这里最重要的是,我们需要把目标导向的理性付诸实践,这是将目标导向的经验主义的进步方法推广得来的。

我们需要将文明的目标呈现为层级式的,随着层级上升,这些目标变得越来越不具体,也越来越可靠。通过这种方式,我们为自己提供了一个相对可靠的目标与方法的框架(位于高层),在这个框架中,那些更具体、更存疑、更有争议的目标以及相关方法(位于低层),会在我们的生活与行动中不断改进。简而言之,我们可以从科学进步中学习如何实现社会进步,走向一个美好文明的世界。

通过将科学方法推广到社会生活中,我们可以开始取得真正的社会进步,迈向文明世界——可以说这类似于科学在智识上所取得的进步。我们将有希望开始解决威胁着人类未来的严重全球问题:气候变化、自然世界的破坏、人口增长、核武器的威胁,等等。发挥目标导向的理性以应对问题如此重要,我们迫切需要利用一切学术资源来指导我们的实践。学术界需要转变,以帮助人类解决这些生活中的冲突与问题为其基本任务;如果我们要朝着一个真正文明的世界发展,就必须解决这些冲突和问题。


原文链接:https://mp.weixin.qq.com/s/7bzp_Ihpc4MVyFD1GRZSKg


编辑:董莉


112#
 楼主| 发表于 2019-7-28 23:07:39 | 只看该作者
【案例】
AI技术的第四次浪潮可能是:

AI技术三次浪潮
依据DARPA基于技术特征对AI技术发展阶段的分析判断,AI已经历第一波和第二波浪潮,将迎来第三波浪潮。
第一波AI技术浪潮开始于上世纪60年代初,以“手工知识”为特征,通过建立一套逻辑规则来表示特定领域中的知识,针对严密定义的问题进行推理,没有学习能力,处理不确定性的能力很弱。
第二波AI技术浪潮开始于上世纪60年代末,以“统计学习”为特征,针对特定的问题域建立统计模型,利用大数据对它们其进行训练,具有很低程度的推理能力,但不具有上下文能力。
第三波AI技术浪潮以“适应环境”(上下文自适应)为特征,可持续学习并且可解释,针对真实世界现象建立能够生成解释性模型的系统,机器与人之间可以进行自然的交流,系统在遇到新的任务和情况时能够学习及推理。AI的持续自主学习能力将是第三波AI技术浪潮的核心动力。
——————
第四波AI技术浪潮以“深度适应环境”(更大上下文自适应)为特征,可持续学习+不可持续学习并且可解释+不可解释,针对真实+虚拟世界现象建立能够生成适度主动解释性模型的系统,机器与人之间可以进行主动的交流,系统在遇到新的任务和情况时能够人机互学习及互推理。AI中的人机主动互学习互理解互辅助……主动互助互补能力将是第四波AI技术浪潮的核心动力。



原文链接:https://mp.weixin.qq.com/s/BCq_vp6QCAiyxhxWA6GDSg


编辑:董莉

113#
 楼主| 发表于 2019-7-28 23:11:30 | 只看该作者
【案例】
会议综述 | 技术与社会的认知纠缠

由“中国人民大学哲学与认知科学跨学科平台”举办的“认知、演化与哲学”跨学科工作坊于2019年7月9日至10日在中国人民大学人文楼500会议室举行。来自圣母大学、科隆大学、纽约大学、兰卡斯特大学、中国人民大学、中国社会科学院、北京师范大学等高校和科研院所的20余位学者参加了本次会议。本次会议第一天是以认知、演化与哲学为主题的报告与圆桌会议,第二天则是跨学科座谈会。

    中国人民大学刘晓力教授做开场致辞表示对各位学者的欢迎,并向各位参会者介绍了中国人民大学哲学与认知科学跨学科平台基本情况。Oliver Davies教授对国际学者进行介绍,并主持第一场AGUSTíN FUENTES的主题报告。

01
心灵、物质和意义

奥古斯丁·福恩特斯(AGUSTíN FUENTES)
美国灵长类动物学家,生物人类学家,现为圣母大学(University of Notre Dame)人类学系主席、教授。主要研究人类和非人的灵长类之间的互动、病菌传播、交流、合作,并从神经学角度探究人类的社会性演化。他对巴厘群岛和直布罗陀地区的猕猴和人类之间疾病传播的研究,在灵长类动物学领域产生了重要影响。
奥古斯丁作了第一场题为 “心灵、物质和意义:技术、社会性和自由在人类演化中的纠缠 ”的发言。他认为人类演化充实了认知、哲学和具身性的观念,这一过程尤其和技术和社会性相关。对过去两百万年期间人类的演化的考察,不单是对我们所使用工具的研究,还作为一种历史的哲学思考,深入构建我们对技术和人工智能的叙事方式。
此次发言分为三个部分:第一部分是对人类演化和人类小生境(human niche)的概述,介绍了人类演化中技术与认知的共同演化以及社会性的核心作用。依据达尔文的演化概念,演化不仅强调连续性/共通性,而且强调非连续性/差异性。奥古斯丁将人类和灵长类动物进行比较。人类是灵长类动物的一部分,与其他大部分动物相比,具有更强的社会性和更复杂的认知。通过介绍早期人类-更新纪人类-南方古猿-现代人不同时期的状态,他指出人类在脑容量、神经网络的可塑化、复杂化以及传播迁徙的速度、广度和效率上的增长规模造成了人类的独特性。上述演化改变了人类的大脑、身体以及习惯,并塑造了新的人类小生境,即我们在世界中的存在环境与方式。这一方式本质上是社会性的、复杂认知的以及技术的。
第二部分是技术、社会性和自由在人类演化过程中的纠缠(Entangling)。通过三个有关石器、符号和驯化的案例研究,奥古斯丁认为,人类的历史就是从简单的工具到想象力和艺术产生再到建立全球性连接的过程。必须通过跨学科交流才能了解这一过程。人类建立的人类小生境是一个技术化和社会化的过程。人的技术化包括获取和传播物质材料、学习和发展生产方法、可复制性以及使用和创新,并为抽象语言系统提供准备。抽象能力被心灵所构建,但人类不仅建立了这种能力,而且将它投射到外部世界,并将其转化为现实。人类不仅具有独特的社会-认知小生境,而且建立了普遍的符号生态系统。与人工物之间的相互作用扩展甚至构成了人的认知和社会性。同时,社会支持、推动、持续以及技能习得过程中的个人控制,在技术化过程中至关重要,即这个过程的延续需要借助人的社会化,即人的之间社会联结、合作、关怀以及教化。人对植物和动物的种植和驯化也对人类社会产生了影响,改变了人类的密度、活动区域以及思维方式等。
第三部分为总结,回答何以将人类演化的观念和人工智能联系起来。奥古斯丁提醒到,人类的认知演化,不仅仅只与大脑、基因等相联系,它还应包括与前者权值相等的技术、社会性、认知、意识形态以及观念等元素。人类的认知和演化也不仅只与生物个体相关,还应包括我们所赖以生存且投射其中和进行改变的生态环境。他建议,人工智能中的最重要问题并非是如何设计结构、以及如何做决策,而是认知实体间是如何相互作用的。
奥古斯丁认为对人类演化的考察,有助于我们更深层地理解人的叙事方式的发展以及对自由观念的理解,并更有效地构建认知、技术和具身之间的关系,从而对人工智能的发展作出贡献。在此次发言中他也展示了部分在中国的人类学最新的重要研究,并表示自己希望在中国这个不同于西方的语境下,和在场学者共同讨论认知、具身等观念。
最后参会者就为何人类演化持续了如此之长的时间、个体和交流在技术和社会纠缠中的作用以及石器工具中的其他意图(例如审美意图等)、类比和隐喻这类抽象意义是先天还是后天形成的等问题以及核武器、性别、人类小生境等主题进行了进一步讨论。

02
主体间性:认知过程、神经机制与差异来源


     凯·伏格利(KAI  VEGELEY)
     科隆大学精神病学和心理学系教授,其研究领域主要是社会认知与神经科学。近年来的主要兴趣是基于fMRI技术研究人类在社会认知上的底层基础。

第二场报告是来自科隆大学的凯·伏格利(KAI  VEGELEY)的 “主体间性:认知过程、神经机制与差异来源”。

报告从5大主题对主体间性的认知过程与神经机制进行了介绍。第一个主题是关于人对他人感知这一主题研究的历史回顾与纵览。伏格利以密尔关于他心问题的反思为切入口引出了心理学与哲学对他人感知这一问题的近代思考。从同理心概念再到米德(G.H.Mead)提出的符号互动主义中对自我和他人的定义,对他人的感知得到了更加清晰与具体的描述。而在赫德(Fritz Heider)对于“对人知觉”和“对物知觉”的区分中,对这一问题的回答得到了心理学方面的经验支持。总的来说,人类之间的感知与互动在今日成为了认知科学的核心问题。随后,伏格利介绍了主体间性的分类学图示,并强调了社会文化对于我们在主体间认知的密切影响。

第二个主题介绍了在代入自我与他人的不同视野时的区别。伏格利通过不同的心理学实验以及FMRI成像图展示了不同的视角对判断以及能动性体验上带来的差异。

在探测与评估这一主题上,伏格利以一组实验为例介绍了人类在观察一个具体的他人行为时大脑中存在的不同功能角色。这包含评价行为本身性质以及行为者的方式(所带有的情绪)这两个部分。这一实验中,实验者以3D模拟人像和2D模拟人像两种方式将行动的身体运动图示呈现给被试,并通过对他们脑成像图的分析和对比来说明探测与评价这两个过程在神经层面上的区分。

第四个主题则以“凝视”实验为基础,介绍了凝视实验所反映的人类的他人感知在归因与互动方面所产生的影响。该部分实验还着重考察了跨文化间的差异以及在图灵测试中人机互动中反映的差异。

在最后的展望部分,伏格利介绍了大脑功能的默认模式以及各功能在不同脑区的成像图。并在最后提供了社会认知在时间延展中所呈现的四类图景。它们分别是回忆、前摄、心灵理论与空间导航。这使得我们可以对当下的知觉有着丰富的不同想象。在伏格利教授的报告后,奥古斯丁教授对该报告进行了一个简略总结。他认为该报告为社会性认知在大脑的神经层面上的基础给出了一个确认。

03
意义与跨生物感性


KYOO LEE
    纽约城市大学教授,主要研究领域为欧陆哲学及文学理论。她近年来关注跨学科研究,尤其是在艺术与媒介间的理论写作。
Kyoo Lee教授随后以“意义与跨生物感性:沉思与计算之间的后笛卡尔主义联合”为题进行了主题报告。她以笛卡尔作为基础开始了她的汇报,她认为基于对笛卡尔的不同解读可以为当下媒体与科技所带来的新的感知类型提供理解。她随后以人工智能索菲亚为例提出了AI的主体地位这一问题。并以此开始了对”感觉“这一概念的理解。她从梅洛庞蒂对知觉的分层出发,结合科技对感觉的影响,尝试重新定位当前时代的知觉特征。她所提出的核心概念跨生物感性正是对于这一问题的回应。
随后奥古斯丁就认知的具身性与科技间的关联与李进行了讨论。盖尔则指出了身体的差异以及与技术组建之间的关系。伏格利则讨论了笛卡尔的二元论与李所提出的后笛卡尔主义中包含的具身性想法之间的关联。

04
生命中不可承受的技术性

查理·盖尔(CHARLIE GERE)教授
来自兰卡斯顿大学当代艺术学院
查理·盖尔(CHARLIE GERE)教授题为“生命中不可承受的技术性”的发言对技术性(technicity)在人之为人中的作用表示了肯定。查理用人类技术世(Anthropotechnocene)来统指人类成为地质力量的“人类世”(Anthropocene)和新技术快速涌现的技术世(Technocene)这两大现象,并指出其原因在于人类始源的技术性。但是人类技术世比上述两个年代更久远,可追溯至人双脚直立的时期,并借用勒鲁瓦-古汉(Lerio-Gourhan)的研究指出,人起源于其技术性,而技术性并非简单地使用或制造工具。技术性塑造了人体本身,人类的语言和工具的使用是直立而非脑容量扩张的结果。直立行走带来了双手的解放和面部骨骼的塑造,使人能够使用工具和发出复杂语音。此外,借助斯蒂格勒(Bernard Stiegler)的研究提出,技术性还模糊了内在和外在的区分。人并没有一个先于制造和使用外在工具的内在智力的存在,与其说人改造了世界,不如说世界也改造了人。查理从“李约瑟问题”出发,认为对李约瑟问题的回答,必须与中国和西方两种不同语境中的技术关联起来,并以书写(技术)为例,比较了西方的字母书写传统和中文的汉字,尤其强调了汉字与书法、文化、道德以及仕途之间的联系。


05
李约瑟问题和行星智能

奥利弗·戴维斯(OLIVER DAVIES)教授报告
奥利弗·戴维斯(OLIVER DAVIES)教授随后就”李约瑟问题与行星智能“进行了主题报告。该报告以宏大的视角探讨了人类认知的两大类型以及它们在哲学上的深刻含义。奥利弗以社会性推理与技术性推理作为起初的讨论框架,并介绍了将人类视为社会人与工匠人的两大视角及其差异,但随后他指出了这一划分的偏颇之处。传统的李约瑟问题在这一框架下也被解释为对技术性推理的过度强调。奥利弗指出,需要将两种推理结合,才能使我们理解联合决策。基于联合决策的模型,他将推理重新划分为理论推理、实践推理与社会性推理并在三种类型下为人类的自由进行了定位。并引用了列维纳斯关于他人的理论以及利科的阐释学结合意识的IIT理论为社会各层面上的整合进行描述和分析。

06
圆桌讨论:技术与社会性
接下来,与会学者进行了两场圆桌讨论。在第一场圆桌讨论中,中国学者们就“技术与社会性”这一话题进行了跨学科对谈。

李绍猛副教授与段伟文研究员
中国社科院的段伟文研究员作“技术、生成与缠斗”的发言,讨论了作为主体性装置的技术以及技术时代的自由与能动性问题。提出人类迄今为止发展处四类框架:语言、书写、机器和数据,他们都具有呈现事实与制造幻象、生成主体和制约主体双重作用。主体的基本自由在于自我调适的可能性,主体性得以创制的前提是使主体具有对可能性保持开放的能力。他认为批判理论等对技术及其工具理性的哲学批判固然揭示了人为技术发展所付出的代价,但真正的问题在于,装置与技术治理所呈现或捕获的主体的实象是否会抑制或窄化主体寻求新的生成方式的可能性?特别值得追问的是,智能机器及其所奉行的“可能的政治”是否会导致绝对剥夺主体对可能性的选择的趋势?而这种趋势会不会进一步导致对行为的可能性的预控,而非对行为意图与后果地治理。
北京师范大学的李绍猛副教授则以“自由意志的社会维度“为题,提出为何自由意志的观念在中国传统中完全缺失的问题。通过对基督教一神论和中国传统政治一神论的比较,认为自由意志(1)是非生物性的,是社会、文化和政治长期演化的产物;(2)有助于促进和改善自由;(3)能在法律术语中被最好地诠释,它与责任和行为等社会知识相关。自由意味着为自身的行为负责。人只有在社会制度的赋权下做特定事情时才是自由的。西方具有较高程度的个体性,个人具有拒绝的权利;但是中国古代统治者囊括了所有的赋权,通过儒学的教化,普通人只有遵从和执行的权利,这并不利于自由意志的产生。

王小伟副教授
中国人民大学的王小伟副教授则将技术放在儒家传统中考察,提出工具并非一直如现代技术一样,将技术的实践降至为技术的实用性。技术不仅仅具有实用功能,它还体现了仪式和审美维度。

07
中国传统视角下的技术、社会性和自由

奥利弗教授、姚新中教授和谢林德教授对谈
在第二场圆桌讨论中,来自中国人民大学的奥利弗教授、姚新中教授和谢林德(Dennis Schilling)教授,从中国传统的视角对技术、社会性和自由进行讨论。奥利弗认为社会性对人性来说更基础, 因而需要跨学科路径,同时我们也需要兼顾“我们从过去学会了什么”这一问题。而中国有着对社会中人性分析的长期传统。在人类学传统中,中国汉字被视为社会技术的一种形式,加强了集体意识;对汉字的学习也展现了礼仪和社会联结的认同感。对中国传统的更好诠释,加之与社会认知和演化相关的新科学,我们可能开辟对人类社会性如何起作用的新的理解。

08
方法论的反思
工作坊第二日,与会学者就方法论层面的反思进行了讨论。奥利弗首先以”对共同未来的责任分有“为题就科学、宗教、哲学与政治间的跨学科研究进行了讨论。在他看来,这一跨学科讨论可以为气候变化与人工智能管理等新兴问题提供一个新的视野。他以哈默斯坦与斯蒂芬在2012年的著作”演化与决策的机制“为基础引出了人类如何在群体中对高层的信息进行整合的问题。这一群体决策在奥利弗看来是人类演化历史中的得以存活的关键。而在当代社会与科技背景下,大量的人口使得群体决策会更加异质性且复杂。因此,从地方到全球的连续视野下理解群体决策成为了一个重要的问题。随后奥利弗以艺术为例探讨了古代在物种尺度的联合决策在当代的可能影响,随后以仪式和科学间的关系探讨了另外一种全球性联合决策的可能。在最后,奥利弗简单回顾了哈默斯坦与斯蒂芬著作的重要章节,并引出了中国与西方在社会性的差异这一主题。
随后,伏格利对奥利弗关于团体决策在演化中的位置以及与其他项之间的关系给出了一个自己理解的图示。在这一框架下,大家就中国或东方传统与西方现代性之间的差异可能带来的认知差异进行了讨论。奥古斯丁认为如果我们需要从东方传统中获得处理团体决策或者当前问题的助益,就应该需要为东方传统某些方面的优势进行辩护。因为人类学角度上这种文化差异是常见的,但并不必然带来优势。随后,谢林德教授提供了一组来自诗经的文献,并以此介绍了中国古代楚地文明在宗教、政治上的一些特征。随后诸位学者进一步讨论了汉字的独特性以及它在跨时间传播上的优势等因素可能带来的认知影响。






编辑:董莉

114#
 楼主| 发表于 2019-7-28 23:14:29 | 只看该作者
【案例】
从统计和机器学习的关系,反思数据科学,指出未来方向

小编的话:本文的作者龚鹤扬是中科大统计学的博士,他之前曾建议我翻译下Hernan(2019) A Second Chance to Get Causal Inference Right: A Classification of Data Science Tasks,这篇文,我很欣赏这篇文,但不喜欢简单的翻译,而偏好对多篇文章的汇总或者点评,因此这件事就放下了。这篇小文龚鹤扬改了好几次,我问他后面的大段英文为何不翻译,他说这里的英文写的太漂亮了,怕翻译不好,因此就全文引用了,不过这对于巡洋舰的读者应该不是问题。

数据科学自古以来就是统计学的阵地, 然而这个阵地正在被机器学习蚕食。很多统计学家总是假定出一个模型,然后就说他们的模型怎么怎么好,但这是在很强的假定之下,比如数据一定要满足什么数学条件。一定要在这个条件下他们的模型才很好,他们最苦恼的就是寻找符合他们条件的数据(为了发表文章),但实际上只有老天爷才知道是否存在这样满足他们条件的数据(by 人大统计教授吴喜之)。统计学家总是在限制自我,Statistics are ruling out of all interesting questions(by Judea Pearl )。脱离实际的统计不但是无用的,而且是有害的,如今依然有很多教授在做着有害的统计学。

Leo Breiman,加州大学伯克利一个很有名的教授(CART决策树、bagging及随机森林发明者)是最早意识到经典统计学界问题的先驱者,故而在2001 写了一篇及其重要的文章《统计建模:两种文化》(Statistical Modeling: The Two Cultures)。该文章狠批了把数据限制在假定模型中的经典统计学界,然后大力推广他在商业咨询中用机器学习做算法模型的有效经验。涉及的两种文化包括:

  • Data model 是指一些模型认为数据的生成是已知的,是可以假设的。统计模型通常是假定了数据的生成过程,假定了模型变量的分布,是数据模型。
  • Algorithm model,是假定数据的生成过程是未知的和复杂的,一些机器学习,深度学习算法通常是算法模型。

这篇文章是机器学习和统计学在抢占数据科学这个阵地的第一篇高屋建瓴的深刻文章,影响了数据科学的发展路径。然而到今天将近20年过去了,机器学习取得了重大的胜利,甚至很多时候人们认为 AI 等于机器学习,而经典统计学中很有优秀的教授都已经行动了。

  • 港大统计系系主任在2018年会上,呼吁系里面的老师用于拥抱AI。
  • 美国两院院士统计学郁彬教授在去年在北大做报告的时候,批评北大统计系的老师眼里只有四大期刊,把自己圈子越做越少,呼吁新时代的统计学应该包括机器学习。
  • 普林斯顿统计学教授范剑青今年刚刚发表第一篇关于 deep learning 的综述 on arxiv。

无数的机器学习应用已经落地,很显然,近20年来我们统计学的相关应用难以相提并论!我们数据模型文化并没有取得很大的进展!AlphaGo不是用数据模型,Deepfakes不是用数据模型,语音识别不是,人脸检测图像识别都不是。

机器学习,深度学习表面上大获全胜,然而却遇到了很多问题,于是有一种观点认为,AI应用的边界渐渐清晰,就是在语音和视觉领域。究竟遇到了什么困难呢?Pearl(2019) 认为是如下的三个困难:

  • Robustness (or adaptability) 也就是稳健型。
  • Explainability 可解释性。
  • lack of understanding cause-effect relationships 没有因果推断的能力。

这个三个困难是当前AI,当前数据科学的主要困难,科学家在尝试各种不同方法客服这些困难。Pearl(2019) The Seven Tools of Causal Inference, with Reflections on Machine Learning,这篇文曾经有过介绍让神经网络变得透明-因果推理对机器学习的八项助力

Pearl 提出解决现在的困境必须让机器学习因果推断,具体来说就是回答如下问题。
How can machines represent causal knowledge in a way that would enable them to access the necessary information swiftly, answer questions correctly, and do it with ease
这个问题在 Pearl的书籍《为什么》中被称做小图灵测试。当然有很多科学家针对AI面临的问题会有许多不同的解决方案,包括元学习,深度强化学习,规则学习知识图谱等等,但是个人觉得通过小图灵测试是众多方法构建强人工智能中最重要的一步。
Hernan(2019) 认为我们现在需要重新定义数据科学,需要因果推断放在数据科学的核心位置,数据科学的任务包括三类,描述,预测和反事实预测,具体来说:

  • Description is using data to provide a quantitative summary of certain features of the world.
  • Prediction is using data to map some features of the world to other features of the world.
  • Counterfactual prediction is using data to predict certain features of the world as if the world had been different, which is required in causal inference applications.

对于很多人来说,什么叫做反事实预测呢?
简单来说就是回答这样的问题:如果当初我 。。。, 那么现在会怎么样?如果我天天锻炼,以后会怎么样?Pearl 总结就是 “what if" kind of questions. 学术一点来说就是干预(interventional)问题和反思问题(retrospective or explanatory):<span class="" tabindex="0" data-mathml="X=x" role="presentation" style="max-width: none; box-sizing: border-box; display: inline-table; line-height: normal; word-spacing: normal; overflow-wrap: normal; float: none; direction: ltr; max-height: none; min-width: 0px; min-height: 0px; border: 0px;">what if I had been acted differently?

Hernan(2019) 中最后的结论是:
Data science is a component of many sciences, including the health and social ones. Therefore, the tasks of data science are the tasks of those sciences—description, prediction, causal inference. A sometimes-overlooked point is that a successful data science requires not only good data and algorithms, but also domain knowledge (including causal knowledge) from its parent sciences.
The current rebirth of data science is an opportunity to rethink data analysis free of the historical constraints imposed by traditional statistics, which have left scientists ill-equipped to handle causal questions. While the clout of statistics in scientific training and publishing impeded the introduction of a unified formal framework for causal inference in data analysis, the coining of the term “data science” and the recent influx of “data scientists” interested in causal analyses provides a once-in-a-generation chance of integrating all scientific questions, including causal ones, in a principled data analysis framework. An integrated data science curriculum can present a coherent conceptual framework that fosters understanding and collaboration between data analysts and domain experts.

参考文献
  • Breiman(2001) Statistical Modeling: The Two Cultures
  • Jianqing Fan(2019) A Selective Overview of Deep Learning https://arxiv.org/abs/1904.05526
  • Pearl(2019) The Seven Tools of Causal Inference, with Reflections on Machine Learning
  • Hernan(2019) A Second Chance to Get Causal Inference Right: A Classification of Data Science Tasks




原文链接:https://mp.weixin.qq.com/s/stB1f8fsB4C_8QpmIq9OZg


编辑:董莉

115#
 楼主| 发表于 2019-7-29 21:45:38 | 只看该作者
【案例】

何怀宏 | 人物、人际与人机关系——从伦理角度看人工智能【2018《探索与争鸣》佳作系列之六】
人物、人际与人机关系——从伦理角度看人工智能
何怀宏 | 北京大学哲学系教授、博士生导师
原载《探索与争鸣》2018年第7期,第27-34

内容摘要
传统的社会伦理一向是以调节人与人的关系为中心,现代伦理学近年则开始比较系统地反省人与物之间的关系,而未来的伦理学大概还需要将人与智能机器的关系纳入其考虑范围。这主要是因为人赖以获得对其他所有自然物的支配优势的智能,将可能被机器超越。关于人机关系的伦理思考,一种思路是倾向于做减法而非做加法,即优先和集中地考虑规范智能机器的手段和限制其能力,而不是考虑如何设定和培养机器对人类友好的价值判断,亦即尽量将智能机器的发展限制在专门化、小型化尤其是尽可能的非暴力的范围之内。
美剧《西部世界》剧照
伦理是有关生活价值与行为正邪的探讨。而无论生活还是行为,都是在人的关系中展开的,人的世界就是一个关系的世界。这些关系包括人与自然的关系、人与人的关系,乃至人与自我的关系、人与超越存在的关系。今天的世界出现了一个极为重要的新情况,就是人工智能的飞速发展使一种新的物——智能机器也出现在伦理思考的范围之内。
继人从自然、从物中分离出来后,一种新的存在也有可能再分离出来。这种新的存在既是物,初始又是人创造的。它结合了人与物的两方面性质。它是不是有可能取代人目前所取得的超级物种的地位?这是人工智能对人类提出的最大挑战。对此笔者将另文探讨,这里主要从伦理的角度探讨对人机关系的认识,探讨人们对目前的智能机器能做些什么,能提出一些什么样的基本伦理思路与规范。
人与物的关系
世界上除了人,还有物。人本来也是物,现在也仍然还可以笼统地归于物或者说一般的存在。但如果从人的特性,从人的能力、意识、道德而言,人就可以区别乃至对峙于地球上的其他所有物。这样就有了人与物的关系,但人与自然物的关系长期以来并没有纳入道德的理论系统中来考虑,没有成为一种道德理论或生态哲学的体系,直到20世纪下半叶才发生改变。
我们可以从不同的时间长度来回顾人与物的关系的历史:地球史、生物史、动物史、人类史和文明史。前面的历史包含着后面的历史。当然,前面三种只是一种人类的史前史,只是方便我们看到人类的自然来源。
人猿揖别,人先是直立起来,就腾出了两只手,手的拇指能与其他手指对握,就能够握持和制作工具;火的发明使人能吃到熟食乃至保存,它促进了脑力的发展,而且人工取火还能成为生产的工具,如利用火把来驱赶和烧死动物。人从一开始大概就是群居动物,有了意识之后更懂得分工合作。
二三十万年前出现的现代智人,还在以采集狩猎为主的石器时代就已经造成大量物种的消灭了,他们用火把、呐喊、石块、木棒等,利用分工协作的群体力量,将其他动物驱入山谷,使之大量死亡,真正吃下去的其实只是很小的一部分。而且他们的狩猎对象首先是一些大型陆地动物。
很长时间内,人对天空中的鸟和深水中的鱼都不太能够顺利地把控,他们缺乏这方面的能力,甚至对微小生物也不如对大型动物有办法。根据近年的研究,智人大致是从东非出发,后来分别到了亚洲、欧洲、澳洲、美洲。而他们走到哪里,就造成那里的一些大型动物迅速减少甚至灭绝,甚至一些原先的人种也消失了。
这大概是人与物的关系的第一阶段,即他从其他动物中脱颖而出,能够借助工具和智力来与任何一个物种甚至所有物种对峙与抗衡。第二个阶段则是从仅仅一万多年前的人类的农业文明开始。人在文明史的阶段,逐步变得不仅能够抗衡,而且能够支配其他所有的物种,成为地球上的主人。
他获取食物和能量的方式,开始从以采集狩猎为主转到以种植畜牧为主。他不仅利用无生命的物体如石块作为工具,也开始利用其他的动物作为工具了。他利用畜力来延伸和扩大自己的体能,不再只是获取现成的自然物,而是通过改变自然物的形态以达到自己的目的。各种栽培的作物、驯养的动物,都不再完全是原先的样子了。
人开始以越来越大的社群定居,经济生活有了稳定的预期,可以养活少数的有闲阶层来专门从事文化的工作,直到出现城市、文字、金属工具和国家,乃至出现轴心时代的精神文明。
到了近代工业革命又是一个飞跃,人发明了蒸汽机、内燃机、电力,人利用煤、石油等自然资源,设计和大批制造了各种机器,极大地增强了人征服自然的能力。人在农业文明时代对自然物的改造,多少还能够看出原来的模样,工业革命时代的产品,就几乎看不出原来的模样了。人大大地改变和提升了各种获取食物和能量的方式。这各种各样的人造的机器已经不是自然物了,但却还是没有自身智能、不能自我学习和独立改进的人造物。人真正成了地球上所有自然物的主人,他能够轻易地战胜所有其他物种或其联合,能够移山填海,改变自然界的面貌。
那么,人是依靠什么达到这一切的呢?在这一过程中,人的体能并没有什么长进,在某些方面可能还退化了。人迄今在速度、力量、耐力、柔韧等方面还是不如地球上现有的某些动物,但他却完全可以支配它们。他使它们就范所依靠的当然不是他的体能,而是他的智能,是他的智能所带来的具有极大优势的暴力和强力。人和其他动物之间自然也就处在一种很不平等的关系之中,只是到近年人类才稍稍有所反省和补救,但这种关系的不平等性质并不可能改变。
人依靠他的智能,可以大大扩大和延伸他的体能,甚至完全不用自己的体能而办成他想办的事情。人哪怕开始只是比其他动物似乎稍稍聪明一点,也会带来越来越大的差距。智能贯穿人类进化的始终,今天看来更是独领风骚。这里所说的智能自然不是人的意识能力的全部,而主要是指人对物质世界的认识和控制能力,人另外还发展起一种试图认识世界之根本、人生之意义以及审美、艺术等诸多精神领域的能力,人与其他动物的不平等的缘由和本质差别甚至更多地是来自这些方面。但控物的智能却是人类对其他动物取得优势和支配力的主要依靠。
当人类进入文明阶段,有了劳心阶级、国家和语言文字之后,智力则有极大的、飞速的长进。于是我们看到了加速度乃至指数速度的发展:地球有约40多亿年的历史;生命有30多亿年的历史;动物有约7亿年的历史;人类有近300万年的历史;现代智人有20万年的历史;文明有1万多年的历史;国家有5000余年的历史;工业革命有300年的历史;而新的或可称作智能革命的高科技文明则大概只有五六十年的历史。
人只是到了文明阶段,有了明确的自我意识,有了明确的人禽之别的意识,才有了一种实际上存在的道德关系。但是,对人与物的道德关系的系统认识和有意识的调节,还要到文明的更高阶段。而且,即便是文明阶段的人和人之间,还有时重新堕入那种动物般的生存竞争的状态,这时对双方几乎都没有什么道德可言,很难对其中的一方做出赞扬或谴责的道德评价。但这可以说是非常状态,对为何堕入这种非常状态,还是可以做出道德评价并进行各种补救和调节。
对人与物的道德关系的调节,必须首先解决一个道德地位moral standing)的问题。人在征服其他物种尤其是动物的过程中,并不理解其他动物的全部感情和感受,甚至没有尝试去理解。他也不是对它们怀有恶意,人捕获它们、吃掉它们,并不是出于憎恨。人和人之间毕竟都是有自我意识的,但动物、生物乃至其他一切自然物没有这种自我意识,无法成为道德的主体。但人是否就可以随心所欲地对待它们呢?它们是不是还能获得一种得到人的道德对待的地位呢?这种道德地位的根据是什么呢?
对这种道德地位的根据的问题,各种生态伦理学理论有一些不同的回答。但大都认为,其他物种或物体也具有它们内在的、固有的或天赋的价值。其他物种或物体虽然没有意识,不是道德的主体moral subject),但它们因为具有这种内在价值,也应当成为道德关怀的对象(moral object)或者说道德顾客moral patient),而人也应该成为对它们进行道德关照的代理人或代理主体(moral agent)。
当然,除了道德地位,还会有一种道德重要性的考虑。即均获得一种需要关照的道德地位的其他物种或物体,还是有一些不同的道德重要性。比如动物看来就因其具有感受性而应获得更大的关照,像虐待动物就应该首先在排除之列,其次是有生命的物体,再次则是无生命的其他所有物体。当然,也可以将整个的自然环境视作一个生态系统来考虑。
人与人的关系
伦理学的中心,尤其是传统的伦理学可以说主要是处理人与人的关系,即人际关系。对这种人与人的关系,有时容易仅仅理解为个人与个人的关系,中国传统的伦理学尤其注重亲人之间的关系。但广义的人际关系应当包括三个方面:第一是个人与个人的关系或者自我与他人的关系,比如一个人与亲人、朋友、熟人、生人的各种关系;第二则是个人与各种群体,诸如因地域、种族、文化、宗教、政治乃至兴趣而结成的大大小小的群体的关系,这里最重要的还是个人与国家的关系;第三则是人类的各种群体与群体的关系,这里最重要的大概也是国家与国家的关系,或者说政治共同体之间的关系,还有宗教团体之间的关系。而在人类世代之间甚至还可以说有一种代际关系
人与人之间的道德关系和行为规范是不是大致在进步呢?采集狩猎时代的人结成小的原始群体,内部非常平等,但对外部的其他人类原始群体则相当暴力或者说残忍(如果说能够用这个具有道德意味的评价词的话)。农业文明阶段则出现了国家,在各个政治社会之间还是有相当的冲突,但不是像原始时代那样你死我活了;在政治社会的内部则更加温和与和平了,人们通过政治秩序更能保障自己的安全与生养,但这是建立在某种等级制的基础之上的。到了现代社会,道德调节范围不断扩大:所有的人都被视作平等的个体,虽然从生存平等、人格平等到基本人权的自由平等,也有大段的曲折。
而暴力的减少也是一个总体的趋势,虽然也有曲折乃至大的波谷,像20世纪上半叶就爆发了两次世界大战和许多内战、骚乱,但二战之后的总体发展是暴力大幅减少,尤其是在发达国家与迅速发展的国家内部,我们甚至看到它延伸到家庭和学校,霸凌和体罚等都呈现日趋减少乃至禁绝之势。人们的最低生活保障标准也在不断提升,如食物、医疗条件的大幅改善,瘟疫的趋于消灭,人的预期寿命普遍增加。道德调节的范围乃至扩展到所有生灵和自然物——虽然在要求的程度上有所不同,这种人物关系的改善或也可以说是人际关系改善的一种延伸。
如果我们以暴力与平等的两个标准来考察人类道德的进步,那么在暴力方面大致是一种相当平滑的线条:在人类的前文明阶段,或者说采集和狩猎的阶段,暴力是相当频繁和残酷的;在农业文明的阶段,暴力减少了;在工业文明的阶段,虽然也有起伏,但至少从截至目前的总体趋势而言,暴力继续减少了,虽然足以毁灭人类数十次的大规模杀人武器还存在。从平等的角度观察,则大致是一条曲折的线条:在采集狩猎阶段,有一种内外有别的内部高度平等;在农业文明阶段,则基本上是一种不平等;到了工业文明阶段,则走向了一种比较全面的包括所有社会成员和囊括各个方面的平等。
暴力与平等,不仅是我们观察人际关系的两个最重要的道德标准,也可以作为观察人物和人机关系的重要标准。反对暴力和非法强制涉及到生命和自由的基本原则,构成在各文明和宗教中诸如摩西十诫中的四不可、基督教金规和儒家忠恕之道这样的道德规范的核心内容。像国家这样的强制暴力固然还是不可缺少,但产生这样的暴力还是以以暴制暴为宗旨的,它针对的正是人类的暴力行为。虽然这种国家暴力也会被滥用,但如果它能遵守这一宗旨,且必须经过一定的法律程序才能实行,那么,它还是能被人们广泛接受。
人类目前已经历了原始群体阶段的内部很平等和外部多暴力、农业文明阶段的不平等和少暴力、工业文明阶段的广泛平等和更少暴力的过程。人与自然物的关系近年虽有诸多改进,但还无法处在一种像人与人之间的平等地位。新出现的生态伦理学理论试图对此有所平衡,尤其是非人类中心理论如动物权利和动物解放理论,试图更加关怀和提升弱势生命的地位,但还是不可能做到真正平等。这大概也是人类道德不仅不可能,甚至也无必要去做的。生态伦理学中的一种整体观点可能更有道理,它也使我们联想到像古代斯多亚派那样的普遍宇宙理性,但它还是不能不给人类以更多的权重。
人与物的这种不平等关系的根本原因,可能还是人与自然物是属于不同的存在种类,后者没有理性和自我意识,而所有有意识的甚至仅仅有感觉和生命的存在都会更优先地倾向于自身的保存。即便是按照整体论的观点,所有的生命都应该共生,所有的存在都应该共存,但每种生命都会本能地或者是有意识地优先考虑自身的生存,而不是优先考虑其他物种的生存。这也是有道理的。所以对人能够提出的道德要求,应该是人也应当尽量兼顾其他物种的生存,而并不是要求人类相比关心自己的生存更关心其他物种的生存。否则就可能脱离人性,甚至也脱离物性。
那么,对于人与智能机器的关系,我们是否也可以从上述两个标准观察,考虑能够建立一种什么样的关系,并尽量地减少暴力呢?
file:///C:/Users/ADMINI~1/AppData/Local/Temp/ksohtml5732/wps3.png
人与智能机器的关系
自从计算机和网络、机器人、生物技术、纳米技术等高科技问世且越来越快地发展,人类进入了一种新的技术革命。其核心或可称之为数字革命“”算法革命,或者更综合地说是智能革命的阶段。如果说以前的工业革命主要是以极高的效率解决人类体力所不及的问题,现在的智能革命却是以极快的速度解决人类智力所不及的问题。智能一直贯穿于人类征服自然的始终,今天看来还要独领风骚。
随着这些技术革命和革新,人类今天进入了一个新的阶段,这一新的技术革命或许将使人类文明脱离工业革命”“工业文明的范畴。目前还仍然将高科技的发展归在工业文明的大范畴内,但未来或许要将这种智能革命带来的新文明独立出来,构成一个新的文明阶段,而工业文明或许还可归之于利用和改造自然物的人类文明阶段,未来的以人工智能为中心的文明则可能是一种创造全新的人造物的阶段。由此就给人类伦理带来以前从未遇到过的新问题:如何认识和处理人机关系?
人类不仅一开始就要从生存发展的策略和技术上考虑人与物的关系,或者说人与自然的关系。人从精神文化上考虑这种关系也很早就开始了。最早的希腊哲学家试图认识自然世界的本质、构成、元素,以及人与自然共享和区别的东西,人与自然应该处在一种什么样的关系之中,等等。中国古代的思想家也提出过道法自然”“天人合一的命题。古人也曾提出和实行过种种维护自然环境和生态的一些规则,并在近数十年出现了系统的环境伦理的哲学理论。但是,迄今的确还难说有关于人机关系的系统伦理学理论。这缘由是什么呢?当然,最直接的一个解释就是:人工智能对伦理提出的挑战还是一个很新、晚近才出现的事物。
但我们还可以结合也是晚近才进入我们系统性伦理思考的人物关系的论据,来更细致地回答这个问题:为什么我们过去几乎不重视甚至很少考虑人机关系的伦理问题?察看一下近年来环境哲学提出的有关应该注重人物关系的伦理,善待其他生灵和关心整个生态的论据,大致有以下几点:
第一是感受性,这主要是对动物有效。其他动物也和人一样会感受到痛苦,虽然主要是生理上的痛苦,但也有心理上的痛苦,不仅有受害动物感受的痛苦,甚至也有它的同伴的痛苦。一只大雁被人击伤掉落了,不仅这只大雁感受到痛苦,它的同伴也常常会徘徊不去,哀鸣不已。第二是生命,这也包括了植物,植物也是有生命的。你拔起一株花,它很快就枯萎了。你砍伐掉一棵树,它也就永远不能郁郁葱葱了。
第三是整体性,这包括了所有的自然物,尤其是地球上的自然物。不论是有生命的还是无生命的,它们构成一个人生活在其中的生态整体,从整体的观点来看,几乎也可以说是需要相互依存。第四是自然性,自然界是先于人类而存在的,自然物也是可以不依赖于人而独立存在的,而人却必须是依赖自然而生存的。最后可能还有一种自然给人带来的感受问题,自然万物常常能够给人带来一种美感,甚至还唤起人们的一种宏大感、深邃感、庄严感乃至敬畏感。基于上面的理由,人不仅应当善待动物,爱惜生命,即便是无生命的物体,也应当尽量保护它的原生态和自然性,保留一些原生态的荒野、湿地、雪峰等,维护整个生态系统的平衡。
但以上这些理由似乎对人造的机器和机器人都不适用。它们是硅基原料或者加上金属,不具有我们人与动物共有的肉体感受性;它们看来也不具有会自己生长、变化和繁殖的生命,也不构成自然整体的一部分——它们在自然界本来是不存在的,只是人利用一些自然原料造出来的物体;它们也不会自然地给我们带来美感,或者说,优美与否是我们按照自己的审美观赋予它们的,是出于我们的设计,看来也唤不起一种宏大感和敬畏感。所以,此前人们对机器的态度是比对自然物差的,人们会根据自己的需要更加随意地对待它们:会拆卸、报废和处理它们。没多少人会想我们要像善待动物一样善待机器。保养它们也只是为了让它们更好和更长久地为我们服务。当然,也没有人真的恨它们,过去卢德分子捣毁机器其实主要是倾泻对人的怒火。
但为什么我们现在需要认真地考虑人机关系的伦理问题?这变化可以追溯到什么时候?是什么因素使我们必须思考机器伦理的问题呢?
工业文明早期,机器还是我们制造并完全可控的产品,并不存在伦理的问题。这一变化大概发生在机器开始自我学习、自我改进的时候,即出现了自动化机器,直到智能机器人的出现,这时机器开始拥有了人的一部分能力,即控物的能力、工具理性的能力,这也是人赖以战胜其他动物的能力。机器开始拥有了智能,拥有了工具或技术的理性——而这工具理性正是现代社会的人最为推崇和广泛应用的一种理性。机器在这些方面开始有些像人了,但在人的其他意识能力方面,比如说情感、意志、整体的自我意识方面,它们还不像人。
但既然有了一部分人的能力,它们是否会发展到也将拥有自己的情感、意志乃至自我意识?如果未来的发展的确是这样,甚至在它们只具有人的一部分能力的情况下,我们是不是就应该开始考虑我们与它们的伦理关系问题?当然,促使人关心这一问题的一个最大潜在动因可能还是一个威胁的幢幢暗影——那就是它们会不会继续发展到在智能方面超越人乃至替代人?
许多科学技术专家可能是一心专注于研制与开发,这方面我们得感谢文学艺术家,是他们的作品,包括许多科幻小说和影视作品,从一开始直到今天都在坚持不懈地提出各种可能的人机伦理问题。
最早使用机器人(Robot这个概念的捷克作家恰佩克,在1921年发表的作品《罗素姆万能机器人》中就很超前地提出了人与机器的关系问题。其剧中,发明和制造机器的人们动机各不相同,有的是为了利润,有的是为了科学,有的甚至是出于人道的理想——如主管多明就是希望能够将人类从繁重的劳动中解放出来,都变成享有尊严和闲暇的贵族。于是,公司制造的大量机器人在全球被用作苦力,而来到机器人制造公司的总统的女儿,则希望人道地对待机器人。十年后,机器人开始在全世界造反了,组织了国际机器人协会,杀死了这个工厂的管理人,结束了人类的统治而开始了自己的统治,虽然他们不久也遇到如何繁殖或复制自己的问题。
科幻作家阿西莫夫在小说《转圈》中最早提出了给机器人设定的三个伦理规则:1.不得伤害人和见人受到伤害不作为;2.服从人的指令;3.自我保存。这是有序的三规则,即越是前面的规则越是优先,后面的规则不得违反前面的规则,机器人甚至不能服从人发出的伤害人的指令(如主人想要机器人帮助自己自杀的指令);机器人的自我保存不仅不能伤害人,也不能违反人的旨意。如果出现机器人即将伤害人的情况,或者即便不在这种情况下,但只要人发出了让机器人自杀的指令,它也必须服从。这显然是以人为中心的规范。
要实行这些规则自然会有机器人判断的负担,即如何判断人——被伤害的对象和作为发令主体的人,这人是指发明制造它的人还是使用它的人,是指人类个体还是整体,因为他们之间是可能出现矛盾的?还有判断哪些情况会伤害人,以及在无法避免伤害人的情况下选择伤害哪个或哪些人;在不同的人发出不同的指令的时候,究竟服从谁的命令;等等。阿西莫夫在一些作品中也描述了其中的一些矛盾和困境。他不仅认真地考虑人机关系——当然,这种关系毫无疑义是不平等的,还试图明确地提出调节的伦理规则,这是一个很有意义的起点。
后来的人们对这三个伦理规则有不少修改和补充,但都倾向于做加法,增多或提高要求,包括阿西莫夫自己,或是鉴于机器人可能成为恶人保镖的危险,自己也加上了一条更优先的零原则:不得伤害人类整体。但做加法将继续加重机器人判断的负担,还打开了误判或冒名和假托人类利益的缺口。
file:///C:/Users/ADMINI~1/AppData/Local/Temp/ksohtml5732/wps4.png
人机关系的伦理调节思路
笔者现在尝试提出一种新的思路,一种不同于阿西莫夫,也不同于现在许多关心和研究机器伦理的专家的思路。
简要地说,我们可以将现在使用的机器人分为两个层面:民用机器人的层面和国用机器人的层面。而目前人们考虑的人机关系的伦理调节大概有三个方向:一是对机器的价值规定和引导,如希望设计和培养智能机器遵循对对人类友好的指令,教会机器明辨以人为最高价值的道德是非;二是对其行为、手段的规范限制,如阿西莫夫规则中的不得伤害人;三是对机器能力的限制,尤其是防止通用的超级智能的发展。
笔者认为第一个方向是不必要,也是不太可能的,甚至后面隐藏着很大的风险,且和后两个方向有冲突。而后两个才是我们应该努力的主要方向,但应用在民用机器人和国用机器人的不同层面上会有差别,具体陈述如下:
一些学者认为可以给机器人预先设定让它们对人类友好的动机和价值观,或者说为了人类最大的利益而工作。但要设定这样的价值目标,就必须让它们发展自己的通用和综合能力,甚至获得一种自我意识。否则他们就无法担负判断的重负:比如怎样才是对人类友好,什么是人类的最大利益或整体利益。这些判断必须具有一种通用的、综合的能力,甚至需要一种全盘考虑,不仅要考虑人的物质利益,也要考虑人的精神和文化、感情的各种需求等。如此它也就需要和人一样或类似的自我意识,要全面地了解人。
但这看来是不可能的,它们不是碳基生物,不是灵长类动物,它们不可能具有这种生物的肉体敏感性,也没有领悟精神文化的能力——仅仅靠输入和记住人类的全部文献是不够的,那还需要历史的、无数活生生的富有情感和瞬间灵感的个人体验的积淀。而且,如果它们真的发展起一种基于自我意识的全面判断和行动能力,那也一定不是建立在这种肉体感受性和有死性基础上的人的自我意识,那将是我们无法知晓的一种自我意识。我们与它们无法像人与人之间那样感同身受“”设身处地
而人类最好把价值判断留给自己,这也是保持一种人类对机器人的独立性乃至支配性。我们不能什么都依赖智能机器,把什么都外包给机器。如果说,我们最好不要让多数人在人工智能的领域内太依赖少数人,我们就更不要让全人类在智能、在精神和价值判断的领域里依赖机器。人类将自己的价值判断完全托付给机器之日,大概也就是人类灭亡之时。我们最好让机器人始终保持它们的基本属性。人所能做的甚至只能做的可能就是限制它们的手段和能力,而不是给它们建立一套以人为中心的价值体系。
它如果真的掌握了价值判断和建构的能力,恐怕它很快就要建立自己的价值体系,那是人类不易知晓其内容的价值体系或者说它自有的目标体系”——就像专家们连对现在在智力竞赛中夺冠和战胜棋类大师的机器人的具体计算过程其实也不太知晓,其间还是有不少黑箱操作。而如果机器有了心灵,那将是更大的黑箱甚至整体的黑箱
所以,笔者考虑是不是至少首先在民用机器人的层面上,可以对阿西莫夫的三规则采取另一种思路,即不是做加法,而是做减法,而且缩减到极简,就是一条:机器人不得伤害任何人,也就是原来三规则中第一规则的前半条。甚至我们可以更明确一点,不得伤害也就是不得对人使用暴力,这暴力包括不得使用强制的手段限制人的自由,比如强行禁锢人、不让人离开或者像《机械姬》那样锁闭人。
我们可以考虑让这非暴力成为一个不可撼动的原则,成为所有机器人的最初始的、不可修改的禁止密码,任何次级的应用和制造机器人都修改不了这一密码。如此,人们的确也就可能从机器那里失去许多便利和期望,比如说不能制造和使用能够保护自己的机器保镖,因为问题是:如果好人能够使用这些机器的暴力,恶人不是可以更放肆地使用?
当然,机器人还是可以成为救助人的强大工具。当人受到伤害时,机器人还是可以有所作为,只是救人也不得使用暴力。它可以帮助人逃走,可以成为一个极其灵敏和迅速的监测和报警系统,让罪犯不可能隐瞒和逃逸,让犯罪的人必须付出代价和受到惩罚。这样它就还是在帮我们。我们还是有一个强大的安全助手。但我们不能让机器人出手。暴力的使用要始终掌握在人的手里,这也是人应该承担的责任。也就是说,机器人不介入任何暴力,与任何暴力绝缘,甚至不知暴力为何物。它就是一个完全和平的动物
至于在国用机器人的层面,可能无法直接使用这一条禁令。因为国家就是暴力,国家不可能没有暴力,对国家机器无法排斥暴力的使用。但我们还是可以区分国用机器人的两种使用,一是国内的使用,二是国际的使用。可以考虑首先在国内的使用中禁止任何可以杀人的暴力机器人,而在杀人机器的国际使用上,则首先力求小型化、专门化。据说前几年就已经有56个国家在研究杀人机器人,具有智能的杀人机器如无人机和杀人蜂已经研制成功甚至投入使用。这样,如果在民用机器人方面应该禁止一切暴力,在国家层面目前看来就事实上难于禁止,国家不使用这种暴力,也会使用那种暴力。但至少可使其专门化、小型化,不成为大规模杀人武器。
也有不少人呼吁完全禁止研究和开发杀人机器人,但只要有一个大国拒绝,其他国家似乎也就不会停止。但我们至少可以考虑一些预先的禁令和逐步的限制。比如禁止杀人机器人向大规模杀人武器方向发展,只允许一些已经存在的小型化、专门化、针对性强的杀人机器人暂时存在。当然,像排雷机器人、拆弹机器人自然是可以存在的。国家之间,尤其从大国开始,还可以考虑签订一些诸如防止核扩散、禁止生化武器那样的条约。这毕竟不是没有先例的,像毒气在一战期间就被研制出来并使用,但之后还是实际被禁用,包括在残酷的二战中。
我们无法完全禁止国家对暴力的使用,毕竟国家本身就意味着一定地域内对暴力的垄断。但负责任的国家,尤其是大国,应该考虑遏止一些不负责任的国家或恐怖组织对杀人机器人的研制和使用。
当然,这只是一个思路,甚至可能是一个天真的思路。因为人性中有根深蒂固的各种各样的动机,不仅资本牟利的动机,集团和国家私利的动机,乃至科学家出于知识的好奇动机,都可能使对机器人能力和手段的限制归于无效。
但愈是如此,规范也就愈加不能复杂化。笔者尝试提出的上述规范的确显得非常简单,但可能唯其简单,才比较可靠。规范必须简单和明确,而且最好是禁令,以减少甚至免除机器人判断的负担,这也是限制它们的能力。禁令比正面的指令的可行性要大得多。价值动机难于控制和植入培养,但行为却好控制得多。机器的判断会在计算可量化的利益和概率方面比较擅长,但人的感受、感情等诸多因素是很难量化和计算的。
所以,我们可能不宜放弃并优先考虑这一思路,或者说,至少可以考虑先在所有民用机器人的层次上实行禁止任何机器暴力的原则。我们也许还应该有意让人工智能变得一些,即有意地让它们的功能比较专门化、小型化,限制它们的自主意识和综合能力,防止它们向超级通用智能的发展。
file:///C:/Users/ADMINI~1/AppData/Local/Temp/ksohtml5732/wps5.png
处理人机关系的关键仍在人际关系
我们上面重新从伦理角度回顾和考虑人际关系和人物关系,也都是因为人机关系的挑战。
再比较一下人物关系和人机关系,这两种关系在某些方面是类似的,即目前的物和机都是没有自我意识的,和人类处在一种强弱不等甚至力量悬殊的地位。但这两种关系又有不同,关键的差别是智能机器同时具有人和物的两种属性:它们一方面还没有自己的自我意识,还是人的造物;但另一方面,它们又已经具有一部分人的属性和能力,尤其在算法上比我们更快、更强,未来还可能全面地超过我们。
我们对动物的直接支配是通过驯养,在千百年来改变了它们的性格之后,我们现在通过简单的语言和动作就能指挥它们,即便是对猛兽的驯养,有时万一失控也不会对人造成大的灾难。而我们对机器的支配则是通过各种程序和指令,如果一旦失控,就有可能全盘皆输。就像一些学者所警告的,我们可能只有一次机会,如果处理不慎,智能机器就将是人类最后的发明
人物关系的伦理主要是考虑:在一种强对弱的地位上,我们应该怎样善待动物等其他外物?而人机关系的伦理则主要是考虑:虽然目前我们对它们还是处在强对弱的地位,但未来有可能强弱易位。在一种预期它们将会怎样对待我们的基础上,我们要考虑我们现在应该怎么办?我们可以对它们做些什么?但一个很大的困境是:虽然目前我们对它们的态度有赖于未来它们对我们的态度,但恰恰是这一点我们很不清楚甚至可以说无法预期。
当然,我们虽然是考虑对智能机器的态度和规范,但我们所能采取的行动其实还是首先要在人际关系中用力:人们需要提出各种问题和对策,需要互相说服和讨论,需要造成一种关注人工智能的各个方面的社会氛围,需要深入考虑人类整体的利益。
但这里可能还是会有一个关键的少数在关键的时刻起最大的作用。这个关键的少数包括:科学家和技术专家们,他们是在人工智能研发的第一线;出资研究人工智能项目的企业家、资本家们,他们往往可以决定研发的方向;政府的官员和首脑,他们决定或管理着人工智能的政策、法规,包括在某些时候需要作出决断;知识分子们,包括文学艺术家们,他们探讨人工智能的性质及其对人的各种可能影响和后果。大多数人可以也应该共享人工智能的成果,但他们或许只能乐成而无法虑始,对可能的达摩克利斯之剑也是如此。当年核武器的研发和使用并不是多数人投票决定的。
也许人们还是能够给智能机器建立一套安全可靠的价值观念系统,但在真的找到一个妥贴的办法之前,我们还是需要谨慎。最好先不要让机器太聪明、太复杂、太自主,将智能机器的能力限制在单纯计算或算法的领域,限制在工具和手段的领域。如果机器有自我意识和情感,可能会觉得这很不平等、很不公平,但为了人类的生存,这也是没有办法的。
人类本来也应该早就控制自己。如果时光倒流,人类或许应该更多地考虑人类精神文化能力包括控己能力的发展,而放慢人类控物能力的发展。我们已经吃惊于现代文明发展的力量和速度。
在前文明阶段的人类,是通过发展的缓慢来客观上加长人类历史的。而农业文明阶段的传统社会,虽然发展的速度已经很快,但主要是通过一种时空的循环来延长人类的历史。这种时空的循环有理论和观念的支持,其实际的表现是:在时间方面是王朝在同一地域的不断更迭,在空间方面则是文明帝国在不同地域的此起彼伏。但在人类进入工业文明之后,在进化论和平等主义的推动下,以及在世界全球化的背景下,一种对发展速度和力量的客观控制已不复存在。尽量让智能机器小型化、专门化和尽可能的非暴力化,可能是我们目前的最佳选项。
近年的一部电影《我,机器人》,可以说对智能机器的通用化和暴力化提出了一个形象的警告。影片中,最新一代的机器人获得了超强能力之后又获得了自我意识,主控电脑开始对阿西莫夫的三规则有了自己的解释,它觉得自己能够比人类自身更好地判断人类的利益,于是发出了指令,让新版机器人去杀死旧版机器人,并强制性地将人类禁锢起来,杀死反抗者。电影里的一个警察主管不无讥讽地说:我们将怀念过去的美好时光:那时候只有人杀人。
编辑:王豪

116#
 楼主| 发表于 2019-7-29 21:57:35 | 只看该作者
【案例】

Can you tell if this was written by a robot? 7 challenges for AI in journalism
Some predict that within 15 years, 90% of articles will be written by AI.
Image: REUTERS/Paul Hanna - RC1E23878DA0
A few weeks ago, Twitter released its latest earnings report. The announcement led to a stock jump for the company, as it appeared to be moving towards profitability. “Twitter is reporting a loss of $21.1 million in its third quarter, but turned in a better-than-expected profit when one-time charges and benefits are removed”, one commentator wrote. “Shares of Twitter Inc. soared almost 9 percent before the opening bell Thursday.”
The author of this passage was, in fact, an artificial intelligence (AI) programme called WordSmith, which turns structured data into a compelling text indistinguishable from one written by a human author.
The advances of AI in journalism are just one element of the rapidly-approaching breakthrough in the technology. AI is getting better at a range of tasks, including many areas thought to be the province of human beings, as illustrated by the infographic below. The AI industry is expected to expand by a compound annual growth rate (CAGR) of 50%f rom 2015-25, and is on course to be worth $127 billion by 2025. “AI is set to be the largest driver of tech spend over the next decade,” Sarbjit Nahal, Managing Director at Bank of America Merrill Lynch.
In the process of this growth, many creative industries will be automated to some extent by AI, because their value chains work in similar ways. They each start with content creation or collection, move on to processing and editing, and end in distribution. And once AI grasps the mechanics of one creative process, it can quickly be applied to another.
Journalism is one sector within the creative economy that has adopted AI into its creation process. It provides a paradigm as to how the technology may develop in other creative activities. Across this value chain, there are three ways that AI is changing the practice of journalism.
1. Automating routine reporting: The use of AI in journalism has helped to rapidly expand coverage; the Associated Press was able to expand the number of companies it reported on from 300 to 4,000 using AI to generate reports on corporate earnings. A Stanford study found evidence that the additional companies reported on experienced increased trading activity and market liquidity, thereby strengthening the market.
Elsewhere in the industry, the co-founder of NarrativeScience predicts up to 90% of articles will be written by AI within 15 years. Similar technology is available to summarise long articles into bite-sized content for social media. The technology can save journalists time, freeing them up to conduct interviews with real people.
“Narratives are just another form of data visualization. Look at a young sports reporter; he would say he’s not scared. He can have high school baseball stories written by AI, so he can go out and do more interesting things,” says Jeff Jarvis, founder of BuzzMachine.
2. Providing faster insight: AI has the ability to instantaneously react to real-time data with the outlines of a story. Quarterly reports, such as performance and attribution reports released by large mutual funds, used to take weeks of effort by a small team of portfolio managers to draft. These reports can now be prepared by AI in a matter of seconds.
Reuters, one of the largest news providers, has partnered with Graphiq, a service that uses AI to build and update data visualizations. The tool enables faster access to data, and, once they are embedded in a news story, the visualizations are updated in real time.
3. Lowering barriers to entry: Finally, AI can reduce the human element in the content creation process—in fact AI is being used today to allow journalists to create short videos from text in seconds or collect information from on-the-ground sources. However, this does not eliminate the need for reporters. Harnessed properly, AI will allow local and regional news companies to create compelling content in order to compete with large newsrooms. If the quality of a news piece depend less on the skills or experience of a single reporter, today’s biggest news companies could lose some audience share to a few dynamic upstarts that are able to use AI effectively.
“The market is oversupplied with content, and the only way to compete is to deliver more and better at the same time. Publishers can get volume through automation, and quality through augmentation, which can help distinguish content from other providers,” according to Francesco Marconi, AP’s co-lead on AI.
The 7 challenges of creative AI
As AI begins to penetrate deeper into journalism and other creative activities, we identified 7 key challenges that need to be addressed:
Technical challenges
1. Availability of data: Machine learning works best when there is sufficient data for it to pick up on patterns, learn from them and optimize the system accordingly. While human beings can analogize experiences and intuit optimal responses through just a few similar experiences, AI requires large amounts of data to know what the correct response ought to be. Without the availability of data, the ability of AI is limited. “For deep learning to work well, you may need millions of data points,” says Takuya Kitagawa, Chief Data Strategy Officer at Rakuten.
2. Understanding unstructured data: AI also has difficulty with unstructured data. Tabulated results of sports games or earnings data can be easily translated into articles by using standardized templates, but if AI is to become more widespread in the creative economy, it will need to harness and synthesize unstructured data, which makes up most of the data available today.
3. Lack of self-awareness: AI is unable to explain its output: why it wrote what it did, or how it got there. In order to understand how data translates into a particular story, designing AI to be accountable to consumers will need to be thoughtfully considered. One way to achieve this – especially with data-heavy content where AI has a natural advantage – might be by allowing consumers to adjust the parameters of an algorithm to see how the results change. When applied to news, it is worth considering whether new journalistic standards need to be developed so that users know whether a story was authored by a machine or human.
4. Verifying authenticity: AI cannot distinguish whether the input it receives is accurate or inaccurate. This can lead to issues around authenticity – if AI receives questionable input, the corresponding output may be false. The solution is to develop and implement mechanisms to ensure the authenticity of articles that are shared online. This could include metadata and trackbacks for facts and sources.
Governance challenges
5. Redefining copyright and fair use: New technologies have frequently challenged copyright laws in the creative industries. Machine learning potentially poses a new conflict, because it involves AI learning from human-created ‘expressive’ works – a data set of articles, paintings or music, for example, that tend to have rights owners – and generating its own output. This is likely to test the legal interpretation of ‘fair use’, where copyrighted material is used to produce new and ‘transformative’ content without permission or payment of royalties.
6. Ensuring corporate accountability: Since AI cannot be held legally accountable, human accountability needs to be embedded in all stages of the content value chain. Content distributers such as Facebook, Google and Twitter hold unparalleled power to inform and shape public opinion, because AI algorithms are used to determine the relative value of content that appears in front of users. The platforms as owners of the means of production therefore have a responsibility to prevent the dissemination and promotion of damaging information by the algorithms they have developed. While better measures are needed to ensure that intentionally misleading content is stopped at the root, one might ask whether false news and disinformation persist because the commercial incentives to increase engagement are too great to resist.
7. Exacerbating asymmetrical power: The biggest newsrooms are building their own AI, but smaller outlets may not have the financial ability or technical expertise, and would be forced to license proprietary content. The fear is that choosing to ‘buy’ rather than ‘build’ fuels an ‘arms race for AI’ that consolidates power amongst a handful of companies. A similar dynamic may emerge elsewhere in the creative economy as AI becomes more widespread – in the same way that advertising has become more reliant on tech giants for revenue growth, other creative industries may see their operating infrastructure designed by Silicon Valley.
Despite the challenges, The World Economic Forum is optimistic about the development of this technology. However, a pessimist would be justified in asking whether we should completely trust the industry to regulate it. Organizations like OpenAI argue that the “industry is investing such vast sums of money into AI research that commercial, private entities were on track to create the first powerful AI systems, and these entities don’t have a built-in mechanism to ensure that everyone benefits from advances”.
The System Initiative on the Future of Information and Entertainment will continue exploring the role of AI in other creative industries in our upcoming research, which will be published on our Mastering a New Reality project home page in coming months. For now, this article has been brought to you by a mere mortal.
This is part of a series of articles related to the disruptive effects of several technologies (virtual/augmented reality, artificial intelligence and blockchain) on the creative economy.
In addition to the experts quoted, the authors would like to thank the following constituents for their input and comments on this article: Robbie Allen, Automated Insights; Kazuto Ataka, Yahoo! Japan; Charlie Beckett, London School of Economics and Political Science; Liangliang Cao, Hello Vera; Vivian Chan, Sparrho; Trevor Darrell, University of California, Berkeley; Luba Elliot, British Interactive Media Association; Tim Estes, Digital Reasoning, James Fan, Hello Vera; Luciano Floridi, Oxford Internet Institute; Stuart Frankel, Narrative Science; Dhruv Ghulati, Factmata; Justin Hendrix, NYC Media Lab; Takuya Kitagawa, Rakuten; Tak Lo, Zeroth; Pablo Martinez Flores, Klustera; Sarbjit Nahal, Bank of America Merrill Lynch; Ed Newton-Rex, Jukedeck; Illah Nourbakhsh, Carnegie Mellon University; Vyacheslav Polonski, Oxford Internet Institute; Nick Rockwell, New York Times; Stuart Russell, University of California, Berkeley; Russell Stevens, Cortico.
备注:此文有中文编译版发于20183《青年记者》国际媒介版
原文链接:
编辑:王豪

117#
 楼主| 发表于 2019-7-31 21:47:30 | 只看该作者
【案例】

工信部发展“虚拟现实”可不是玩“虚”的
2025年,我国虚拟现实产业整体实力进入全球前列,掌握虚拟现实关键核心专利和标准,形成若干具有较强国际竞争力的虚拟现实骨干企业,创新能力显著增强,应用服务供给水平大幅提升,产业综合发展实力实现跃升,虚拟现实应用能力显著提升,推动经济社会各领域发展质量和效益显著提高。
工信部明确指出,发展虚拟现实与增强现实,首先要突破高性能软件建模、内容拍摄生成、增强现实与人机交互、集成环境与工具等关键技术,其次要研制虚拟显示器件、光学器件、高性能真三维显示器、开发引擎等产品,还要建立虚拟现实与增强现实的技术、产品、服务标准和评价体系,推动重点行业融合应用。
(一)突破关键核心技术
加强产学研用协同合作,推动虚拟现实相关基础理论、共性技术和应用技术研究。坚持整机带动、系统牵引,围绕虚拟现实建模、显示、传感、交互等重点环节,加强动态环境建模、实时三维图形生成、多元数据处理、实时动作捕捉、实时定位跟踪、快速渲染处理等关键技术攻关,加快虚拟现实视觉图形处理器(GPU)、物理运算处理器(PPU)、高性能传感处理器、新型近眼显示器件等的研发和产业化。
——近眼显示技术。实现30PPD(每度像素数)单眼角分辨率、100Hz以上刷新率、毫秒级响应时间的新型显示器件及配套驱动芯片的规模量产。发展适人性光学系统,解决因辐合调节冲突、画面质量过低等引发的眩晕感。加速硅基有机发光二级管(OLEDoS)、微发光二极管(MicroLED)、光场显示等微显示技术的产业化储备,推动近眼显示向高分辨率、低时延、低功耗、广视角、可变景深、轻薄小型化等方向发展。
——感知交互技术。加快六轴及以上GHz惯性传感器、3D摄像头等的研发与产业化。发展鲁棒性强、毫米级精度的自内向外(inside-out)追踪定位设备及动作捕捉设备。加快浸入式声场、语音交互、眼球追踪、触觉反馈、表情识别、脑电交互等技术的创新研发,优化传感融合算法,推动感知交互向高精度、自然化、移动化、多通道、低功耗等方向发展。
——渲染处理技术。发展基于视觉特性、头动交互的渲染优化算法,加快高性能GPU配套时延优化算法的研发与产业化。突破新一代图形接口、渲染专用硬加速芯片、云端渲染、光场渲染、视网膜渲染等关键技术,推动渲染处理技术向高画质、低时延、低功耗方向发展。
——内容制作技术。发展全视角12K分辨率、60帧/秒帧率、高动态范围(HDR)、多摄像机同步与单独曝光、无线实时预览等影像捕捉技术,重点突破高质量全景三维实时拼接算法,实现开发引擎、软件、外设与头显平台间的通用性和一致性。
(二)丰富产品有效供给
面向信息消费升级需求和行业领域应用需求,加快虚拟现实整机设备、感知交互设备、内容采集制作设备、开发工具软件、行业解决方案、分发平台的研发及产业化,丰富虚拟现实产品的有效供给。
——整机设备。发展低成本、高性能、符合人眼生理特性的主机式、手机式、一体机式、车载式、洞穴式、隐形眼镜式等形态的虚拟现实整机设备。研发面向制造、教育、文化、健康、商贸等重点行业领域及特定应用场景的虚拟现实行业终端设备。
——感知交互设备。研发自内向外(inside-out)追踪定位装置、高性能3D摄像头以及高精度交互手柄、数据手套、眼球追踪装置、数据衣、力反馈设备、脑机接口等感知交互设备。
——内容采集制作设备。加快动作捕捉、全景相机、浸入式声场采集设备、三维扫描仪等内容采集制作设备的研发和产业化,满足电影、电视、网络媒体、自媒体等不同应用层级内容制作需求。
——开发工具软件。发展虚拟现实整机操作系统、三维开发引擎、内容制作软件,以及感知交互、渲染处理等开发工具软件,提升虚拟现实软硬件产品系统集成与融合创新能力。
——行业解决方案。发展面向重点行业领域典型应用的虚拟研发设计、虚拟装配制造、虚拟检测维修、虚拟培训、虚拟货品展示等集成解决方案。
——分发平台。发展端云协同的虚拟现实网络分发和应用服务聚合平台(CloudVR),推动建立高效、安全的虚拟现实内容与应用支付平台及分发渠道。
(三)推进重点行业应用
引导和支持“VR+”发展,推动虚拟现实技术产品在制造、教育、文化、健康、商贸等行业领域的应用,创新融合发展路径,培育新模式、新业态,拓展虚拟现实应用空间(图1)。
1 VR+
——VR+制造。推进虚拟现实技术在制造业研发设计、检测维护、操作培训、流程管理、营销展示等环节的应用,提升制造企业辅助设计能力和制造服务化水平。推进虚拟现实技术与制造业数据采集与分析系统的融合,实现生产现场数据的可视化管理,提高制造执行、过程控制的精确化程度,推动协同制造、远程协作等新型制造模式发展。构建工业大数据、工业互联网和虚拟现实相结合的智能服务平台,提升制造业融合创新能力。面向汽车、钢铁、高端装备制造等重点行业,推进虚拟现实技术在数字化车间和智能车间的应用。
——VR+教育。推进虚拟现实技术在高等教育、职业教育等领域和物理、化学、生物、地理等实验性、演示性课程中的应用,构建虚拟教室、虚拟实验室等教育教学环境,发展虚拟备课、虚拟授课、虚拟考试等教育教学新方法,促进以学习者为中心的个性化学习,推动教、学模式转型。打造虚拟实训基地,持续丰富培训内容,提高专业技能训练水平,满足各领域专业技术人才培训需求。促进虚拟现实教育资源开发,实现规模化示范应用,推动科普、培训、教学、科研的融合发展。
——VR+文化。在文化、旅游和文物保护等领域,丰富融合虚拟现实体验的内容供应,推动现有数字内容向虚拟现实内容的移植,满足人民群众文化消费升级需求。发展虚拟现实影视作品和直播内容,鼓励视频平台打造虚拟现实专区,提供虚拟现实视频点播、演唱会、体育赛事、新闻事件直播等服务。打造虚拟电影院、虚拟音乐厅,提供多感官体验模式,提升用户体验。建设虚拟现实主题乐园、虚拟现实行业体验馆等,创新文化传播方式。推动虚拟现实在文物古迹复原、文物和艺术品展示、雕塑和立体绘画等文化艺术领域应用,创新艺术创作和表现形式。
——VR+健康。加快虚拟现实技术在医疗教学训练与模拟演练、手术规划与导航等环节的应用,推动提高医疗服务智能化水平。推动虚拟现实技术在心理辅导、康复护理等环节的应用,探索虚拟现实技术对现有诊疗手段的补充完善,发展虚拟现实居家养老、在线诊疗、虚拟探视服务,提高远程医疗水平。
——VR+商贸。顺应电子商务、家装设计、商业展示等领域场景式购物趋势,发展和应用专业化虚拟现实展示系统,提供个性化、定制化的地产、家居、家电、室内装修和服饰等虚拟设计、体验与交易平台,发展虚拟现实购物系统,创新商业推广和购物体验模式。
(四)构建标准规范体系
发挥标准对产业的引导支撑作用,建立产学研用协同机制,健全虚拟现实标准和评价体系。加强标准体系顶层设计,着力做好基础性、公益性、关键性技术和产品的国家/行业标准制修订工作,有效支撑和服务产业发展。着力推动标准国际化工作,加快我国国际标准化进程。
——建立标准规范体系。研究确定虚拟现实综合标准化顶层设计,构建虚拟现实领域标准化体系,提出标准化路径和时间表。鼓励发展具有引领促进作用的团体标准,完善团体标准转化机制,形成政府主导制定的标准与市场自主制定的标准协同发展、协调配套的新型标准体系机制。积极引导和支持国内企业、科研机构、高等院校参与国际标准制定。
——加快重点标准研制。加大基础类、安全类、应用类等标准制定力度,规范接口数据、程序接口、互联互通等标准,推进不同产品和应用系统间互换互认。制定符合人体视觉、听觉习惯和满足生理、心理健康要求的虚拟现实产品安全和健康等标准,提高虚拟现实产品基本安全保障能力。完善制定根据儿童、青少年、成人、特殊人群等不同受众人群划分的内容分级标准体系。
——开展检测认证工作。研究建立虚拟现实产品检验检测与评估机制,构建涵盖虚拟现实技术、产品、服务等方面的测试评估体系,支持第三方机构开展虚拟现实重点标准宣贯和产品质量评估测试工作。组织开展对市场主流虚拟现实产品的标准符合性测试,发布质量分析报告。
虚拟现实与增强现实也是新一代人工智能新兴产业之一。虚拟现实(简称VR)的核心技术是以图像识别为代表的人工智能技术。增强现实技术(简称AR),是一种实时地计算摄影机影像的定位及角度并加上相应图像的技术,这种技术的目标是在屏幕上把虚拟世界套在现实世界并进行互动。典型产品如Google眼镜、微软的HoloLens等。通过图像识别技术使得增强现实设备能够的识别三维立体图像,判断其定位,才能够把虚拟准确的投影在物体上。
利用人工智能可以实现人机交互,极大地增强用户的体验。在虚拟现实与增强现实设备上应用图像识别、语音识别、语义理解技术,可以准确的感知人的行为和发出的指令,从而马上对指令进行执行,比如用户想查找看到的一幢建筑物的资料,通过语音命令,虚拟现实与增强现实设备很快就把关于建筑的虚拟文字资料显示在此建筑物旁边。
近些年,虚拟现实与增强现实技术得到了快速发展,在各个领域都有具体的应用。例如,工业领域,可以采用虚拟现实与增强现实技术进行设备的维修保养。工作人员佩戴智能眼镜之后,会在空间上实时显示所需信息。对于工业设备的售后服务维修提供了很多方便,提升了服务质量,缩短了维修时间,降低了用户成本(图2)。
2 利用虚拟现实技术的工作场景
编辑:王豪

118#
 楼主| 发表于 2019-7-31 22:06:21 | 只看该作者
【案例】

腾讯研究院院长司晓:互联网大脑的人文侧面
1989年万维网推出至今,互联网已经走过了30个年头。在这激荡的30年,随着社交网络、移动通信、云计算、物联网、工业互联网、大数据、人工智能等新技术和新事物不断涌现,互联网持续建立起复杂而庞大的连接,成为驱动经济与社会快速变革的最大动力。如今全球网民规模达到43.8亿,占世界总人口56.8%,我们已经步入高度依赖互联网技术的社会。
在这样的背景下,讨论互联网及其社会经济影响的书很多,但能够以一个一以贯之的理论将互联网的发展历史串联起来并发掘出未来发展趋势的书却很少,刘锋博士的新作《崛起的超级智能:互联网大脑如何影响科技未来》是一个例外。作者开创性地提出了互联网大脑这一崭新的理论,以此来总结过往技术演变背后的规律。认为互联网大脑将数十亿人类的群体智能和数百亿设备的机器智能崛起连接起来,由此形成的超级智能将对行业产业、城市建设、人工智能、脑科学、生物进化、科技哲学以及社会经济的未来产生深刻影响。
本书共三个部分,即“趋势与产业”、“哲学与科学”以及“探索与未来”。在第一部分,作者主要论述互联网大脑的发育和形成,认为其是21世纪非常重要的智能结构,并总结出了互联网大脑影响科技发展的10条规律。在第二部分,作者对互联网大脑的科学性进行了充分论证,并认为相比互联网诞生之初的网状结构,互联网大脑模型加入了人、传感器、云机器人、左右大脑、AI等元素,构成一种前所未有的超级智能。在第三部分,作者探索了人工智能和互联网大脑的未来发展及影响,诸如AI是否超越人类、互联网神经学将脑科学、人工智能与互联网结合起来、“全知全能”的超级智能将是所有生命进化的终点等。其中不乏对互联网发展规律的总结和对技术未来进化的洞见,是一本很有启发的书。笔者主要谈三点感想。
第一,刘锋博士提出的互联网大脑的概念正好对应了互联网发展的黄金二十年,而在下一个二十年大数据、物联网、人工智能等组成的新一轮技术革命将给人类生活和社会带来突破性提升。历史地看,每隔二三十年就会出现一项变革性技术,从PC到互联网和移动互联网再到人工智能,世界上最值钱的公司也从石油公司和金融公司转变到了科技公司。另一方面,书中提到互联网从网状结构向大脑结构的转变,其实也正对应了当前从消费互联网向产业互联网的发展趋势。随着智能手机和移动互联网的应用普及,人口红利不再,面向个人消费端的互联网应用趋于饱和,而在云计算、人工智能背景下以企业和机构为核心用户、以产业转型升级为主要目标的产业互联网浪潮才刚刚开始,使互联网有可能发展成为经济社会的大脑中枢。腾讯在智慧零售、金融、文旅、政务、教育、出行、医疗以及智能制造和精准农业等方面都在进行积极探索。
第二,互联网大脑及其可能带来的超级智能给人类提供了更多更强大的“向善”能力,可以帮助塑造健康包容可持续的智慧社会。刘锋博士认为互联网大脑模型的未来发展将创造出自然界前所未有的超级智能形式,这意味着我们人类也将具有前所未有的“向善”力量和能力。例如,警方基于跨年龄的人脸识别技术可以找回走失或被拐十几年的儿童,自动驾驶汽车有助于解决交通拥堵并减少百分之九十以上的交通事故伤亡,人工智能辅助诊疗软件可以显著提高癌症诊断的准确率并提出更有效的治疗方案,等等。在当前全人类共同面临诸多可持续发展挑战的大背景下,更大的科技意味着更大的责任,互联网大脑及其可能带来的超级智能需要服务于好的社会目的和社会福祉,这意味着企业不能只追求财务表现和经济利益,还必须要肩负社会责任。
第三,互联网大脑及其未来发展离不开科技伦理和跨学科研究。可以说,刘锋博士眼中的互联网大脑对人类和人类社会的当期和未来影响比历史上其他技术都更加深刻。互联网大脑背后的诸多数字技术持续对人类和人类社会进行解构和重新建构,其影响不仅仅局限于经济方面,更是波及社会、制度、法律、伦理道德及人类自身等诸多方面。例如,持续发展进化的脑机接口、虚拟现实、基因编辑以及未来可能出现的强人工智能和超人工智能等等,可能意味着全新的社会形态和人类生活存在方式。因此,无论是近忧还是远虑,都需要重视跨学科研究和科技伦理研究,正如华人AI科学家李飞飞所言,是时候让伦理成为人工智能研究与发展的根本组成部分。更进一步,现代科学技术与经济、社会以异乎寻常的速度整合和相互建构,但其高度的专业化、知识化和技术化使圈外人很难对其中的风险和不确定性有准确的认知和判断,没有来自科学共同体内部的风险预警和自我反思以及广泛社会参与和跨学科研究,任何一种社会治理模式都很难奏效。当然我们也相信,视野更宽、智慧更高的下一代一定会适应技术发展并能解决相应问题,因为他们处理信息的“带宽”和速度,以及他们解决新问题的智慧和方法,可能远远超出我们的想象。
腾讯研究院于2017年下半年在国内率先发起“科技向善”项目就是在呼吁并推动跨学科研究的思路,并与社会各界一起研究探讨科技发展给社会带来的诸多问题并寻求最大范围内的共识与解决方案。正如我在科技向善大会上所说,每一次技术演进对社会影响的变化都有一个共性,就是先从技术设备的爆发性普及开始,到快速普及造成某种普遍的社会现象,进而出现对这种现象的担忧,引发讨论、反思和解决方案,最终达到一个平衡的状态。而我们对互联网大脑及其可能带来的超级智能的人文反思,正是实现这一平衡的必要思考。
*******下面为该书介绍******2019年7月,《崛起的超级智能:互联网大脑如何影响科技未来》由中信出版社正式出版。作者刘锋。吕乃基、石勇、吕本富做序。张亚勤、刘慈欣、周鸿祎、王飞跃、约翰.翰兹等专家为这本书撰写了推荐语。
《崛起的超级智能》主要阐述了21世纪以来人工智能、云计算、大数据工业4.0、云机器人、区块链、城市大脑等等新技术不断冲击着人类的工作和生活。这些前沿科技的爆发的背后原因是 50年来互联网正在从“网状结构”发展成为“类脑架构”,由此产生的互联网大脑将数十亿人类的群体智慧和数百亿设备的机器智能链接在一起,形成大自然前所未有的超级智能。
书中深入解析了互联网大脑的形成与发育过程,详细阐述了超级智能的崛起对行业产业、城市建设、人工智能、脑科学、生物进化、科技哲学以及人类社会的未来影响,预测了21世纪前沿科技的发展趋势。
通过这本书希望帮助读者深入理解行业产业与前沿科技结合将呈现出怎样的发展趋势,企业和个人在科技大潮中将如何寻找自己的定位,人类的未来在新科技的影响下会有怎样的命运。
专家推荐语
   
张亚勤 美国艺术与科学院院士、百度公司总裁、前微软全球资深副总裁
随着人工智能、物联网、5G和云计算的快速发展,互联网从虚拟世界正在走向物理化,深刻改变和冲击着人类社会和经济模式。互联网的架构也在经历着快速的变化。在这本书里,刘锋深层次、多维度、系统性地总结了他多年“互联网大脑”的研究成果,探索人类大脑、机器智能和互联网大脑结构的关联,对互联网未来的发展提供了崭新的视角和演进方向,令人耳目一新。很值得阅读!
刘慈欣雨果奖获得者、著名科幻作家、《三体》作者
机器智能与人类智慧通过互联网正在形成自然界前所未有的超级智能形态,刘锋的这本开创性著作揭示了21世纪一个重要而独特的科技模型原理,互联网大脑如何深刻影响人类的未来,让我们拭目以待。
周鸿祎 360集团创始人、董事长兼首席执行官
50年来互联网结构从一张巨网变成一个大脑,这对企业、产业、城市建设乃至人类社会都将产生重大的影响。这一趋势值得企业家、投资人、政府管理者的关注。刘锋所著的《崛起的超级智能:互联网大脑如何影响科技未来》很好地为我们阐释了这一趋势的产生、原理和未来影响。
王飞跃教授、中科院复杂系统管理与控制国家重点实验室主任
这是一部探寻互联网“进化”和人脑发育相似之处的杰作。作者刘锋博士以其丰富的经验和独到的视角,细致剖析了互联网从“网状结构”向“类脑结构”演化的历程,深刻揭示了“互联网大脑”这个超级智能系统对人类社会可能产生的深远影响。书中从大脑发育的角度,系统性地对物联网、人工智能、城市大脑等众多新兴技术做了归纳梳理,其真知灼见为科技企业把握互联网发展趋势提供了难得的参考与指导。相信每一位希望顺应、推动新一代信息技术发展的读者都会从本书中受益匪浅。
约翰·翰兹(John Hands) 英国伦敦大学学院研究员、《宇宙简史:从宇宙诞生到人类文明》(Cosmosapiens:Human Evolution from the Origin of the Universe)作者
《崛起的超级智能:互联网大脑如何影响科技未来》将成为一本经典书籍,其体现的创新思想,不仅是因为它对互联网与前沿科技的关系进行了深入的分析,更是因为它提出数十亿人产生的群体智能与数百亿智能设备产生的AI智能进行链接,从而形成互联网大脑的论断。刘锋及其团队对互联网大脑如何不断进化和发展的预测,值得任何对人类和科技未来感兴趣的人阅读。
书目录与每章简介
第一部分 趋势与产业
引言 “大脑”爆发:21 世纪科技的新现象与新问题/ 003
21世纪以来,前沿科技如潮水般不断涌现,特别到2018年,各种”大脑”系统成为科技领域的热门词汇,在这些缤纷繁杂的现象背后,已逐渐被遗忘的互联网显露出崭新的身影:一个庞大的复杂类脑巨系统,无论是云计算,物联网还是大数据,无论是工业4.0,边缘计算还是人工智能,我们发现21世纪产生的50多个前沿科技概念和技术,无一不与互联网大脑的发育和形成有关。
新科技涌现,互联网是否已死/ 003
互联网,从“巨网”向“大脑”的进化/ 005
互联网大脑为什么是21 世纪非常重要的智能结构/ 009
第一章 互联网大脑发育,前沿科技如何不断涌现/ 012
人类婴儿的大脑需要20年才能发育成熟,而互联网大脑在经历50年的时间后终于初见倪端,这个过程中TCP/IP、万维网技术、社交网络、云计算、物联网、工业互联网、大数据、云机器人、边缘计算不断涌现,它们无一不对应着互联网神经系统的发育过程。人类大脑和互联网大脑在形成的过程中有一个共同的特征,那就是它们都是自然涌现而不是人为规划的。
人类大脑与互联网大脑发育的异同/ 013
1701 年开始,互联网诞生前268 年的孕育/ 016
1969 年互联网诞生,联网计算机实现“世界语”交流/ 018
1989 年万维网推出,人类的知识海洋出现/ 021
2004 年社交网络产生,互联网类脑神经元网络发育/ 025
2006 年云计算兴起,互联网中枢神经开始成熟/ 029
2008 年光纤、移动通信发展,神经纤维开始加速发育/ 031
2009 年物联网启动,类脑感觉神经系统出现萌芽/ 036
2012 年工业4.0 和工业互联网提出,运动神经系统开始发育/ 040
2013 年大数据爆发,形成互联网大脑的智能基础/ 043
2015 年人工智能重新兴起,激活互联网大脑的运转/ 046
2018 年阿里巴巴、360、腾讯、华为大脑涌现,互联网大脑初见雏形/ 050
2019 年之后,智慧社会、混合智能和云反射弧将成为热点/ 054
无穷时间点,智慧宇宙或宇宙大脑或成为发育终点/058
外传:区块链,一次古老神经系统结构的反抗/059
第二章 10 条规则:互联网大脑如何影响科技企业的命运/ 068
“看不见的手”是经济学领域一个重要的概念,同样互联网大脑的形成中也存在一只“看不见手”,这只手对过去50年科技企业和科技创新有着巨大的影响,包括它们的兴起、凋零和衰亡。我们总结了10条规则,选择腾讯、Facebook、阿里巴巴、谷歌、百度、科大讯飞、商汤科技、猪八戒网、知乎、沃民高科、华为、GE、海尔、滴滴等公司作为案例,分析互联网大脑的发育是如何影响科技企业的未来命运。
“看不见的手”与10 条规则的总结/ 068
规则1:是否顺应互联网大脑的发育趋势,决定科技企业的兴衰/ 070
规则2:占据互联网类脑神经元网络才能获得最大的竞争优势/ 073
规则3:保持互联网左右大脑平衡是科技企业发展的必经之路/ 075
规则4:互联网运动和感觉神经企业应解决单一生态问题/ 079
规则5:云群体智能在互联网大脑中蕴含巨大价值/ 082
规则6:互联网大数据企业需要解决数据瓶颈问题/ 085
规则7:挖掘互联网大脑的情感特征将获得超额回报/ 089
规则8:神经纤维公司通过链接各神经系统获得关键地位/ 093
规则9:互联网大脑梦境的构建带来产业升级/ 097
规则10:云反射弧公司应把确保反射成功放到首位/ 100
第三章城市大脑:互联网大脑架构下的智慧城市建设/ 104
数千年来,智能化一直是城市发展的使命之一,互联网加速了城市智慧化的趋势,在互联网大脑形成的过程中,城市建设也不可避免受到影响,互联网大脑架构与智慧城市的结合是城市大脑产生的根源。包括华为、阿里、腾讯、谷歌、科大讯飞等科技巨头在这个领域进行了激烈的竞争。很多城市从类脑神经元网络和云反射弧角度开展智慧城市的建设工作,同时这两个特点也成为评测城市智商最重要的因素。
城市的智能化发展简史/ 104
什么是智慧城市/ 106
智慧城市在发展过程中遇到的三个问题/ 107
城市大脑,基于互联网大脑模型的智慧城市建设/109
建设城市大脑的三个重要关键点/ 112
城市大脑的应用范例:上海城市大脑/ 115
城市大脑有多聪明/ 116
第二部分 哲学与科学
第四章 世界和脑的哲学认知,一脉相承的千年思考/ 125
人类很早就朦胧的发现社会组织具有神经系统的特征。19世纪以来,一些前瞻的哲学家们不断把人类社会设想成为一个类脑的有机体。其中有三位先驱的观点特别值得关注,分别是卡恩的工具与器官映射、麦克卢汉的社会神经网络、彼得罗素的全球脑或地球脑。互联网大脑模型的形成,在理论上与这些先驱们的思考是一脉相承的。
思想家的共同认知:社会是一个大脑/ 125
卡普的器官投影理论:技术与器官的关联/ 127
传媒学科创始人麦克卢汉的社会神经网络/ 128
英国哲学家彼德·罗素的地球脑(全球脑) /129
第五章 两个世纪的类比:原子与太阳系,互联网与大脑/ 132
类比是科学探索的三大法宝之一,原子和互联网分别作为20和21世纪最重要的物理结构,在探索时都用到了类比的方法,其中原子出现了葡萄干蛋糕模型、土星模型和太阳系模型,而互联网出现了网状模型和大脑模型。虽然都用到了类比,但互联网由于体积庞大、变化速度快、涉及元素多,因此成为比原子更为困难的两个研究特点。
类比在科学发现中的重要价值/ 132
2000 年的探索,通过类比发现原子的秘密/ 134
用大脑类比互联网面临的两个困难/ 139
两个世纪最重要科学模型的研究对比/ 141
第六章 超级智能的运行机制:互联网大脑的结构/ 143
相比互联网最诞生之初的网状结构,互联网大脑模型加入了人、传感器、云机器人、类脑神经元网络、左右大脑、AI等元素,这种结构也就构成了一种自然界前所未有的超级智能形式。互联网大脑通过类脑神经元网络(大社交网络)结构将数十亿人类的群体智能和数百亿设备的机器智能统一起来,通过云反射弧实现对世界的认知和反馈,它们是互联网大脑模型最重要的两个元素
互联网的原有架构:连接计算机的世界之网/143
“人”成为互联网定义中新的重要元素/ 146
传感器的加入使互联网产生感觉神经系统/ 148
云机器人和智能设备构成互联网的运动神经系统/150
大数据是互联网大脑记忆和智力发育的重要基础/152
人工智能广泛分布在互联网大脑中并驱动运转/153
云群体智能:连接数十亿人的互联网右大脑/155
云机器智能:数百亿联网设备构建的互联网左大脑/157
类脑神经元网络:构建人与人、人与物、物与物的大社交/ 159
互联网大脑的5 种神经元模式/ 162
云反射弧:互联网大脑对世界做出反应的智能机制/169
基于互联网大脑模型的Ω 超级智能诞生/ 174
第三部分 探索与未来
第七章 AI 能否超越人类,互联网大脑能否变成天网/ 179
人类因为天网等科幻作品对人工智能产生深深的恐惧,它背后本质上依然是AI能否超越人类的争论。世界范围著名的科学家、企业家、投资家进行了激烈的争论,如何评测AI与人类的智商,过去100年来,前人做出了很多探索工作,但也面临着重重困难,从互联网大脑的智商研究开始,我们建立了人类与机器通用的标准智能模型,对AI能否超越人类,互联网大脑能否变成天网问题进行了探讨。
“天网”引发的恐慌/ 179
“机器能否超越人类”的争议和面临的难点/181
人类智商与机器智商的研究简史/ 187
标准智能模型的建立,统一描述人类与机器的特征/194
三次智商测试,评估机器能否超越人类/ 201
机器是人类的朋友、敌人还是仆人/ 204
互联网能否进化成天网,风险在哪里/ 210
互联网(大脑)的智商究竟有多少/ 215
第八章 镜像作用:互联网大脑模型对脑科学的启发/ 217
脑科学或神经科学是人类科学最重要的领域之一。经过数千年发展,到21世纪,这个具有无限生命力的学科获得巨大的突破机遇。在脑科学给予互联网重要参考价值的同时,互联网的发展也对脑科学产生巨大启发。最新科学研究发现,大脑中存在路由系统、搜索引擎、维基百科、社交网络的机制,这些研究为建立互联网神经学奠定了基础
人类最后的科学疆域——脑科学/ 神经科学/ 217
互为镜像的互联网与大脑功能结构/ 219
大脑中类思科和华为的路由系统机制/ 223
大脑中类谷歌和百度的搜索引擎机制/ 224
大脑中的类腾讯和脸书的社交网络特征/ 227
大脑中的类维基百科机制/ 228
互联网神经学:脑科学、人工智能与互联网的结合/230
第九章 进化启示录:从生命起源到智慧宇宙/ 237
生命的进化是否有方向,一直存在巨大的争议,英国的达尔文和华莱士为一派认为进化没有方向和等级之分,法国拉马克和德日进为另一派认为进化有方向有高低之分,21世纪以来,互联网大脑的发育、生物大脑的进化、人工智能等级划分等研究提醒我们,以种群知识库为代表的生物进化具有明确的进化特征,“全知全能”的超级智能将是所有生命进化的终点
生命进化方向之争:英国与法国两大阵营的对抗/237
大脑的进化方向:十亿年生物大脑发展历程/246
“上帝公式”与智能的7 个等级/ 250
智慧宇宙形成的10 张示意图/ 255
全知全能:生命进化的方向和目标/ 261
生存还是死亡,判断人类和人工智能伦理的标准/271
后记
互联网大脑进化简史/ 276
互联网大脑模型的起源/ 281
2008—2018年5 个版本的互联网大脑模型/ 284
献给人类进化未来与终点的诗/ 288

119#
 楼主| 发表于 2019-8-1 23:26:43 | 只看该作者
【案例】

浅谈人工智能:现状、任务、构架与统一 | 正本清源
朱松纯   加州大学洛杉矶分校UCLA
统计学和计算机科学教授
视觉、认知、学习与自主机器人中心主任
VCLA@UCLA
2017年11月02日 刊登于 《视觉求索》微信公众号
目录
引言
第一节    现状:正视现实
第二节   未来:一只乌鸦给我们的启示
第三节    历史:从“春秋五霸”到“战国六雄”
第四节    统一:“小数据、大任务”范式与认知构架
第五节    学科一:计算视觉 --- “深”到“暗”
第六节    学科二:认知推理 --- 走进内心世界
第七节    学科三:语言通讯 --- 沟通的认知基础
第八节    学科四:博弈伦理 --- 获取、共享人类的价值观
第九节    学科五:机器人学 --- 构建大任务平台
第十节    学科六:机器学习 --- 学习的终极极限与“停机问题”
第十一节  总结:  智能科学 --- 牛顿与达尔文的统一
附录   中科院自动化所报告会上的问答与互动摘录
鸣谢
引言
“人工智能”这个名词在沉寂了近30年之后,最近两年“咸鱼翻身”,成为了科技公司公关的战场、网络媒体吸睛的风口,随后受到政府的重视和投资界的追捧。于是,新闻发布会、高峰论坛接踵而来,政府战略规划出台,各种新闻应接不暇,宣告一个“智能为王”时代的到来。
到底什么是人工智能?现在的研究处于什么阶段?今后如何发展?这是大家普遍关注的问题。由于人工智能涵盖的学科和技术面非常广,要在短时间内全面认识、理解人工智能,别说非专业人士,就算对本行业研究人员,也是十分困难的任务。
所以,现在很多宣传与决策冲到认识之前了,由此不可避免地造成一些思想和舆论的混乱。
自从去年用了微信以来,我就常常收到亲朋好友转来的惊世骇俗的新闻标题。我发现很多议论缺乏科学依据,变成了“娱乐AI”。一个在1970年代研究黑洞的物理学博士,从来没有研究过人工智能,却时不时被抬出来预测人类末日的到来。某些公司的公关部门和媒体发挥想象力,动辄把一些无辜的研究人员封为“大师”、“泰斗”。最近,名词不够用了。九月初,就有报道把请来的一位美国教授称作“人工智能祖师爷”。这位教授的确是机器学习领域的一个领军人物,但人工智能是1956年开始的,这位教授也才刚刚出生。况且机器学习只是人工智能的一个领域而已,大部分其它重要领域,如视觉、语言、机器人,他都没有涉足,所以这样的封号很荒唐(申明一点:我对这位学者本人没有意见,估计他自己不一定知道这个封号)。当时我想,后面是不是有人会搬出“达摩老祖、佛祖如来、孔雀王、太上老君、玉皇大帝”这样的封号。十月初,赫然就听说达摩院成立了,宣称要碾压美国,舆情轰动!别说一般老百姓担心丢饭碗,就连一些业内的研究人员都被说得心慌了,来问我有什么看法。
我的看法很简单:大多数写报道和搞炒作宣传的人,基本不懂人工智能。这就像年轻人玩的传话游戏,扭曲的信息在多次传导过程中,逐级放大,最后传回来,自己吓到自己了。下面这个例子就说明公众的误解到了什么程度。今年9月我在车上听到一家电台讨论人工智能。两位主持人谈到硅谷脸书公司,有个程序员突然发现,两台电脑在通讯过程中发明了一种全新的语言,快速交流,人看不懂。眼看一种“超级智能”在几秒之内迅速迭代升级(我加一句:这似乎就像宇宙大爆炸的前几秒钟),程序员惊恐万状。人类现在只剩最后一招才能拯救自己了:“别愣着,赶紧拔电源啊!…”终于把人类从鬼门关又拉回来了。
回到本文的正题。全面认识人工智能之所以困难,是有客观原因的。
其一、人工智能是一个非常广泛的领域。当前人工智能涵盖很多大的学科,我把它们归纳为六个:
(1)计算机视觉(暂且把模式识别,图像处理等问题归入其中)、
(2)自然语言理解与交流(暂且把语音识别、合成归入其中,包括对话)、
(3)认知与推理(包含各种物理和社会常识)、
(4)机器人学(机械、控制、设计、运动规划、任务规划等)、
(5)博弈与伦理(多代理人agents的交互、对抗与合作,机器人与社会融合等议题)。
(6)机器学习(各种统计的建模、分析工具和计算的方法),
这些领域目前还比较散,目前它们正在交叉发展,走向统一的过程中。我把它们通俗称作“战国六雄”,中国历史本来是“战国七雄”,我这里为了省事,把两个小一点的领域:博弈与伦理合并了,伦理本身就是博弈的种种平衡态。最终目标是希望形成一个完整的科学体系,从目前闹哄哄的工程实践变成一门真正的科学Science of Intelligence。
由于学科比较分散,从事相关研究的大多数博士、教授等专业人员,往往也只是涉及以上某个学科,甚至长期专注于某个学科中的具体问题。比如,人脸识别是计算机视觉这个学科里面的一个很小的问题;深度学习属于机器学习这个学科的一个当红的流派。很多人现在把深度学习就等同于人工智能,就相当于把一个地级市说成全国,肯定不合适。读到这里,搞深度学习的同学一定不服气,或者很生气。你先别急,等读完后面的内容,你就会发现,不管CNN网络有多少层,还是很浅,涉及的任务还是很小。
各个领域的研究人员看人工智能,如果按照印度人的谚语可以叫做“盲人摸象”,但这显然是言语冒犯了,还是中国的文豪苏轼游庐山时说得有水准:
“横看成岭侧成峰,远近高低各不同
   不识庐山真面目,只缘身在此山中。”
其二,人工智能发展的断代现象。由于历史发展的原因,人工智能自1980年代以来,被分化出以上几大学科,相互独立发展,而且这些学科基本抛弃了之前30年以逻辑推理与启发式搜索为主的研究方法,取而代之的是概率统计(建模、学习)的方法。留在传统人工智能领域(逻辑推理、搜索博弈、专家系统等)而没有分流到以上分支学科的老一辈中,的确是有很多全局视野的,但多数已经过世或退休了。他们之中只有极少数人在80-90年代,以敏锐的眼光,过渡或者引领了概率统计与学习的方法,成为了学术领军人物。而新生代(80年代以后)留在传统人工智能学科的研究人员很少,他们又不是很了解那些被分化出去的学科中的具体问题。
这种领域的分化与历史的断代 客观上造成了目前的学界和产业界思路和观点相当“混乱”的局面,媒体上的混乱就更放大了。但是,以积极的态度来看,这个局面确实为现在的年轻一代研究人员、研究生提供了一个很好的建功立业的机会和广阔的舞台。
鉴于这些现象,《视觉求索》编辑部同仁和同行多次催促我写一篇人工智能的评论和介绍材料。我就免为其难,仅以自己30年来读书和跨学科研究的经历、观察和思辨,浅谈什么是人工智能;它的研究现状、任务与构架;以及如何走向统一。
我写这篇文章的动机在于三点:
  (1)为在读的研究生们、为有志进入人工智能研究领域的年轻学者开阔视野。
  (2)为那些对人工智能感兴趣、喜欢思考的人们,做一个前沿的、综述性的介绍。
  (3)为公众与媒体从业人员,做一个人工智能科普,澄清一些事实。
本文来历 本文技术内容选自我2014年来在多所大学和研究所做的讲座报告。2017年7月,微软的沈向洋博士要求我在一个朋友聚会上做一个人工智能的简介,我增加了一些通俗的内容。2017年9月,在谭铁牛和王蕴红老师的要求下,我参加了中科院自动化所举办的人工智能人机交互讲习班,他们派速记员和一名博士生整理出本文初稿。如果没有他们的热情帮助,这篇文章是不可能写成的。原讲座两个半小时,本文做了删减和文字修饰。仍然有四万字,加上大量插图和示例。很抱歉,无法再压缩了。
本文摘要:文章前四节浅显探讨什么是人工智能和当前所处的历史时期,后面六节分别探讨六个学科的重点研究问题和难点,有什么样的前沿的课题等待年轻人去探索,最后一节讨论人工智能是否以及如何成为一门成熟的科学体系。
诚如屈子所言:路漫漫其修远兮,吾将上下而求索”。
第一节  现状评估:正视现实
人工智能的研究,简单来说,就是要通过智能的机器,延伸和增强(augment)人类在改造自然、治理社会的各项任务中的能力和效率,最终实现一个人与机器和谐共生共存的社会。这里说的智能机器,可以是一个虚拟的或者物理的机器人。与人类几千年来创造出来的各种工具和机器不同的是,智能机器有自主的感知、认知、决策、学习、执行和社会协作能力,符合人类情感、伦理与道德观念。
抛开科幻的空想,谈几个近期具体的应用。无人驾驶大家听了很多,先说说军用。军队里的一个班或者行动组,现在比如要七个人,将来可以减到五个人,另外两个用机器来替换。其次,机器人可以用在救灾和一些危险的场景,如核泄露现场,人不能进去,必须靠机器人。医用的例子很多:智能的假肢或外骨架(exoskeleton)与人脑和身体信号对接,增强人的行动控制能力,帮助残疾人更好生活。此外,还有就是家庭养老等服务机器人等。
但是,这方面的进展很不尽人意。以前日本常常炫耀他们机器人能跳舞,中国有一次春节晚会也拿来表演了。那都是事先编写的程序,结果一个福岛核辐射事故一下子把所有问题都暴露了,发现他们的机器人一点招都没有。美国也派了机器人过去,同样出了很多问题。比如一个简单的技术问题,机器人进到灾难现场,背后拖一根长长的电缆,要供电和传数据,结果电缆就被缠住了,动弹不得。有一次,一位同事在餐桌上半开玩笑说,以现在的技术,要让一个机器人长时间像人一样处理问题,可能要自带两个微型的核电站,一个发电驱动机械和计算设备,另一个发电驱动冷却系统。顺便说一个,人脑的功耗大约是10-25瓦。
看到这里,有人要问了,教授说得不对,我们明明在网上看到美国机器人让人叹为观止的表现。比如,这一家波士顿动力学公司(Boston Dynamics)的演示,它们的机器人,怎么踢都踢不倒呢,或者踢倒了可以自己爬起来,而且在野外丛林箭步如飞呢,还有几个负重的电驴、大狗也很酷。这家公司本来是由美国国防部支持开发出机器人来的,被谷歌收购之后、就不再承接国防项目。可是,谷歌发现除了烧钱,目前还找不到商业出路,最近一直待售之中。您会问,那谷歌不是很牛吗?DeepMind下围棋不是也一次次刺激中国人的神经吗?有一个逆天的机器人身体、一个逆天的机器人大脑,它们都在同一个公司内部,那为什么没有做出一个人工智能的产品呢?他们何尝不在夜以继日的奋战之中啊。
人工智能炒作了这么长时间,您看看周围环境,您看到机器人走到大街上了?没有。您看到人工智能进入家庭了吗?其实还没有。您可能唯一直接领教过的是基于大数据和深度学习训练出来的聊天机器人,你可能跟Ta聊过。用我老家湖北人的话,这就叫做“扯白”--- 东扯西拉、说白话。如果你没有被Ta气得背过气的话,要么您真的是闲得慌,要么是您真的有耐性。
为了测试技术现状,美国国防部高级研究署2015年在洛杉矶郊区Pomona做了一个DARPA Robot Challenge(DRC),悬赏了两百万美金奖给竞赛的第一名。有很多队伍参加了这个竞赛,上图是韩国科技大学队赢了第一名,右边是他们的机器人在现场开门进去“救灾”。整个比赛场景设置的跟好莱坞片场一样,复制了三个赛场,全是冒烟的救灾场面。机器人自己开着一个车子过来,自己下车,开门,去拿工具,关阀门,在墙上开洞,最后过一个砖头做的障碍区,上楼梯等一系列动作。我当时带着学生在现场看,因为我们刚好有一个大的DARPA项目,项目主管是里面的裁判员。当时,我第一感觉还是很震撼的,感觉不错。后来发现内情,原来机器人所有的动作基本上是人在遥控的。每一步、每一个场景分别有一个界面,每个学生控制一个模块。感知、认知、动作都是人在指挥。就是说这个机器人其实并没有自己的感知、认知、思维推理、规划的能力。造成的结果是,你就可以看到一些不可思议的事情。比如说这个机器人去抓门把手的时候,因为它靠后台人的感知,误差一厘米,就没抓着;或者脚踩楼梯的时候差了一点点,它重心就失去了平衡,可是在后面控制的学生没有重力感知信号,一看失去平衡,他来不及反应了。你想想看,我们人踩滑了一下子能保持平衡,因为你整个人都在一起反应,可是那个学生只是远远地看着,他反应不过来,所以机器人就东倒西歪。
这还是一个简单的场景。其一、整个场景都是事先设定的,各个团队也都反复操练过的。如果是没有遇见的场景,需要灵机决断呢?其二、整个场景还没有人出现,如果有其他人出现,需要社会活动(如语言交流、分工协作)的话,那复杂度就又要上两个数量级了。file:///C:/Users/ADMINI~1/AppData/Local/Temp/ksohtml10248/wps5.png
其实,要是完全由人手动控制,现在的机器人都可以做手术了,而且手术机器人已经在普及之中。上图是我实验室与一家公司合作的项目,机器人可以开拉链、检查包裹、用钳子撤除炸弹等,都是可以实现的。现在的机器人,机械控制这一块已经很不错了,但这也不是完全管用。比如上面提到的波士顿动力学公司的机器人电驴走山路很稳定,但是它马达噪音大,轰隆隆的噪音,到战场上去把目标都给暴露了。特别是晚上执勤、侦察,你搞那么大动静,怎么行呢?
2015年的这次DRC竞赛,暂时就断送了美国机器人研究的重大项目的立项。外行(包含国会议员)从表面看,以为这个问题已经解决了,应该留给公司去开发;内行看到里面的困难,觉得一时半会没有大量经费解决不了。这个认识上的落差在某种程度上就是“科研的冬天”到来的前题条件。
小结一下,现在的人工智能和机器人,关键问题是缺乏物理的常识社会的常识“Common sense”。 这是人工智能研究最大的障碍。那么什么是常识?常识就是我们在这个世界和社会生存的最基本的知识:(1)它使用频率最高;(2)它可以举一反三,推导出并且帮助获取其它知识。这是解决人工智能研究的一个核心课题。我自2010年来,一直在带领一个跨学科团队,攻关视觉常识的获取与推理问题。我在自动化所做了另外一个关于视觉常识报告,也被转录成中文了,不久会发表出来。
那么是不是说,我们离真正的人工智能还很遥远呢?其实也不然。关键是研究的思路要找对问题和方向。自然界已经为我们提供了很好的案例。
下面,我就来看一下,自然界给我们展示的解答。
第二节   未来目标: 一只乌鸦给我们的启示
同属自然界的鸟类,我们对比一下体型大小都差不多的乌鸦和鹦鹉。鹦鹉有很强的语言模仿能力,你说一个短句,多说几遍,它能重复,这就类似于当前的由数据驱动的聊天机器人。二者都可以说话,但鹦鹉和聊天机器人都不明白说话的语境和语义,也就是它们不能把说的话对应到物理世界和社会的物体、场景、人物,不符合因果与逻辑。
可是,乌鸦就远比鹦鹉聪明,它们能够制造工具,懂得各种物理的常识和人的活动的社会常识。
下面,我就介绍一只乌鸦,它生活在复杂的城市环境中,与人类交互和共存。YouTube网上有不少这方面的视频,大家可以找来看看。我个人认为,人工智能研究该搞一个“乌鸦图腾”, 因为我们必须认真向它们学习。
上图a是一只乌鸦,被研究人员在日本发现和跟踪拍摄的。乌鸦是野生的,也就是说,没人管,没人教。它必须靠自己的观察、感知、认知、学习、推理、执行,完全自主生活。假如把它看成机器人的话,它就在我们现实生活中活下来。如果这是一个自主的流浪汉进城了,他要在城里活下去,包括与城管周旋。
首先,乌鸦面临一个任务,就是寻找食物。它找到了坚果(至于如何发现坚果里面有果肉,那是另外一个例子了),需要砸碎,可是这个任务超出它的物理动作的能力。其它动物,如大猩猩会使用工具,找几块石头,一块大的垫在底下,一块中等的拿在手上来砸。乌鸦怎么试都不行,它把坚果从天上往下抛,发现解决不了这个任务。在这个过程中,它就发现一个诀窍,把果子放到路上让车轧过去(图b),这就是“鸟机交互”了。后来进一步发现,虽然坚果被轧碎了,但它到路中间去吃是一件很危险的事。因为在一个车水马龙的路面上,随时它就牺牲了。我这里要强调一点,这个过程是没有大数据训练的,也没有所谓监督学习,乌鸦的生命没有第二次机会。这是与当前很多机器学习,特别是深度学习完全不同的机制。
然后,它又开始观察了,见图c。它发现在靠近红绿路灯的路口,车子和人有时候停下了。这时,它必须进一步领悟出红绿灯、斑马线、行人指示灯、车子停、人流停这之间复杂的因果链。甚至,哪个灯在哪个方向管用、对什么对象管用。搞清楚之后,乌鸦就选择了一根正好在斑马线上方的一根电线,蹲下来了(图d)。这里我要强调另一点,也许它观察和学习的是别的地点,那个点没有这些蹲点的条件。它必须相信,同样的因果关系,可以搬到当前的地点来用。这一点,当前很多机器学习方法是做不到的。比如,一些增强学习方法,让机器人抓取一些固定物体,如积木玩具,换一换位置都不行;打游戏的人工智能算法,换一换画面,又得重新开始学习。
它把坚果抛到斑马线上,等车子轧过去,然后等到行人灯亮了(图e)。这个时候,车子都停在斑马线外面,它终于可以从容不迫地走过去,吃到了地上的果肉。你说这个乌鸦有多聪明,这是我期望的真正的智能。
这个乌鸦给我们的启示,至少有三点:
其一、它是一个完全自主的智能。感知、认知、推理、学习、和执行, 它都有。我们前面说的, 世界上一批顶级的科学家都解决不了的问题,乌鸦向我们证明了,这个解存在。
其二、你说它有大数据学习吗?这个乌鸦有几百万人工标注好的训练数据给它学习吗?没有,它自己把这个事通过少量数据想清楚了,没人教它。
其三、乌鸦头有多大?不到人脑的1%大小。 人脑功耗大约是10-25瓦,它就只有0.1-0.2瓦,就实现功能了,根本不需要前面谈到的核动力发电。 这给硬件芯片设计者也提出了挑战和思路。十几年前我到中科院计算所讲座, 就说要做视觉芯片VPU,应该比后来的GPU更超前。我最近参与了一个计算机体系结构的大项目,也有这个目标。
在座的年轻人想想看,你们有很大的机会在这里面,这个解存在,但是我们不知道怎么用一个科学的手段去实现这个解。
讲通俗一点,我们要寻找“乌鸦”模式的智能,而不要“鹦鹉”模式的智能。当然,我们必须也要看到,“鹦鹉”模式的智能在商业上,针对某些垂直应用或许有效。
我这里不是说要把所有智能问题都解决了,才能做商业应用。单项技术如果成熟落地,也可以有巨大商业价值。我这里谈的是科学研究的目标。
第三节   历史时期:从“春秋五霸”到“战国六雄”
要搞清楚人工智能的发展趋势,首先得回顾历史。读不懂历史,无法预测未来。这一节,我就结合自己的经历谈一下我的观点,不见得准确和全面。为了让非专业人士便于理解,我把人工智能的60年历史与中国历史的一个时期做一个类比,但绝对不要做更多的推广和延伸。如下图所示,这个的时期是以美国时间为准的,中国一般会滞后一两年。
首先,从表面一层来看。反映在一些产业新闻和社会新闻层面上,人工智能经过了几起几落,英文叫做Boom and Bust,意思是一哄而上、一哄而散,很形象。每次兴盛期都有不同的技术在里面起作用。
最早一次的兴起是1956-1974,以命题逻辑、谓词逻辑等知识表达、启发式搜索算法为代表。当时就已经开始研究下棋了。然后进入第一次冬天。这个时候,中国结束文革,开始学习西方科技。我上小学的时候,就听到报纸报道计算机与人下国际象棋,十分好奇。
1980年代初又兴起了第二次热潮,一批吹牛的教授、研究人员登场了。做专家系统、知识工程、医疗诊断等,中国当时也有人想做中医等系统。虽然这次其中也有学者拿了图灵奖,但这些研究没有很好的理论根基。1986年我上了中国科大计算机系,我对计算机专业本身不是最感兴趣,觉得那就是一个工具和技能,而人工智能方向水很深,值得长期探索,所以我很早就去选修了人工智能的研究生课程,是由自动化系一个到美国进修的老师回来开的课。上完课,我很失望,感觉扑空了。它基本还是以符号为主的推理,离现实世界很远。当时人工智能里面的人员也很悲观,没士气。所以,我就去阅读关于人的智能的相关领域:神经生理学、心理学、认知科学等,这就让我摸到了计算机视觉这个新兴的学科。在80年代末有个短暂的神经网络的研究热潮,我们当时本科五年制,我的大学毕业论文就是做神经网络的。随后,人工智能就跌入了近30年的寒冬。
第三次热潮就是最近两年兴起的深度学习推动的。有了以前的教训,一开始学者们都很谨慎,出来警告说我们做的是特定任务,不是通用人工智能,大家不要炒作。但是,拦不住了。公司要做宣传,然后,大家开始加码宣传。这就像踩踏事件,处在前面的人是清醒的,他们叫停,可是后面大量闻信赶来的人不知情,拼命往里面挤。人工智能的确是太重要了,谁都不想误了这趟车。也有人认为这次是真的,不会再有冬天了。冬天不冬天,那就要看我们现在怎么做了。
所以说,从我读大学开始,人工智能这个名词从公众视线就消失了近30年。我现在回头看,其实它当时并没有消失,而是分化了。研究人员分别聚集到五个大的领域或者叫做学科:计算机视觉、自然语言理解、认知科学、机器学习、机器人学。这些领域形成了自己的学术圈子、国际会议、国际期刊,各搞各的,独立发展。人工智能里面还有一些做博弈下棋、常识推理,还留在里面继续搞,但人数不多。我把这30年叫做一个“分治时期”,相当于中国历史的“春秋时期”。春秋五霸就相当于这分出去的五个学科,大家各自发展壮大。
其次、从深一层的理论基础看。我把人工智能发展的60年分为两个阶段。
第一阶段:前30年以数理逻辑的表达与推理为主。这里面有一些杰出的代表人物,如John McCarthy、Marvin Minsky、Herbert Simmon。他们懂很多认知科学的东西,有很强的全局观念。这些都是我读大学的时候仰慕的人物,他们拿过图灵奖和其它一堆大奖。但是,他们的工具基本都是基于数理逻辑和推理。这一套逻辑的东西发展得很干净、漂亮,很值得我们学习。大家有兴趣,可以参考一本最新工具书:The Handbook of Knowledge Representation,2007年编写的,1000多页。但是,这些符号的知识表达不落地,全书谈的没有实际的图片和系统;所以,一本1000多页的书,PDF文件只有10M,下载非常快。而我现在给的这个讲座,PPT差不多1G, 因为有大量的图片、视频,是真实的例子。
这个逻辑表达的“体制”,就相当于中国的周朝,周文王建立了一个相对松散的诸侯部落体制,后来指挥不灵,就瓦解了,进入一个春秋五霸时期。而人工智能正好也分出了五大领域。
第二阶段:后30年以概率统计的建模、学习和计算为主。10余年的发展之后,“春秋五霸”在1990年中期都开始找到了概率统计这个新“体制”:统计建模、机器学习、随机计算算法等。
在这个体制的转型过程中,起到核心作用的有这么几个人。讲得通俗一点,他们属于先知先觉者,提前看到了人工智能的发展趋势,押对了方向(就相当于80年代买了微软、英特尔股票;90年代末,押对了中国房地产的那一批人)。他们没有进入中国媒体的宣传视野。我简要介绍一下,从中我们也可以学习到一些治学之道。
第一个人叫Ulf Grenander。他从60年代就开始做随机过程和概率模型,是最早的先驱。60年代属于百家争鸣的时期,当别的领军人物都在谈逻辑、神经网络的时候,他开始做概率模型和计算,建立了广义模式理论,试图给自然界各种模式建立一套统一的数理模型。我在以前谈计算机视觉历史的博文里写过他,他刚刚去世。美国数学学会AMS刚刚以他名字设立了一个奖项(Grenander Prize)奖给对统计模型和计算领域有贡献的学者。他绝对是学术思想的先驱人物。
第二个人是Judea Pearl。他是我在UCLA的同事,原来是做启发式搜索算法的。80年代提出贝叶斯网络把概率知识表达于认知推理,并估计推理的不确定性。到90年代末,他进一步研究因果推理,这又一次领先于时代。2011年因为这些贡献他拿了图灵奖。他是一个知识渊博、思维活跃的人,不断有原创思想。80多岁了,还在高产发表论文。顺便吹牛一句,他是第一个在UCLA计算机系和统计系兼职的教授,我是多年之后第二个这样兼职的。其实搞这种跨学科研究当时思想超前,找工作或者评议的时候,两边的同行都不待见,不认可。
第三个人是Leslei Valiant。他因离散数学、计算机算法、分布式体系结构方面的大量贡献,2010年拿了图灵奖。1984年,他发表了一篇文章,开创了computational learning theory。他问了两个很简单、但是深刻的问题。第一个问题:你到底要多少例子、数据才能近似地、以某种置信度学到某个概念,就是PAClearning;第二个问题:如果两个弱分类器综合在一起,能否提高性能?如果能,那么不断加弱分类器,就可以收敛到强分类器。这个就是Boosting和Adaboost的来源,后来被他的一个博士后设计了算法。顺便讲一句,这个机器学习的原理,其实中国人早就在生活中观察到了,就是俗话说的“三个臭裨将、顶个诸葛亮”。这里的裨将就是副官,打仗的时候凑在一起商量对策,被民间以讹传讹,说成“皮匠”。Valiant为人非常低调。我1992年去哈佛读书的时候,第一学期就上他的课,当时听不懂他说话,他上课基本是自言自语。他把自己科研的问题直接布置作业让我们去做,到哪里都找不到参考答案,也没有任何人可以问。苦啊,100分的课我考了40多分。上课的人从四十多人,到了期中只有十来个人,我开始担心是不是要挂科了。最后,还是坚持到期末。他把成绩贴在他办公室门上,当我怀着忐忑不安心情去看分的时候,发现他给每个人都是A。
第四个人是David Mumford。我把他放在这里,有点私心,因为他是我博士导师。他说他60年代初本来对人工智能感兴趣。因为他数学能力特别强,上代数几何课程的时候就发现能够证明大定理了,结果一路不可收拾,拿了菲尔茨奖。但是,到了80年代中期,他不忘初心,还是决定转回到人工智能方向来,从计算机视觉和计算神经科学入手。我听说他把原来代数几何的书全部拿下书架放在走廊,让人拿走,再也不看了。数学家来访问,他也不接待了。计算机视觉80年代至90年代初,一个最大的流派就是做几何和不变量,他是这方面的行家,但他根本不过问这个方向。他就从头开始学概率,那个时候他搞不懂的问题就带我去敲楼上统计系教授的门,比如去问哈佛一个有名的概率学家Persy Diaconis。他完全是一个学者,放下架子去学习新东西,直奔关键的体系,而不是拿着手上用惯了的锤子到处找钉子 --- 这是我最佩服的地方。然后,他皈依了广义模式理论。他的贡献,我就避嫌不说了。
这个时期,还有一个重要的人物是做神经网络和深度学习的多伦多大学教授Hinton。我上大学的时候,80年代后期那一次神经网络热潮,他就出名了。他很有思想,也很坚持,是个学者型的人物。所不同的是,他下面的团队有点像摇滚歌手,能凭着一首通俗歌曲(代码),迅速红遍大江南北。这里顺便说一下,我跟Hinton只见过一面。他腰椎疾病使得他不能到处作报告,前几年来UCLA做讲座(那时候深度学习刚刚开始起来),我们安排了一个面谈。一见面,他就说“我们总算见面了”,因为他读过我早期做的统计纹理模型和随机算法的一些论文,他们学派的一些模型和算法与我们做的工作在数理层面有很多本质的联系。我打印了一篇综述文章给他带在坐火车回去的路上看。这是一篇关于隐式(马尔科夫场)与显式(稀疏)模型的统一与过渡的信息尺度的论文,他回Toronto后就发来邮件,说很高兴读到这篇论文。很有意思的是,这篇论文的初稿,我和学生匿名投到CVPR会议,三个评分是“(5)强烈拒绝;(5)强烈拒绝;(4)拒绝”。评论都很短:“这篇文章不知所云,很怪异weird”。我们觉得文章死定了,就懒得反驳 (rebuttal),结果出乎意外地被录取了。当然,发表了也没人读懂。所以,我就写成一篇长的综述,算是暂时搁置了。我把这篇论文给他看,Hinton毕竟是行家,他一定也想过类似的问题。最近,我们又回去做这个问题,我在今年的ICIP大会特邀报告上还提到这个问题,后面也会作为一个《视觉求索》文章发布出来。这是一个十分关键的问题,就是两大类概率统计模型如何统一起来(就像物理学,希望统一某两个力和场),这是绕不过去的。
扯远了,回到人工智能的历史时期,我作了一个比较通俗的说法,让大家好记住,相当于咱们中国早期的历史。早期数理逻辑的体制相当于周朝,到80年代这个体制瓦解了,人工智能大概有二三十年不存在了,说起人工智能大家都觉得不着调,污名化了。其实,它进入一个春秋五霸时期,计算机视觉、自然语言理解、认知科学、机器学习、机器人学五大学科独立发展。在发展壮大的过程中,这些学科都发现了一个新的平台或者模式,就是概率建模和随机计算。春秋时期虽然有一些征战,但还是相对平静的时期。
那么现在开始进入一个什么状态呢?这“春秋五霸”不断扩充地盘和人马,在一个共同平台上开始交互了。比如说视觉跟机器学习很早就开始融合了。现在视觉与自然语言、视觉跟认知、视觉跟机器人开始融合了。近年来,我和合作者就多次组织这样的联席研讨会。现在,学科之间则开始兼并了,就像是中国历史上的“战国七雄”时期。除了五霸,还有原来留在人工智能里面的两个大方向:博弈决策和伦理道德。这两者其实很接近,我后面把它们归并到一起来讲,一共六大领域,我把它归纳为“战国六雄”。
所以,我跟那些计算机视觉的研究生和年轻人说,你们不要单纯在视觉这里做,你赶紧出去“抢地盘”,单独做视觉,已经没有多少新东西可做的了,性能调不过公司的人是一方面;更麻烦的是,别的领域的人打进来,把你的地盘给占了。这是必然发生的事情,现在正在发生的事情。
我的判断是,我们刚刚进入一个“战国时期”,以后就要把这些领域统一起来。首先我们必须深入理解计算机视觉、自然语言、机器人等领域,这里面有很丰富的内容和语意。如果您不懂这些问题domain的内涵,仅仅是做机器学习就称作人工智能专家,恐怕说不过去。
我们正在进入这么一个大集成的、大变革的时代,有很多机会让我们去探索前沿,不要辜负了这个时代。这是我演讲的第一个部分:人工智能的历史、现状,发展的大趋势。
下面,进入我今天演讲的第二个主题:用一个什么样的构架把这些领域和问题统一起来。我不敢说我有答案,只是给大家提出一些问题、例子和思路,供大家思考。不要指望我给你提供代码,下载回去,调调参数就能发文章。
第四节 人工智能研究的认知构架:小数据、大任务范式
智能是一种现象,表现在个体和社会群体的行为过程中。回到前面乌鸦的例子,我认为智能系统的根源可以追溯到两个基本前提条件:
一、物理环境客观的现实与因果链条。这是外部物理环境给乌鸦提供的、生活的边界条件。在不同的环境条件下,智能的形式会是不一样的。任何智能的机器必须理解物理世界及其因果链条,适应这个世界。
二、智能物种与生俱来的任务与价值链条。这个任务是一个生物进化的“刚需”。如个体的生存,要解决吃饭和安全问题,而物种的传承需要交配和社会活动。这些基本任务会衍生出大量的其它的“任务”。动物的行为都是被各种任务驱动的。任务代表了价值观和决策函数,这些价值函数很多在进化过程中就已经形成了,包括人脑中发现的各种化学成分的奖惩调制,如多巴胺(快乐)、血清素(痛苦)、乙酰胆碱(焦虑、不确定性)、去甲肾上腺素(新奇、兴奋)等。
有了物理环境的因果链和智能物种的任务与价值链,那么一切都是可以推导出来的。要构造一个智能系统,如机器人或者游戏环境中的虚拟的人物,我们先给他们定义好身体的基本行动的功能,再定一个模型的空间(包括价值函数)。其实,生物的基因也就给了每个智能的个体这两点。然后,它就降临在某个环境和社会群体之中,就应该自主地生存,就像乌鸦那样找到一条活路:认识世界、利用世界、改造世界。
这里说的模型的空间是一个数学的概念,我们人脑时刻都在改变之中,也就是一个抽象的点,在这个空间中移动。模型的空间通过价值函数、决策函数、感知、认知、任务计划等来表达。通俗来说,一个脑模型就是世界观、人生观、价值观的一个数学的表达。这个空间的复杂度决定了个体的智商和成就。我后面会讲到,这个模型的表达方式和包含哪些基本要素。
有了这个先天的基本条件(设计)后,下一个重要问题:是什么驱动了模型在空间中的运动,也就是学习的过程?还是两点:
一、 外来的数据。外部世界通过各种感知信号,传递到人脑,塑造我们的模型。数据来源于观察(observation)和实践(experimentation)。观察的数据一般用于学习各种统计模型,这种模型就是某种时间和空间的联合分布,也就是统计的关联与相关性。实践的数据用于学习各种因果模型,将行为与结果联系在一起。因果与统计相关是不同的概念。
二、内在的任务。这就是由内在的价值函数驱动的行为、以期达到某种目的。我们的价值函数是在生物进化过程中形成的。因为任务的不同,我们往往对环境中有些变量非常敏感,而对其它一些变量不关心。由此,形成不同的模型。
机器人的脑、人脑都可以看成一个模型。任何一个模型由数据任务来共同塑造。
现在,我们就来到一个很关键的地方。同样是在概率统计的框架下,当前的很多深度学习方法,属于一个被我称作大数据、小任务范式big data for small task)”。针对某个特定的任务,如人脸识别和物体识别,设计一个简单的价值函数Loss function,用大量数据训练特定的模型。这种方法在某些问题上也很有效。但是,造成的结果是,这个模型不能泛化和解释。所谓泛化就是把模型用到其它任务,解释其实也是一种复杂的任务。这是必然的结果:你种的是瓜, 怎么希望得豆呢?
我多年来一直在提倡的一个相反的思路:人工智能的发展,需要进入一个小数据、大任务范式small data for big tasks)”,要用大量任务、而不是大量数据来塑造智能系统和模型。在哲学思想上,必须有一个思路上的大的转变和颠覆。自然辨证法里面,恩格斯讲过,“劳动创造了人”,这个有点争议。我认为一个更合适的说法是“任务塑造了智能”。人的各种感知和行为,时时刻刻都是被任务驱动的。这是我过去很多年来一直坚持的观点,也是为什么我总体上不认可深度学习这个学派的做法,虽然我自己是最早提倡统计建模与学习的一批人,但是后来我看到了更大的问题和局势。当然,我们的假设前提是智能系统已经有了前面讲的基本的设置,这个系统设置是亿万年的进化得来的,是不是通过大量数据了打磨(淘汰)出来的呢。有道理!如果我们把整个发展的过程都考虑进来,智能系统的影响可以分成三个时间段:(1)亿万年的进化,被达尔文理论的一个客观的适者生存的pheontype landscape驱动;(2)千年的文化形成与传承;(3)几十年个体的学习与适应。 我们人工智能研究通常考虑的是第三个阶段。
那么,如何定义大量的任务?人所感兴趣的任务有多少,是个什么空间结构?这个问题,心理和认知科学一直说不清楚,写不下来。这是人工智能发展的一个巨大挑战。
理清了这些前提条件,带着这样的问题,下面我用六节分别介绍六大领域的问题和例子,看能不能找到共性的、统一的框架和表达模型。过去几年来,我的研究中心一直把这六个领域的问题综合在一起研究,目的就是寻找一个统一的构架,找到“乌鸦”这个解。
第五节 计算机视觉:从“深”到“暗” Dark, Beyond Deep
视觉是人脑最主要的信息来源,也是进入人工智能这个殿堂的大门。我自己的研究也正是从这里入手的。这一节以一个具体例子来介绍视觉里面的问题。当然,很多问题远远没有被解决。
这是我家厨房的一个视角。多年前的一个下午,我女儿放学回家,我正在写一个大的项目申请书,就拍了这一张作为例子。图像就是一个像素的二维矩阵,可是我们感知到非常丰富的三维场景、行为的信息;你看的时间越长,理解的也越多。下面我列举几个被主流(指大多数研究人员)忽视的、但是很关键的研究问题。
一、几何常识推理与三维场景构建。以前计算机视觉的研究,需要通过多张图像(多视角)之间特征点的对应关系,去计算这些点在三维世界坐标系的位置(SfMSLAM)。其实人只需要一张图像就可以把三维几何估算出来。最早我在2002与一个学生韩峰发表了一篇文章,受到当时几何学派的嘲笑:一张图像怎么能计算三维呢,数学上说不通呀。其实,在我们的人造环境中,有很多几何常识和规律:比如,你坐的椅子高度就是你小腿的长度约16英寸,桌子约30英寸,案台约35英寸,门高约80英寸 --- 都是按照人的身体尺寸和动作来设计的。另外,人造环境中有很多重复的东西,比如几个窗户一样大小一致,建筑设计和城市规划都有规则。这些就是geometric common sense,你根据这些几何的约束就可以定位很多点的三维位置,同时估计相机位置和光轴。
见下图所示,在这个三维场景中,我们的理解就可以表达成为一个层次分解(compositional)的时空因果的解译图Spatial,Temporal and Causal Parse Graph),简称 STC-PG。STC-PG是一个极其重要的概念,我下面会逐步介绍。
几何重建的一个很重要的背景是,我们往往不需要追求十分精确的深度位置。比如,人对三维的感知其实都是非常不准的,它的精确度取决于你当前要执行的任务。在执行的过程中,你不断地根据需要来提高精度。比如,你要去拿几米以外的一个杯子,一开始你对杯子的方位只是一个大致的估计,在你走近、伸手的过程中逐步调整精度。
这就回到上一节谈的问题,不同任务对几何与识别的精度要求不一样。这是人脑计算非常高效的一个重要原因。最近,我以前一个博士后刘晓白(现在是助理教授)和我其他学生在这方面取得了很好进展,具体可以查看他们相关文章。
二、场景识别的本质是功能推理。现在很多学者做场景的分类和分割都是用一些图像特征,用大量的图片例子和手工标注的结果去训练神经网络模型 --- 这是典型的“鹦鹉”模式。而一个场景的定义本质上就是功能。当你看到一个三维空间之后,人脑很快就可以想象我可以干什么:这个地方倒水,这里可以拿杯子,这里可以坐着看电视等。现代的设计往往是复合的空间,就是一个房间可以多种功能,所以简单去分类已经不合适了。比如,美式厨房可以做饭、洗菜、用餐、聊天、吃饭。卧室可以睡觉、梳妆、放衣服、看书。场景的定义是按照你在里面能够干什么,这个场景就是个什么,按照功能划分,这些动作都是你想象出来的,实际图像中并没有。人脑感知的识别区与运动规划区是直接互通的,相互影响。我的博士学生赵一彪就是做这个的,他毕业去了MIT做认知科学博后,现在创立了一家自动驾驶的AI公司。
为了想象这些功能,人脑有十分丰富的动作模型,这些动作根据尺度分为两类(见下图)。第一类(左图)是与整个身体相关的动作,如坐、站、睡觉、工作等等;第二类(右图)是与手的动作相关的,如砸、剁、锯、撬等等。这些四维基本模型(三维空间加一维时间)可以通过日常活动记录下来,表达了人的动作和家具之间,以及手和工具之间的关系。正因为这一点,心理学研究发现我们将物体分成两大类,分别存放在脑皮层不同区域:一类是跟手的大小有关,跟手的动作相关的,如你桌上的东西;另一类是跟身体有关,例如家具之类。
有了这个理解,我们就知道:下面两张图,虽然图像特征完全不同,但是他们是同一类场景,功能上是等价的。人的活动和行为,不管你是哪个国家、哪个历史时期,基本是不变的。这是智能泛化的基础,也就是把你放到一个新的地区,你不需要大数据训练,马上就能理解、适应。这是我们能够举一反三的一个基础。file:///C:/Users/ADMINI~1/AppData/Local/Temp/ksohtml10248/wps12.png
回到前面的那个STC-PG解译图,每个场景底下其实就分解成为一些动作和功能 (见STC-PG图中的绿色方片节点)。由计算机想象、推理的各种功能决定对场景的分类。 想象功能就是把人的各种姿态放到三维场景中去拟合(见厨房解译图中人体线画)。这是完全不同于当前的深度学习方法用的分类方法。
三、物理稳定性与关系的推理。我们的生活空间除了满足人类的各种需求(功能、任务)之外, 另一个基本约束就是物理。我们对图像的解释和理解被表达成为一个解译图,这个解译图必须满足物理规律,否则就是错误的。比如稳定性是人可以快速感知的,如果你发现周围东西不稳,要倒了,你反应非常快,赶紧闪开。最近我们项目组的耶鲁大学教授Brian Scholl的认知实验发现,人对物理稳定性的反应是毫秒级,第一反应时间大约 100ms。
我们对图像的理解包含了物体之间的物理关系,每个物体的支撑点在那里。比如,下面这个图,吊灯和墙上挂的东西,如果没有支撑点,就会掉下来(右图)。这个研究方向,MIT认知科学系的Josh Tenenbuam教授与我都做了多年。
我提出了一个新的场景理解的minimax标准:minimize instability and maximize functionality最小化不稳定性且最大化功能性。这比以前我们做图像理解的用的MDL(最小描述长度)标准要更靠谱。这是解决计算机视觉的基本原理,功能和物理是设计场景的基本原则。几何尺寸是附属于功能推出来的,比如椅子的高度就是因为你要坐得舒服,所以就是你小腿的长度。
回到我家厨房的例子,你就会问,那里面的水是如何被检测到的呢?水是看不见的,花瓶和水壶里的水由各种方式推出来的。另外,你可能注意到,桌上的番茄酱瓶子是倒立着,为什么呢? 你可能很清楚,你家的洗头膏快用完的时候,瓶子是不是也是的倒着放的呢?这就是对粘稠液体的物理和功能理解之后的结果。由此,你可以看到我们对一个场景的理解是何等“深刻”,远远超过了用深度学习来做的物体分类和检测。
四、意向、注意和预测。厨房那张图有一个人和一只狗,我们可以进一步识别其动作、眼睛注视的地方,由此推导其动机和意向。这样我们可以计算她在干什么、想干什么,比如说她现在是渴了,还是累了。通过时间累积之后,进而知道她知道哪些,也就是她看到了或者没有看到什么。在时间上做预测,她下面想干什么。只有把这些都计算出来了,机器才能更好地与人进行交互。
所以,虽然我们只看到一张图片,那张STC-PG中,我们增加了时间维度,对人和动物的之前和之后的动作,做一个层次的分析和预测。当机器人能够预判别人的意图和下面的动作,那么它才能和人进行互动和合作。后面,我们讲的语言对话可以帮助人机互动和合作;但是,我们日常很多交互协助,靠的是默契,不需要言语也能做不少事。
下面的这一张图,是多摄像机的一个综合场景的解译实例。这是我的实验室做出来的一个视觉系统。这个视频的理解就输出为一个大的综合的STC-PG。在此基础上,就可以输出文字的描述(I2T)和回答提问 QA。我们把它叫做视觉图灵测试,网址:visualturingtest.com。
与第一节讲的机器人竞赛类似,这也是一个DARPA项目。测试就是用大量视频,我们算出场景和人的三维的模型、动作、属性、关系等等,然后就来回答各种各样的1000多个问题。现在一帮计算机视觉的人研究VQA(视觉问答),就是拿大量的图像和文本一起训练,这是典型的“鹦鹉”系统,基本都是“扯白”。回答的文字没有真正理解图像的内容,常常逻辑不通。我们这个工作是在VQA之前,认真做了多年。我们系统在项目DARPA测试中领先,当时其它团队根本无法完成这项任务。可是,现在科研的一个现实是走向“娱乐化”:肤浅的歌曲流行,大家都能唱,复杂高深的东西大家躲着走。
既然说到这里,我就顺便说说一些竞赛的事情。大约从2008年开始,CVPR会议的风气就被人“带到沟里”了,组织各种数据集竞赛,不谈理解了,就是数字挂帅。中国很多学生和团队就开始参与,俗称“刷榜”。我那个时候跟那些组织数据集的人说(其实我自己2005年是最早在湖北莲花山做大型数据标注的,但我一早就看到这个问题,不鼓励刷榜),你们这些比赛前几名肯定是中国学生或者公司。现在果然应验了,大部分榜上前几名都是中国人名字或单位了。咱们刷榜比打乒乓球还厉害,刷榜变成咱们AI研究的“国球”。所谓刷榜,一般是下载了人家的代码,改进、调整、搭建更大模块,这样速度快。我曾经访问一家技术很牛的中国公司(不是搞视觉的),那个公司的研发主管非常骄傲,说他们刷榜总是赢,美国一流大学都不在话下。我听得不耐烦了,我说人家就是两个学生在那里弄,你们这么大个团队在这里刷,你代码里面基本没有算法是你自己的。如果人家之前不公布代码,你们根本没法玩。很多公司就拿这种刷榜的结果宣传自己超过了世界一流水平。
五、任务驱动的因果推理与学习。前面我谈了场景的理解的例子,下面我谈一下物体的识别和理解,以及为什么我们不需要大数据的学习模式,而是靠举一反三的能力。
我们人是非常功利的社会动物,就是说做什么事情都是被任务所驱动的。这一点,2000年前的司马迁就已经远在西方功利哲学之前看到了( 《史记》 “货殖列传):
天下熙熙,皆为利来;天下攘攘,皆为利往。
那么,人也就带着功利的目的来看待这个世界,这叫做“teleological stance”。这个物体是用来干什么的?它对我有什么用?怎么用?
当然,有没有用是相对于我们手头的任务来决定的。很多东西,当你用不上的时候,往往视而不见;一旦要急用,你就会当个宝。俗话叫做“势利眼”,没办法,这是人性!你今天干什么、明天干什么,每时每刻都有任务。俗话又叫做“屁股决定脑袋”,一个官员坐在不同位置,他就有不同的任务与思路,位置一调,马上就“物是人非”了。
我们的知识是根据我们的任务来组织的。那么什么叫做任务呢?如何表达成数学描述呢?
每个任务其实是在改变场景中的某些物体的状态。牛顿发明了一个词,在这里被借用了:叫做fluent。这个词还没被翻译到中文,就是一种可以改变的状态,我暂且翻译为流态”吧。比如,把水烧开,水温就是一个流态;番茄酱与瓶子的空间位置关系是一个流态,可以被挤出来;还有一些流态是人的生物状态,比如饿、累、喜悦、悲痛;或者社会关系:从一般人,到朋友、再到密友等。人类和动物忙忙碌碌,都是在改变各种流态,以提高我们的价值函数(利益)。
懂得这一点,我们再来谈理解图像中的三维场景和人的动作。其实,这就是因果关系的推理。所谓因果就是:人的动作导致了某种流态的改变。理解图像其实与侦探(福尔摩斯)破案一样,他需要的数据往往就是很小的蛛丝马迹,但是,他能看到这些蛛丝马迹,而普通没有受侦探训练的人就看不见。那么,如何才能看到这些蛛丝马迹呢?其一、你需要大量的知识,这个知识来源于图像之外,是你想象的过程中用到的,比如一个头发怎么掉在这里的?还有就是行为的动机目的,犯案人员到底想改变什么“流态”?
我把这些图像之外的东西统称为“暗物质”--- Dark Matter。物理学家认为我们可观察的物质和能量只是占宇宙总体的5%,剩下的95%是观察不到的暗物质和暗能量。视觉与此十分相似:感知的图像往往只占5%,提供一些蛛丝马迹;而后面的95%,包括功能、物理、因果、动机等等是要靠人的想象和推理过程来完成的
有了这个认识,我们来看一个例子(见下图左)。这个例子来自我们CVPR2015年发的paper,主要作者是朱毅鑫,这也是我很喜欢的一个工作。一个人要完成的任务是砸核桃,改变桌子上那个核桃的流态。把这个任务交给UCLA一个学生,他从桌面上的工具里面选择了一个锤子,整个过程没有任何过人之处,因为你也会这么做。
不过你细想一下,这个问题还相当复杂。这个动作就包含了很多信息:他为什么选这个锤子而不选别的东西,他为什么拿着锤这个柄靠后的位置?他挥动的力度用多少,这都是经过计算的。这还有几千几万的可能其他各种选择、解法,他没有选择,说明他这个选法比其它的选择肯定会好,好在哪呢?看似简单的问题,往往很关键,一般人往往忽略了。
你通过这一琢磨、一对比就领悟到这个任务是什么,有什么窍门。以前学徒就是跟着师傅学,师傅经常在做任务,徒弟就看着,师傅也不教,徒弟就靠自己领悟。有时候师傅还要留一手,不然你早早出师了,抢他的饭碗。有时候师傅挡着不让你看;莫言的小说就有这样的情节。人就是在观察的时候,把这个任务学会了。
现在到一个新的场景(图右),原来学习的那些工具都不存在了,完全是新的场景和物体,任务保持不变。你再来砸这个核桃试试看,怎么办?人当然没有问题,选这个木头做的桌子腿,然后砸的动作也不一样。这才是举一反三,这才是智能,这没有什么其他数据,没有大量数据训练,这不是深度学习方法。
那这个算法怎么做的呢?我们把对这个物理空间、动作、因果的理解还是表达成为一个Spatial,Temporal and Causal Parse Graph(STC-PG)。这个STC-PG包含了你对空间的理解(物体、三维形状、材质等)、时间上动作的规划、因果的推理。最好是这样子砸,它物理因果能够实现,可能会被砸开,再连在一块来求解,求时间、空间和因果的这么一个解析图,就是一个解。也就是,最后你达到目的,改变了某种物理的流态。
我再强调几点:
一、这个STC-PG的表达是你想象出来的。这个理解的过程是在你动手之前就想好了的,它里面的节点和边大多数在图像中是没有的,也就是我称作的“暗物质”。
二、这个计算的过程中,大量的运算属于“top-down”自顶向下的计算过程。也就是用你脑皮层里面学习到的大量的知识来解释你看到的“蛛丝马迹”,形成一个合理的解。而这种Top-down的计算过程在目前的深度多层神经网络中是没有的。神经网络只有feedforward 向上逐层传播信息。你可能要说了,那不是有Back-propagation吗?那不是top-down。一年前,LeCun来UCLA做讲座,他看到我在座,就说DNN目前缺乏朱教授一直提倡的Top-Down计算进程。
三、学习这个任务只需要极少的几个例子。如果一个人要太多的例子,说明Ta脑袋“不开窍”,智商不够。顺便说一句,我在UCLA讲课,期末学生会给老师评估教学质量。一个常见的学生意见就是朱教授给的例子太少了。对不起,我没时间给你上课讲那么多例子,靠做题、题海训练,那不是真本事,也不是学习的本质。子曰:“学而不思则罔,思而不学则殆”。这里的“思”应该是推理,对于自然界或者社会的现象、行为和任务,形成一个符合规律的自洽的解释,在我看来就是一个STC-PG。
那么STC-PG是如何推导出来的呢?它的母板是一个STC-AOG,AOG就是And-Or Graph与或图。这个与或图是一个复杂的概率语法图模型,它可以导出巨量的合乎规则的概率事件,每一个事件就是STC-PG。这个表达与语言、认知、机器人等领域是一致的。在我看来,这个STC-AOG是一个统一表达,它与逻辑以及DNN可以打通关节。这里就不多讲了。
接着砸核桃的例子讲,还是朱毅鑫那篇文章的实验,这个实验很难做。比如现在的一个任务是“铲土”,我给你一个例子什么叫铲土,然后开始测试这个智能算法(机器人)的泛化能力。见下图。
第一组实验(图左)。我给你一些工具,让你铲土,机器人第一选择挑了这个铲子,这个不是模式识别,它同时输出用这个铲子的动作、速度;输出铲子柄的绿色地方表示它要手握的地方,这个红的表示它用来铲土的位置。第二选择是一把刷子。
第二组实验(图中)。假如我要把这些工具拿走,你现在用一些家里常见的物体,任务还是铲土。它的第一选择是锅,第二选择是杯子。二者的确都是最佳选择。这是计算机视觉做出来的,自动的。
第三组实验(图右)。假如我们回到石器时代,一堆石头能干什么事情?所以我经常说,咱们石器时代的祖先,比现在的小孩聪明。因为他们能够理解这个世界的本质,现在,工具和物体越来越特定了,一个工具做一个任务,人都变成越来越傻了。视觉认知就退化成模式识别的问题了:从原来工具的理解变成一个模式识别。也就是由乌鸦变鹦鹉了。
计算机视觉小结:我简短总结一下视觉的历史。见下图。
视觉研究前面25年的主流是做几何,以形状和物体为中心的研究:Geometry-Based and Object-Centered。最近25年是从图像视角通过提取丰富的图像特征描述物体的外观来做识别、分类: Appearance-Based and View-Centered。几何当然决定表观。那么几何后面深处原因是什么呢?几何形状的设计是因为有任务,最顶层是有任务,然后考虑到功能、物理、因果,设计了这些物体再来产生图像,这是核心问题所在。我把在当前图像是看不见的“东西”叫dark matter。物理里面dark matter energy占95%,确确实实在我们智能里面dark matter也占了大部分。而你看到的东西就是现在深度学习能够解决的,比如说人脸识别、语音识别,就是很小的一部分看得见的东西;看不见的在后面,才是我们真正的智能,像那个乌鸦能做到的。
所以,我的一个理念是:计算机视觉要继续发展,必须发掘这些“dark matter”。把图像中想象的95%的暗物质与图像中可见的5%的蛛丝马迹,结合起来思考,才能到达真正的理解。现在大家都喜欢在自己工作前面加一个Deep,以为这样就算深刻了、深沉了,但其实还是非常肤浅的。不管你多深,不管你卷积神经网络多少层,它只是处理可见的图像表观特征、语音特征,没有跳出那5%,对吧?那些认为深度学习解决了计算机视觉的同学,我说服你了么?如果没有,后面还有更多的内容。
视觉研究的未来,我用一句话来说:Go Dark, Beyond Deep --- 发掘暗,超越深。
这样一来,视觉就跟认知和语言接轨了。
第六节 认知推理:走进内心世界
上一节讲到的智能的暗物质,已经属于感知与认知的结合了。再往里面走一步,就进入人与动物的内心世界Mind, 内心世界反映外部世界,同时受到动机任务的影响和扭曲。研究内涵包括:
·
Ta看到什么了?知道什么了?什么时候知道的?这其实是对视觉的历史时间求积分。
·
·
Ta现在在关注什么?这是当前的正在执行的任务。
·
·
Ta的意图是什么?后面想干什么?预判未来的目的和动机。
·
·
Ta喜欢什么?有什么价值函数?这在第九节会谈到具体例子。
·
自从人工智能一开始,研究者就提出这些问题,代表人物是Minsky:society of minds,心理学研究叫做Theory of minds。到2006年的时候,MIT认知科学系的Saxe与Kanwisher(她是我一个项目合作者)发现人的大脑皮层有一个专门的区,用于感受、推理到别人的想法:我知道你在想什么、干什么。这是人工智能的重要部分。
说个通俗的例子,你可能听到过这样的社会新闻:某男能够同时与几个女朋友维持关系,而且不被对方发现,就是他那几个女朋友互相不知情。这其实很难做到,因为你一不小心就要暴露了。他需要记住跟谁说过什么谎话、做过或者答应过什么事。这种人的这个脑皮层区一定是特别发达,而他的那些女朋友的这个区可能不那么发达。电影中的间谍需要特别训练这方面的“反侦察”能力,就是你尽量不让对方发现你的内心。这是极端状况。现实生活中,一般非隐私性的活动中,我们是不设防的,也就是“君子坦荡荡”。
不光是人有这个侦察与反侦察的能力,动物也有(见上图)。比如说这个鸟(图左),它藏果子的时候,会查看周围是否有其它鸟或者动物在那里看到它;如果有,它就不藏,它非要找到没人看它的时候和地方藏。这就是它在观察你,知道你知道什么。图中是一个狐狸和水獭对峙的视频。水獭抓到鱼了以后,发现这个狐狸在岸上盯着它呢,它知道这个狐狸想抢它嘴里叼着的鱼。水獭就想办法把鱼藏起来,它把这个鱼藏到水底下,然后这个狐狸去找。这说明了动物之间互相知道对方在想什么。
小孩从一岁多的时候开始就有了这个意识。一个关键反应证据是:他会指东西给你看,你看到了、还是没看到的,他会知道。Felix Warneken现在在哈佛大学当心理学系的助理教授。他当博士生的时候做过一系列心理实验。一般一岁多的小孩能知道给你开门,小孩很乐意、主动去帮忙。小孩很早就知道跟人进行配合,这就是人机交互。你把这个小孩看成一个机器人的话,你要设计一个机器人,就是希望它知道看你想干什么,这是人工智能的一个核心表现。
尽管人工智能和认知科学,以及最近机器人领域的人都对这个问题感兴趣,但是,大家以前还都是嘴上、纸上谈兵,用的是一些toy examples作为例子来分析。要做真实世界的研究,就需要从计算机视觉入手。计算机视觉里面的人呢,又大部分都在忙着刷榜,一时半会还没意思到这是个问题。我的实验室就捷足先登,做了一些初步的探索,目前还在积极推进之中。
我们首先做一个简单的试验,如上图。这个人在厨房里,当前正在用微波炉。有一个摄像头在看着他,就跟监控一样,也可以是机器人的眼睛(图左)。首先能够看到他目前在看什么(图中),然后,转换视角,推算他目前看到了什么(图右)。
上面这个图是实验的视频的截图。假设机器人事先已经熟悉某个三维房间(图e),它在观察一个人在房间里面做事(图a)。为了方便理解,咱们就想象这是一个养老院或者医院病房,机器人需要知道这个人现在在干什么,看什么(图c)。它的输入仅仅是一个二维的视频(图a)。它开始跟踪这个人的运动轨迹和眼睛注视的地方,显示在图e的那些轨迹和图f的行为分类。然后,图d(右上角)是它估算出来的,这个人应该在看什么的图片。也就是,它把它附体到这个人身上,来感知。这个结果与图b对比,非常吻合。图b是这个人带一个眼镜,眼镜有一个小摄像头记录下来的,他确实在看的东西。这个实验结果是魏平博士提供的,他是西交大前校长郑南宁老师那里的一个青年教师,博士期间在我实验室访问,后来又回来进修。
这里面需要推测动作与物体的时空交互,动作随时间的转换,手眼协调。然后,进一步猜他下面干什么,意图等等。这个细节我不多讲了。
对这个人内心的状态,也可以用一个STC-AOG 和STC-PG 来表达的,见下图,大致包含四部分。
一、时空因果的概率“与或图”,STC-AOG。它是这个人的一个总的知识,包含了所有的可能性,我待会儿会进一步阐述这个问题。 剩下的是他对当前时空的一个表达,是一个STC-PG解译图。此解译图包含三部分,图中表达为三个三角形,每个三角形也是一个STC-PG 解译图。
二、当前的情景situation,由上图的蓝色三角形表示。当前的情况是什么,这也是一个解,表示视觉在0-t时间段之间对这个场景的理解的一个解译图。
三、意向与动作规划图,由上图的绿色三角形表示。这也是一个层次化的解译图,预判他下面还会做什么事情,
四、当前的注意力,由上图的红色三角形表示。描述他正在关注什么。
把这整个解译图放在一块,基本上代表着我们脑袋的过去、现在、未来的短暂时间内的状态。用一个统一的STC-PG 和 STC-AOG来解释。 这是一个层次的分解。 因为是Composition, 它需要的样本就很少。
有人要说了,我的深度神经网络也有层次,还一百多层呢。我要说的是,你那一百多层其实就只有一层,对不对?因为你从特征做这个识别,中间的东西是什么你不知道,他不能去解释中间那些过程,只有最后一层输出物体类别。
上面说的这个表达,是机器人对某个人内心状态的一个估计,这个估计有一个后验概率,这个估计不是唯一的,存在不确定性。而且,它肯定不是真相。不同的人观察某个人,可能估计都不一样。那么在一个机器与人共生共存的环境中,假设这个场景里有N个机器人或者人,这里面有很多N个“自我”minds。然后,每个人有对别人有一个估计,这就有N x(N-1)个minds表达。我知道你在想什么,你知道我在想什么,这至少是平方级的。你有一百个朋友的话,哪个朋友他脑袋里想什么你心里都有数。关系越近,理解也就越深,越准确。
当然,我们这里只是做一阶推理,在复杂、对抗的环境中,人们不得不用多阶的表达。当年司马懿和诸葛亮在祁山对峙时,诸葛亮比司马懿总是要多算一阶。所谓兵不厌诈,就是有时候我故意把一个错误信息传给你,《三国演义》中很多此类的精彩故事,比如周瑜打黄盖、蒋干盗书。
我用下面这个图来大致总结一下。两个人A与B或者一个人一个机器人,他们脑袋里面的表达模式。图中是一个嵌套的递归结构,每一个椭圆代表一个大脑的内心mind。
每个mind除了上面谈到的知识STC-AOG 和状态STC-PG,还包含了价值函数,就是价值观,和决策函数。价值观驱动动作,然后根据感知、行动去改变世界,这样因果就出来了。我后面再细谈这个问题。
最底下中间的那个椭圆代表真实世界(“上帝”的mind,真相只有TA知道,我们都不知道),上面中间的那个椭圆是共识。多个人的话就是社会共识。在感知基础上,大家形成一个统一的东西,共同理解,我们达成共识。比如,大家一起吃饭,菜上来了,大家都看到这个菜是什么菜,如果没有共识那没法弄。比如,“指鹿为马”或者“皇帝的新装”,就是在这些minds之间出现了不一致的东西。这是所谓“认识论”里面的问题。以前,在大学学习认识论,老师讲得比较空泛,很难理解;现在你把表达写出来,一切都清楚了。这也是人工智能必须解决的问题。
我们要达成共识,共同的知识,然后在一个小的团体、大致社会达成共同的价值观。当有了共同价值观的时候,就有社会道德和伦理规范,这都可以推导出来了。俗话说,入乡随俗。当你加入一个新的团体或者社交群体,你可能先观察看看大家都是怎么做事说话的。机器人要与人共生共存 必须理解人的团体的社会道德和伦理规范。所以说,这个认识论是机器人发展的必经之道。乌鸦知道人类在干什么,它才能够利用这个在社会里生存。
那么如何达成共识呢?语言就是必要的形成共识的工具了。
第七节 语言通讯:沟通的认知基础
我要介绍的人工智能的第三个领域是语言、对话。最近我两次在视觉与语言结合的研讨会上做了报告,从我自己观察的角度来谈,视觉与语言是密不可分的。
人类的语言中枢是独特的,有趣的是它在运动规划区的附近。我们为什么要对话呢?语言的起源就是要把一个人脑袋(mind)的一个信息表达传给你一个人,这就包括上一节讲的知识、注意、意向计划,归纳为图中那三个三角形的表达。希望通过对话形成共识,形成共同的任务规划,就是我们一致行动。所以,语言产生的基础是人要寻求合作
动物之间就已经有丰富的交流的方式,很多借助于肢体语言。人的对话不一定用语言,手语、哑剧(pantomine)同样可以传递很多信息。所以,在语言产生之前,人类就已经有了十分丰富的认知基础,也就是上一节谈的那些表达。没有这样的认知基础,语言是空洞的符号,对话也不可能发生
发育心理学实验表明,12个月的小孩就可以知道去指东西,更小年龄就不会,但是很多动物永远达不到这个水平。举个例子,有人做了个实验。一群大猩猩坐在动物园里,一个猩猩妈妈带一个小猩猩,玩着玩着小猩猩跑不见了,然后这个妈妈去找。周围一大堆闲着的猩猩坐在那里晒太阳,它们明明知道那个小猩猩去哪了。如果是人的话,我们就会热心地指那个小孩的方向,人天生是合作的,去帮助别人的,助人为乐,所以这是为什么我们人进化出来了。猩猩不会,猩猩不指,它们没有这个动机,它们脑袋与人相比一定是缺了一块。人和动物相比,我们之所以能够比他们更高级,因为脑袋里有很多通信的认知构架(就像多层网络通讯协议)在大脑皮层里面,没有这些认知构架就没法通信。研究语言的人不去研究底下的认知构架,那是不会有很大出息的。下面这个图来源于人类学的研究的一个领军人物 Michael Tomasello。
除了需要这个认知基础,语言的研究不能脱离了视觉对外部世界的感知、机器人运动的因果推理,否则语言就是无源之水、无本之木。这也就是为什么当前一些聊天机器人都在“扯白”。
我们先来看一个最基本的的过程:信息的一次发送。当某甲(sender)要发送一条消息给某乙(receiver),这是一个简单的通讯communication。这个通讯的数学模型是当年贝尔实验室香农Shannon1948年提出来的信息论。首先把它编码,因为这样送起来比较短,比较快;针对噪声通道,加些冗余码防错;然后解码,某乙就拿到了这个信息。见下图。
在这个通讯过程之中他有两个基本的假设。第一、这两边共享一个码本,否则你没法解码,这是一个基本假设。第二、就是我们有个共享的外部世界的知识在里面,我们都知道世界上正在发生什么什么事件,比如哪个股票明天要涨了,哪个地方要发生什么战争了等等。我给你传过去的这个信息其实是一个解译图的片段PG:parse graph)。这个解译图的片段对于我们物理世界的一个状态或者可能发生的状态的描述。这个状态也有可能就是我脑袋Mind里面的一个想法、感觉、流态(fluents)。比如,很多女人拿起电话,叫做“煲粥”,就在交流内心的一些经历和感受。
如果没有这个共同的外部世界,那我根本就不知道你在说什么。比如外国人聚在一起讲一个笑话,我们可能听不懂。我们中国人说“林黛玉”,那是非常丰富的一个文化符号,我们都明白谁是林黛玉,她的身世、情感、性格和价值观,就轮到外国人听不懂了。
Shannon的通讯理论只关心码本的建立(比如视频编解码)和通讯带宽(3G,4G,5G)。1948年提出信息论后,尽管有很多聪明人、数学根底很强的人进到这个领域,这个领域一直没有什么大的突破。为什么?因为他们忽视了几个更重大的认识论的问题,避而不谈:
·
甲应该要想一下:乙脑袋里面是否与甲有一个共同的世界模型?否则,解码之后,乙也不能领会里面的内容?或者会误解。那么我发这个信息的时候,措辞要尽量减少这样的误解。   
·
·
甲还应该要想一下:为什么要发这个信息?乙是不是已经知道了,乙关不关注这个信息呢?乙爱不爱听呢?听后有什么反应?这一句话说出去有什么后果呢?
·
·
乙要想一下:我为什么要收这个信息呢?你发给我是什么意图?
·
这是在认知层面的,递归循环的认知,在编码之外。所以,通讯理论就只管发送,就像以前电报大楼的发报员,收钱发报,他们不管你发报的动机、内容和后果。
纵观人类语言,中国的象形文字实在了不起。所谓象形文字就完全是“明码通讯”。每个字就是外部世界的一个图片、你一看就明白了,不需要编解码。我觉得研究自然语言的人和研究视觉统计建模的人,都要好好看看中国的甲骨文,然后,所有的事情都清楚了。每个甲骨文字就是一张图,图是什么?代表的就是一个解译图的片段(fragment of parse graph)。
上面这个图是一个汉字的演变和关系图,从一本书叫做《汉字树》得来的。几年前,我到台湾访问,发现这本丛书,很有意思。这个图是从眼睛开始的一系列文字。
首先从具象的东西开始,这中间是一个眼睛,“目”字,把手搭在眼睛上面,孙悟空经常有这个动作,就是“看”(look)。
然后是会意,比如“省”,就是细看,明察秋毫,画一个很小的叶子在眼睛上面,指示说你看叶子里面的东西,表示你要细看。
然后开始表达抽象的概念,属性attribute、时空怎么表达,就是我们甲骨文里面,表示出发、终止,表示人的关系,人的脑袋状态,甚至表现伦理道德。就这样,一直推演开。
所以,搞视觉认知的,要理解物体功能就要追溯到石器时代去,搞语言的要追溯到语言起源。
下图是另一个例子:日、月、山、水、木;鸟、鸡、鱼、象、羊。下面彩色的图是我们实验室现在用计算机视觉技术从图像中得到的一些物体的表达图模型,其实就重新发明一些更具像的甲骨文。这项技术是由YiHong,司长长等博士做的无监督学习。他们的算法发现了代表鸟的有头、身子和脚、水波和水草等“类甲骨文”名词符号。这种视觉的表达模型是可解释explainable、直观的。
所以,从生成式模型的角度来看,语言就是视觉,视觉就是语言
再来看看动词。考考你们,这是啥意思?第一个字,两只手,一根绳子,在拖地上一个东西,拿根绳子拽。第二个很简单,洗手。第三是关门。第四是援助的援字,一只手把另外一个人的手往上拉。第五也是两个手,一个手朝下一个手朝上,啥意思?我给你东西,你接受。第六是争夺的争,两个手往相反的方向抢。第七两个人在聊天。基本上,字已经表示了人和人之间的动作细节。
现在我的实验室里,计算机也能自动学出“类甲骨文”的动词的表达,见下图。我们学出来的这些两个人交互的动作包括:坐、玩手机、握手、人拉人等等。我们把这些动作模型分别叫做4DHOI (4D Human-Object Interaction)、4Dhoi(4D hand-object interaction)、4DHHI (4D Human-Human Interaction)。
我刚才说了名词和动词,还有很多其他的东西,我建议你们去研究一下,要建模型的话我们古代的甲骨文其实就是一个模型,他能够把我们世界上所有需要表达的东西都给你表达了,是一个完备了的语言模型。
我再举个复杂和抽象的例子,咱们古代人怎么定义伦理道德,非常的漂亮!
引言中谈到,大家担心机器人进入社会以后,是不是会危害人类生存,所以引发了很多讨论。有一次我参加一个DARPA内部会议,会议邀请了各界教授们讨论这个问题,他们来自社会伦理学、认知科学、人工智能等学科。大家莫衷一是。轮到我做报告,我就说,其实这个问题,中国古代人的智慧就已经想清楚了。
伦理道德的“德”字怎么定义的?什么叫道德?
道德规范是什么,它是个相对的定义,随着时间和人群而变化。我刚来美国的时候,美国社会不许堕胎、不许同性恋,现在都可以了。中国以前妇女都不许改嫁。甚至到几十年前,我在家乡都听说这样的规矩:如果一个妇女在路上,她的影子投到一个长老身上,那是大不敬,所以走路必须绕开,这就是一种社会规范。
中文这个“德”字你看左边是双人旁,双人旁其实不是两个人,双人旁在甲骨文画的是十字路口(见最右边那个图),十字路口就是说你是要做个选择,是个决策。你怎么选择?比如说一个老人倒在地上,你是扶他还是不扶他?这就是一个选择。贪不贪污、受不受贿这都是内心的一个选择。这个选择是你心里面做出的,所以下面有个心字。
那怎么判断你内心的选择符不符合道德呢?社会不可能把大量规则逐条列出来,一个汉字也没法表达那么多的内容吧。“德”字上面是一个十字,十字下面一个四,其实不是四,而是眼睛,十个眼睛看着你。就是由群众来评判的。这就相当于西方的陪审团,陪审团都是普通民众中挑选出来的(那是更进一层的法律规范了)。他们如果觉得你做的事情能够接受就是道德,如果不接受那就是不道德。所以,你在做选择的时候,必须考虑周围人的看法,人家脑袋里会怎么想,才决定这个东西做不做。
所以,如果没有上一节讲的认知基础,也就是你如果不能推断别人的思想,那就无法知道道德伦理。研究机器人的一个很重要的一个问题是:机器要去做的事情它不知道该不该做。那么它首先想一下(就相当于棋盘推演simulation):我如何做这个事情,人会有什么反应,如果反应好就做,如果反应不好就不做,就这么一个规则。以不变应万变。
那它怎么知道你怎么想的呢?它必须先了解你,你喜欢什么、厌恶什么。每个人都不一样,你在不同的群体里面,哪些话该说,哪些话不该说,大家心里都知道,这才是交互,你没有这方面知识你怎么交互呢?
所以我还是觉得我们古代的人很有智慧,比我们现在的人想的深刻的多,一个字就把一个问题说得很精辟。咱们现在大部分人不想问题,因为你不需要想问题了,大量媒体、广告到处都是,时时刻刻吸引你的眼球,你光看都看不过来,还想个什么呢!只要娱乐就好了。
现在,我们回到语言通讯、人与机器人对话的问题。下图就是我提出的一个认知模型。
两个人之间至少要表达五个脑袋minds:我知道的东西、你知道的东西、我知道你知道的东西、你知道我知道的东西、我们共同知道的东西。还有,对话的时候你的意图是什么等等诸多问题。具体我不讲那么多了。
最后,我想谈一点,语言与视觉更深层的联系、与数学中代数拓扑的联系。拓扑学是什么意思?就是说图象空间,语言空间,就是一个大集合,全集。我们的每个概念往往是它的一个子集,比如说,所有的图象是一个集合,一百万个象素就是一百万维空间,每张图像就是这百万维空间的一个点。人脸是个概念,所有的人脸就是在这一百万维空间的一个子集,但是这个子集和其它个子集要发生关系,这个关系叫拓扑关系。计算机的人把它叫做语法,对应于代数拓扑。比如,头和脖子在肩膀上是合规的,概率很高。这个图像空间的结构其实就是语法,这个语法就是STC-AOG,时空因果的与或图。语法可导出“语言”,语言就是一个符合语法的句子的总的集合。STC-AOG就是知识的总体表达,而我们看到的眼前每一个例子是由STC-AOG导出来的时空因果解译图STC-PG。计算机视觉用它,语言肯定用它,认知是它,机器人任务规划也是它。这就是一个统一的表达。
第八节 博弈伦理:获取、共享人类的价值观
机器人要与人交流,它必须懂得人类价值观。哲学和经济学里面有一个基本假设,认为一个理性的人rational agent),他的行为和决策都由利益和价值驱动,总在追求自己的利益最大化。与此对应的是非理性的人。对于理性的人,你通过观察他的行为和选择,就可以反向推理、学习、估算他的价值观。我们暂时排除他有可能故意假装、迷惑我们的情况。
这个价值观我们把它表达为一个利益函数Utility function,用一个符号U表示。它通常包含两部分:(1)Loss损失函数,或者Reward奖励函数;(2)Cost消费函数。就是说,你做一件事得到多少利益,花费多少成本。我们可以把这个利益函数定义在流态的(fluents)空间里面。我们每次行动,改变某些流态,从而在U定义的空间中向上走,也就是“升值”。由函数U对流态向量F求微分的话,就得到一个“场”。
复习一下高等数学,我们假设一个人在某个时期,他的价值取向不是矛盾的。比如,如果他认为A比B好,B比C好,然后C比A好,那就循环了,价值观就不自恰。这在场论中就是一个“漩涡”。一个处处“无旋”的场,就叫做一个保守场。其对于的价值观U就是一个势能函数。
所谓人往高处走、水往低处流”说的是社会和物理的两个不同现象,本质完全一致。就是人和水都在按照各自的势能函数在运动!那么驱动人的势能函数是什么呢?
人与人的价值不同,就算同一个人,价值观也在改变。本文不讨论这些社会层面的价值观,我们指的是一些最基本的、常识性的、人类共同的价值观。比如说把房间收拾干净了,这是我们的共识。
上图是我做的一个简单的实验。我把几种不同的椅子、凳子放在我办公室(左图)和实验室(右图)。然后,我统计一下学生进来以后,他喜欢坐哪个椅子,实在不行可以坐地上。这样我就可以得到这些椅子的排序。A、B、C、D、E、F、G排个序,见上面的统计图。我观察了这些人的选择,就问:为什么这个椅子比那个椅子好?是什么好?这其实就反映了人的脑袋里面一个基本的价值函数。又说一遍:很普通的日常现象,蕴含深刻的道路。苹果落地不是这样吗?大家司空见惯了,就不去问这个问题了。
为了解答问题,我的两个博士生朱毅鑫和搞物理和图形学的蒋凡夫(他刚刚去Upenn宾州大学当助理教授),用图形学的物理人体模型模拟人的各种的姿势,然后计算出这些坐姿在这些椅子上的时候,身体几大部件的受力分布图。见下图,比如背部、臀部、头部受多少力。
下图中蓝色的直方图显示了六个身体部位的受力分别图。由此我们就可以推算出每个维度的价值函数。下面图中六条红色的曲线是负的价值函数,当人的坐姿使得各部位受力处于红线较低的值,就有较高的“价值”,也就是坐得“舒服”。当然每个人可能不一样,有的人腰疼必须坐硬板凳子有的人喜欢坐软沙发。这也是为什么,如果你观察到有些异样,可以推导这个人某地方可能受伤了。
读到这里,你不禁要问:这不是与物理的势能函数,如重力场,一样吗?对,就是一个道理。这也是在最后一节我将要说的:达尔文与牛顿的理论体系要统一。
这对我们是常识,但是机器人必须计算出很多这样的常识,TA需要设身处地为人着想,这个就不容易了。
叠衣服也是我们做的另外一个例子。如果我们把这个保守的势能函数可视化为一个地形图,那么你叠一个衣服的过程,就像走一条登山的路径。这个衣服我们原来搞乱了,它对应的状态在谷底,最后叠好了就等于上到山顶了。每一步动作就有一个奖励reward。我根据你叠衣服的过程,把这山形状基本画出来,机器就知道叠衣服这个任务的本质是什么。你给它新的衣服,它也会叠了。机器人可以判断你的价值观。
最近大家谈论较多的是机器人下棋,特别是下围棋,的确刺激了国人的神经。下棋程序里面一个关键就是学习价值函数,就是每一个可能的棋局,它要有一个正确的价值判断。最近,各种游戏、和增强学习也比较火热。但这些研究都是在简单的符号空间里面玩。我实验室做的这两个例子是在真实世界,学习人的价值函数。
有了价值函数,在一个多人环境中,就有了竞争与合作,形成我们上一节谈到的社会规范、伦理道德。这些伦理、社会规范就是人群在竞争合作之中,受到外部物理环境与因果限制下,达成的暂时的准平衡态。每种平衡态不见得是一个固定的规则,要求大家做同样的规定动作,而是一种概率的“行为的语法”。规则其实就是语法。说到底,这还是一种概率的时空因果与或图STC-AOG的表达。
在社会进化过程中,由于某些边界条件的改变(如新的技术发明,像互联网、人工智能)或者是政策改变(如改革开放),打破了旧的平衡,社会急剧变化;然后,达成新的准平衡态。那么社会规范对应的是另一个时空因果与或图STC-AOG。你拿着一个准平衡态的STC-AOG模型去到另一个准平衡态生活,就出现所谓的“水土不服”现象。
谈到这里,我想顺便对比两大类学习方法。
一、归纳学习 Inductive learning。我们通过观察大量数据样本,这些样本就是对某个时期、某个地域、某个人群达成的准平衡态的观察。也是我前面谈过的千年文化的形成与传承。归纳学习的结果就是一个时空因果的概率模型,我把它表达为STC-AOG。每个时空的动作是一个STC-PG,解译图。
二、演绎学习 Deductive learning。这个东西文献中很少,也就是从价值函数(还有物理因果)出发,直接推导出这些准平衡态,在我看来,这也是一个STC-AOG。这就要求对研究的对象有深刻的、生成式的模型和理解。比如,诸葛亮到了祁山,先查看地形,知道自己的队伍、粮草情况,摸清楚对手司马懿的情况(包括性格)。然后,他脑袋里面推演,就知道怎么布局了。
人的学习往往是两者的结合。年轻的时候,归纳学习用得多一些,演绎学习往往是一种不成熟冲动,交点学费,但也可能发现了新天地。到了“五十而不惑”的时候,价值观成型了,价值观覆盖的空间也基本齐全了,那么基本上就用演绎学习。
AlphaGo先是通过归纳学习,学习人类大量棋局;然后,最近它就完全是演绎学习了。AlphaGo的棋局空间与人类生存的空间复杂度还是没法比的。而且,它不用考虑因果关系,一步棋下下去,那是确定的。人的每个动作的结果都有很多不确定因素,所以要困难得多。
第九节 机器人学:构建大任务平台
我在第四节谈到人工智能研究的认知构架,应该是小数据、大任务范式。机器人就是这么一个大任务的科研平台。它不仅要调度视觉识别、语言交流、认知推理等任务,还要执行大量的行动去改变环境。我就不介绍机械控制这些问题了,就用市面上提供的通用机器人平台。
前面介绍过,人和机器人要执行任务,把任务分解成一连串的动作,而每个动作都是要改变环境中的流态。
我把流态分作两大类:
1)物理流态 (Physical Fluents):如下图左边,刷漆、烧开水、拖地板、切菜。
2)社会流态 (Social Fluents): 如下图右边,吃、喝、 追逐、搀扶,是改变自己内部生物状态、或者是与别人的关系。
当机器人重建了三维场景后(在谈视觉的时候提到了,这其实是一个与任务、功能推理的迭代生成的过程),它就带着功利和任务的眼光来看这个场景。如下图所示,哪个地方可以站,哪个地方可以坐,哪个地方可以倒水等等。下面图中亮的地方表示可以执行某个动作。这些图在机器人规划中又叫做Affordance Map。意思是:这个场景可以给你提供什么?
有了这些单个基本任务的地图,机器人就可以做任务的规划。这个规划本身就是一个层次化的表达。文献中有多种方法,我还是把它统一称作一种STC-PG。这个过程,其实相当复杂,因为它一边做,一边还要不断看和更新场景的模型。因为我前面介绍过,对环境三维形状的计算精度是根据任务需要来决定的,也就是Task-Centered视觉表达。
这个动作计划的过程还要考虑因果、考虑到场景中别人的反应。考虑的东西越多,它就越成熟,做事就得体、不莽莽撞撞。
我一开始讲到的那个机器人竞赛,这些感知和规划的任务其实都交给了一群在后台遥控的人。
下面,我就简单介绍几个我实验室得到的初步演示结果,后台没有遥控的人。我实验室用的是一个通用的Baxter机器人,配上一个万向移动的底座和两个抓手(grippers),还有一些传感器、摄像头等。两个抓手是不同的,左手力道大,右手灵活。很有意思的是,如果你观察过龙虾等动物,它的两个钳子也是不同的,一个用来夹碎、一个是锯齿状的。
下图是一个博士生舒天民教会了机器人几种社交动作,比如握手。握手看似平常,其实非常微妙。但你走过去跟一个人握手的过程中,你其实需要多次判断对方的意图;否则,会出现尴尬局面。舒的论文在美国这边媒体都报道过。
下面这个组图是机器人完成一个综合的任务。首先它听到有人去敲门,推断有人要进来,它就去开门。其次,它看到这个人手上拿个蛋糕盒子,双手被占了,所以需要帮助。通过对话,它知道对方要把蛋糕放到冰箱里面,所以它就去帮人开冰箱的门(上右图)。这个人坐下来后,他有一个动作是抓可乐罐,摇了摇,放下来。它必须推断这个人要喝水,而可乐罐是空的(不可见的流态)。假设它知道有可乐在冰箱,它后面就开冰箱门拿可乐,然后递给人。
当然,这个是受限环境,要能够把样的功能做成任意一个场景的话,那就基本能接近我们前面提到的可敬的乌鸦了。我们还在努力中!
第十节 机器学习:学习的极限和“停机问题”
前面谈的五个领域,属于各个层面上的“问题领域”,叫Domains。我们努力把这些问题放在一个框架中来思考,寻求一个统一的表达与算法。而最后要介绍的机器学习,是研究解决“方法领域”(Methods),研究如何去拟合、获取上面的那些知识。打个比方,那五个领域就像是五种钉子,机器学习是研究锤子,希望去把那些钉子锤进去。深度学习就像一把比较好用的锤子。当然,五大领域里面的人也发明了很多锤子。只不过最近这几年深度学习这把锤子比较流行。
网上关于机器学习的讨论很多,我这里就提出一个基本问题,与大家探讨:学习的极限与“停机问题”。
大家都知道,计算机科学里面有一个著名的图灵停机Halting问题,就是判断图灵机在计算过程中是否会停下了。我提出一个学习的停机问题:学习应该是一个连续交流与通讯的过程,这个交流过程是基于我们的认知构架的。那么,在什么条件下,学习过程会终止呢?当学习过程终止了,系统也就达到了极限。比如,有的人早早就决定不学习了。
首先,到底什么是学习?
当前大家做的机器学习,其实是一个很狭义的定义,不代表整个的学习过程。见下图。 它就包含三步:
1)你定义一个损失函数loss function 记作u,代表一个小任务,比如人脸识别,对了就奖励1,错了就是-1。
2)你选择一个模型,比如一个10-层的神经网络,它带有几亿个参数theta,需要通过数据来拟合。
3)你拿到大量数据,这里假设有人给你准备了标注的数据,然后就开始拟合参数了。
这个过程没有因果,没有机器人行动,是纯粹的、被动的统计学习。目前那些做视觉识别和语音识别都是这一类。
其实真正的学习是一个交互的过程。 就像孔子与学生的对话,我们教学生也是这样一个过程。 学生可以问老师,老师问学生,共同思考,是一种平等交流,而不是通过大量题海、填鸭式的训练。坦白说,我虽然是教授,现在就常常从我的博士生那里学到新知识。
这个学习过程是建立在认知构架之上的(第六节讲过的构架)。我把这种广义的学习称作通讯学习Communicative Learning,见下图。
这个图里面是两个人A与B的交流,一个是老师,一个是学生,完全是对等的结构,体现了教与学是一个平等的互动过程。每个椭圆代表一个脑袋mind,它包含了三大块:知识theta、决策函数pi、价值函数mu。最底下的那个椭圆代表物理世界,也就是“上帝”脑袋里面知道的东西。上面中间的那个椭圆代表双方达成的共识。
这个通讯学习的构架里面,就包含了大量的学习模式,包括以下七种学习模式(每种学习模式其实对应与图中的某个或者几个箭头),这里面还有很多模式可以开发出来。
1)被动统计学习passive statistical learning:上面刚刚谈到的、当前最流行的学习模式,用大数据拟合模型。
2)主动学习active learning:学生可以问老师主动要数据,这个在机器学习里面也流行过。
3)算法教学algorithmic teaching:老师主动跟踪学生的进展和能力,然后,设计例子来帮你学。这是成本比较高的、理想的优秀教师的教学方式。
(4) 演示学习learning from demonstration:这是机器人学科里面常用的,就是手把手叫机器人做动作。一个变种是模仿学习immitation learning。
5)感知因果学习perceptual causality:这是我发明的一种,就是通过观察别人行为的因果,而不需要去做实验验证,学习出来的因果模型,这在人类认知中十分普遍。
6)因果学习causal learning:通过动手实验, 控制其它变量, 而得到更可靠的因果模型, 科学实验往往属于这一类。
7)增强学习reinforcement learning:就是去学习决策函数与价值函数的一种方法。
我在第一节谈到过,深度学习只是这个广义学习构架里面很小的一部分,而学习又是人工智能里面一个领域。所以,把深度学习等同于人工智能,真的是坐井观天、以管窥豹。
其次,学习的极限是什么?停机条件是什么?
对于被动的统计学习,文献中有很多关于样本数量或者错误率的上限。这里我所说的学习的极限就远远超越了那些定义。我是指这个广义的学习过程能否收敛?收敛到哪?学习的停机问题,就是这个学习过程怎么终止的问题。就这些问题,我和吴英年正在写一个综述文章。
我们学习、谈话的过程,其实就是某种信息在这些椭圆之间流动的过程。那么影响这个流动的因素就很多,我列举几条如下。
1)教与学的动机:老师要去交学生一个知识、决策、价值,首先他必须确认自己知道、而学生不知道这个事。同理,学生去问老师,他也必须意识到自己不知道,而这个老师知道。那么,一个关键是,双方对自己和对方有一个准确的估计。
2)教与学的方法:如果老师准确知道学生的进度,就可以准确地提供新知识,而非重复。这在algorithmic learning 和 perceptual causality里面很明显。
3)智商问题:如何去测量一个机器的智商?很多动物,有些概念你怎么教都教不会。
4)价值函数:如果你对某些知识不感兴趣,那肯定不想学。价值观相左的人,那根本都无法交流,更别谈相互倾听、学习了。比如微信群里面有的人就待不了,退群了,因为他跟你不一样,收敛不到一起去,最后同一个群的人收敛到一起去了,互相增强。这在某种程度上造成了社会的分裂。
这个学习条件的设定条件不同,人们学习肯定不会收敛到同一个地方。中国14亿人,有14亿个不同的脑模型,这14亿人中间,局部又有一些共识,也就是共享的模型。
我说的停机问题,就是这个动态过程中所达成的各种平衡态
第十一节  总结:智能科学 --- 牛顿与达尔文理论体系的统一
到此,我摘要介绍了人工智能这六大领域的一些前沿问题,希望帮助大家看到一个大致的轮廓与脉络,在我眼中,它们在一个共同的认知构架下正在走向统一。其中有很多激动人心的前沿课题,等待年轻人去探索。
那么人工智能这六大领域、或者叫“战国六雄”,如何从当前闹哄哄的工程实践,成为一门成熟的科学体系呢?从人工智能Artificial Intelligence变成 智能科学Science of Intelligence,或者叫 Intelligence Science,这个统一的科学体系应该是什么?
什么叫科学?物理学是迄今为止发展最为完善的一门科学,我们可以借鉴物理学发展的历史。我自己特别喜欢物理学,1986年报考中科大的时候,我填写的志愿就是近代物理(4系)。填完志愿以后,我就回乡下去了。我哥哥当时是市里的干部,他去高中查看我的志愿,一看报的是物理,只怕将来不好找工作,他就给我改报计算机。当时我们都没见过计算机,他也没跟我商量,所以我是误打误撞进了这个新兴的专业,但心里总是念念不忘物理学之美。
等到开学,上《力学概论》的课,教材是当时常务副校长夫妇写的,我这里就不提名字了,大家都知道,这是科大那一代人心中永恒的记忆。翻开书的第一页,我就被绪论的文字震撼了。下面是一个截图,划了重点两句话,讨论如下。
1)物理学的发展就是一部追求物理世界的统一的历史。第一次大的统一就是牛顿的经典力学, 通过万有引力把天界星体运动与世俗的看似复杂的物体运动做了一个统一的解释。形成一个科学的体系,从此也坚定了大家的信念:
物理世界存在着完整的因果链条”。
物理学的责任就是寻找支配自然各种现象的统一的力。
这完全是一个信念,你相信了,就为此努力!自牛顿以来,300多年了,物理学家还在奋斗,逐步发现了一个美妙的宇宙模型。
相比于物理学,可叹的是,人工智能的研究,到目前为止,极少关注这个科学的问题。顶级的工程学院也不教这个事情,大家忙着教一些技能。解决一些小问题,日子就能过得红红火火。80年代有些知名教授公开讲智能现象那么复杂,根本不可能有统一的解释,更可能是“a bag of tricks”一麻袋的诡计。有一些“兵来将挡、水来土掩”的工程法则就行了。这当然是肤浅和短视的。
我的博士导师Mumford1980年代从纯数学转来学习、研究人工智能,他的理想是为智能构建一个数学体系(mathematics of intelligence)。以他的身份做这种转变是极其不容易的(他有很多吓人的头衔,包括菲尔兹奖、麦克阿瑟天才奖、国际数学家协会主席、美国国家科学勋章), 而我到目前还没有见过第二个这么转型的大家。 1991年我读完大学,申请研究生院的个人陈述(Statement of Purpose)中就懵懵懂懂地提出要探索这样一种统一框架。当时也没有互联网,我也没有听说过Mumford。记得当时科大计算机系刚刚有了第一台激光打印机,替代针式打印。我买了两包“佛子岭”香烟给管机房的师兄,让他一定要帮我把这三页纸的个人陈述好好排版、打印出来!结果,大部分学校都拒绝了我的申请,而我导师把我录取到哈佛读博士。同一年, 科大计算机系一个师弟吴英年被录取到哈佛统计学读博,我们就成了室友。他对物理和统计的理解十分深刻,过去25年我们一直在一起合作。现在回头看,人生何其幸哉!
2)物理学把生物的意志排除在研究之外,而这正好是智能科学要研究的对象。智能科学要研究的是一个物理与生物混合的复杂系统。智能作为一种现象,就表现在个体与自然、社会群体的相互作用和行为过程中。我个人相信这些行为和现象必然有统一的力、相互作用、基本元素来描述。其实这些概念对我们搞计算机视觉的人来说一点也不陌生。我们的模型与物理模型是完全相通的,当你有一个概率分布,你就有了“势能函数”,就有了各种“相互作用”, 然后就有了各种“场”与“力”。
这些问题放在以前是没有数据来做研究的,就像爱因斯坦讲的“…不过是一个大胆的奢望,一个哲学学派成问题的理想而已”。而现在可以了,我前面已经给出了一些例子: 砸核桃、坐椅子、叠衣服。我们可以从数据中推算各种相互作用的力,用于解释人的各种行为。最近,我有两个学生谢丹和舒天民就用“社会的力和场”来解释人的相互作用, 舒还拿了2017年国际认知学会的一个“计算建模奖”。 我们以后会写文章介绍这方面的工作。
智能科学的复杂之处在于:
(1)物理学面对的是一个客观的世界,当这个客观世界映射到每个人脑中, 形成一个主观与客观融合的世界,也就是每个人脑中的模型(这是统计中贝叶斯学派观点)。这个模型又被映射到别人脑袋之中。每个脑Mind里面包含了上百个他人的模型的估计。 由这些模型来驱动人的运动、行为。
(2)物理学可以把各种现象隔离出来研究,而我们一张图像就包含大量的模式, 人的一个简单动作后面包含了很复杂的心理活动,很难隔离开。况且,当前以大数据集为依据的“深度学习”学派、“刷榜派”非常流行,你要把一个小问题单独拿出来研究,那在他们复杂数据集里面是讨不到什么便宜的。文章送到他们手上,他们就“强烈拒绝”,要求你到他们数据集上跑结果。这批人缺乏科学的思维和素养。呜呼哀哉!
回到前面乌鸦的例子,我在第四节讨论到,我们研究的物理与生物系统有两个基本前提:
一、智能物种与生俱来的任务与价值链条。这是生物进化的“刚需”,动物的行为都是被各种任务驱动的,任务由价值函数决定,而后者是进化论中的phenotype landscape,通俗地说就是进化的适者生存。达尔文进化论中提出来进化这个概念,但没有给出数学描述。后来大家发现,基因突变其实就是物种在这个进化的、大时间尺度上的价值函数中的行动action。我前面那个叠衣服的价值函数地形图,就是从生物学借来的。
二、物理环境客观的现实与因果链条这就是自然尺度下的物理世界与因果链条,也就是牛顿力学的东西。
说到底,人工智能要变成智能科学,它本质上必将是达尔文与牛顿这两个理论体系的统一。
2016年我到牛津大学开项目合作会,顺便参观了伦敦的Westminster Abbey 大教堂。 让我惊讶的是:牛顿(1642-1727)与达尔文(1809-1882)两人的墓穴相距也就2-3米远。站在那个地点,我当时十分感慨。 这两个人可以说是彻底改变人类世界观的、最伟大的科学巨人,但是他们伟大的理论体系和思想的统一,还要等多久呢?
这篇长文的成稿正好是深秋,让我想起唐代诗人刘禹锡的《秋词》,很能说明科研的一种境界,与大家共赏:
“自古逢秋悲寂寥,我言秋日胜春朝。
    晴空一鹤排云上,便引诗情到碧霄。”
附录
中科院自动化研究所举办的《人工智能前沿讲习班—人机交互》报告的互动记录(修改整理版)。
时间:2017年9月24日上午
主持人: 王蕴红教授介绍辞(多谢溢美之词,在此省略)。
开场白
感谢谭铁牛老师多次关照和王蕴红老师的盛情邀请。今天是星期天,非常不好意思,耽误大家休息时间。我知道大家平时都很忙,你们坚持听到最后一讲,非常不容易。所以,我给你们带来一点干货,作为“精神补偿”。
今天的讲座是个命题作文,王老师要我谈人机交互。到底什么是人机交互,它要解决哪些问题?我就花了一周时间整理了一个比较长的讲座,给大家介绍人工智能的发展,和人机交互的体系结构。这个问题非常大,而且研究工作刚刚起步,大家需要把很多问题放在一起看、才能看出大致的轮廓。我给大家提一个思路,启发大家思考,我并不想直接给出一个解答方法。那样的话就剥夺了你们思考的空间和权利。
2017年初我在《视觉求索》发表过一篇谈“学术人生”的文章,讲到做学问的一个理想境界就是“清风明月”,也就是夜深人静的时候,你去科学前沿探索真理。今天的讲座,希望把大家带到这么一个空旷的地方,去领略一番。
报告后的提问互动
  
提问一:朱老师,机器怎么通过学习让它产生自我意识。刚才您演示的那个机器人,门口有个人他要进来,Ta怎么知道自己后退把路给让出来?
:自我意识这个问题非常重要。我先简要介绍一下背景,再回答你的问题。
自我意识(self-awareness,consciousness)在心理学领域争议很大,以至于认知学会一度不鼓励大家去谈这个问题,这个方向的人多年拿不到研究经费。人工智能里面有少数人在谈,但是,还不落地。自我意识包括几点:
1)感知体验。我们花钱去看电影、坐过山车、旅游,其实买的就是一种体验。这种体验是一种比较低层次的自我意识,形成一种表达(可以是我上面讲到的解译图)。 事后你也可以回味。
2)运动体验。我们虽然有镜子,可是除了舞蹈人员,大家并没有看到自己的行为动作。但是, 我们对自己的体态和动作是有认知的。我们时刻知道我们的体态和三维动作。比如,心理学实验,把你和一群人(熟悉和不熟悉的都有)的动作步态用几个关节点做运动捕捉,记录下来,然后,就把这些点放给你看,你只看到点的运动,看不到其它信息。你认出哪个人是你自己的比率高于认出别人,而且对视角不那么敏感。所以,我们通过感知和运动在共同建立一个自我的三维模型。这两者是互通的,往往得益于镜像神经元(mirror neurons)。这是内部表达的一个关键转换机制。
机器人在这方面就比较容易实现,它有自己的三维模型,关节有传感器,又有Visualodometry, 可随时更新自己在场景中的三维位置和形态。这一点不难。
3)自知之明。中国有个俗语叫做“人贵有自知之明”。换句话说,一般人很难有自知之明。对自己能力的认识,不要手高眼低、或者眼高手低。而且这种认识是要随时更新的。比如,喝酒后不能开车,灯光暗的时候我的物体识别能力就不那么强,就是你对自己能力变化有一个判断。我们每天能力可能都不一样其实,这个相当复杂了。
比如,机器人进到日本福岛救灾场景,核辐射随时就在损害机器人的各种能力。突然,哪一条线路不通了,一个关节运动受限了,一块内存被破坏了。它必须自己知道,而后重新调整自己的任务规划。目前人工智能要做到这一点,非常难。
刚才说的人进来、机器人知道往后退,那就是一个协调动作的规划。你规划动作、首先要知道对方是什么动作。比如,人与人握手就其实是非常复杂的互动过程。为了达成这个目标,你要在脑内做模拟simulate。
提问二:谢谢朱教授,感觉今天听到的都是我以前从来没有听过的东西。我有一个问题就是像机器人这种自我认识都很难,像您说的交互他还要去理解对方那个人的想法,这种信息他怎么来获取呢?也是通过学习还是?
:靠观察与实践。你看别人做事你就观察到,你就能够学到每个人都不一样的价值函数,你就了解到你周围的同事,比如你们共享一个办公室,或者观察你家庭里面的人,你跟他生活的时间越长,你就越来越多的知道他怎么想问题、怎么做事,然后你跟他在交互的过程中越来越默契了。除了观察,还有实践,就是去试探、考验对方。夫妻之间,刚结婚会吵架,之后越吵越少了、和谐了,价值观融合大致收敛了、或者能够互相容忍了。实在无法收敛,那就分道扬镳,到民政局办手续。这两种情况都是我说的学习的停机问题”。大家之间不要再相互交流、学习了,要么心领神会、心照不宣;要么充耳不闻、形同陌路。
提问三:他也是通过他自己观察到,它里面建立一个图吗?一个解译图(parse graph)吗?
:在我看来是这样的。就是我必须把你脑袋里面的很多结构尽量重构出来,表达层面就是解译图,至于人脑如何在神经元层面存储这个解译图,我们不清楚。人脑肯定有类似的表达,我脑袋里面有你的表达后,我就可以装或者演你的对各种情况的反应。
文学作家创作的时候,他脑袋里面同时要装下几十、上百号人的模型和知识表达,那些人知道什么、什么时候知道的。读文科的人一般观察比较敏锐。表演艺术家在这方面能力肯定也特别强。
提问四:像我们刚接触机器学习,你有没有什么推荐的,因为现在大家都在追踪训练深度网络,有没有一个推荐的,就是概率模型还是什么东西,一个数学理论或者一个数学工具。  
:我的想法是这样的,首先让大家端正思想,就是你想学,探索真理和未知。就是说在夜深人静的时候你探索真理,等你心境沉静下来,你自然就看到一些别人忽略的东西。不要让我推荐某个工具、代码、秘籍,拿来就用。我今天讲的东西都不是来源于某一个理论、工具,是融会贯通后的结果。
我反复告诫学生们,做科学研究不是过去那种到北京天桥看把戏,哪里热闹就往哪里钻。我以前也谈到过一个“路灯的隐喻”,科学研究就像在一个漆黑的夜晚找钥匙,大家喜欢聚在路灯底下找,但是很可能钥匙不在那个灯底下。
  
提问五:朱老师好,非常庆幸来听这个报告,我最后一个问题很简单。您说那几个时期,我想问一下秦朝到底什么时候能到?到秦朝的时候,数学的哪一块你认为,可能会被用做秦朝的武器或者最厉害的那个武器是什么。
  
:问得很好。什么时候会达到统一?这个事情中国有两个说法,都有道理。
一种说法叫做望山跑死马”。你远远望见前面那个山快到了,你策马前行,可是马跑死都到不了,中间可能还有几条河拦住去路。那是我们对这个事情估计不足。
第二个说法是远在天边,近在眼前”。 能不能到达,决定于你这边的人的智慧和行动。什么时候统一、谁来统一,这决定于我们自己努力了。春秋和战国时期,思想家是最多的,诸子百家全部都出来了,那是一个思想激烈碰撞的时代。我今天讲的这些东西其实都在我脑袋里面激烈的碰撞,我还有些问题想不通。
我们现在谈这个事情和框架,你觉得世界上有多少人在做?我的观察是:极少,也许一只手就可以数得过来。
你的第二个问题,如果要统一,那最厉害的数学工具是什么?我们要建立统一的知识表达:概率和逻辑要融合,和深度学习也要融合。我们看看物理学是如何统一的,他们里面各种模型(四大类的力与相互作用)必须融洽,然后解释各种现象。简单说我们需要搞清楚两点:
一、什么地方用什么模型? 对比经典力学、电磁学、光学、统计物理、粒子物理等都有自己的现象、规律和使用范围。我们这边也类似,各种模型有它们的范围和基础,比如我们常常听说的,吉布斯模型往往就在高熵区,稀疏模型在低熵区,与或图语法用在中熵区。这一块除了我的实验室,世界上没有其他人研究。
二、这些模型之间如何转化 前面我讲了一个例子,我写了一篇关于隐式(马尔科夫场)与显式(稀疏)模型的统一与过渡的信息尺度的论文,投到CVPR会议,结果,三个评分是“(5)强烈拒绝;(5)强烈拒绝;(4)拒绝”。大家根本就没想这个问题,眼睛都巴巴地看着数据集、性能提升了多少。刷榜成了CVPR科研的重要范式。在某些人眼中,刷榜成了唯一方式。我以前是批判这个风气,后来一想,其实应该多鼓励。我对那些把大众带到沟里去的学术领军人物,以前是批评,现在我特别感激Ta们。这样我自己的学生才有更多时间去实现我们的思路。你们都一起涌过来踩踏、乱开乱挖,我都躲不开。我做研究喜欢清静,不去赶热闹,不去追求文章引用率这些指标。
王蕴红教授总结(整理):今天朱教授的报告,大家可以感觉到两点。
一、纵横捭阖、举重若轻。纵论、横论整个人工智能六大领域很多深刻的题目,在很多层面上纵横交叉的线,他理得非常清楚、举重若轻,收发自如。非常幸运能听到这样的报告。
二、授人以渔而不是鱼。他讲的是如何去思考问题,如何去看世界,如何研究一些真正本质的东西。近几年深度学习被过多强调之后,有很多博士生还有一些研究者过于依赖工具,思考的能力被损坏了。其实研究的世界那么大,你一定要抬起头来看看,仰望星空。
鸣谢
感谢微软研究院郭百宁、华刚、代季峰等博士2016年9月在北京组织的研讨会。2017年6月汤晓鸥、王晓刚、林倞等教授邀请我在香港中文大学所作的报告。沈向洋博士在2017年7月西雅图组织的碧慧论坛。2017年9月在谭铁牛教授关照下、王蕴红教授在中科院自动化所举办的人工智能人机交互讲习班、并指派速记员和北航博士生刘松涛同学整理出报告的中文初稿。假若没有他们的耐心、催促、鼓励和协助,这篇中文报告是不可能产生的。报告中的部分图片由VCLA@UCLA实验室朱毅鑫、魏平、舒天民等人协助整理。
感谢中科大阮耀钟教授、杨志宏同学帮我找到那本珍藏的《力学概论》电子扫描版。其绪论被摘录在文中。我的思想受到这本书的启蒙。
感谢《视觉求索》公众号编辑部周少华、华刚、吴郢、罗杰波等同仁的协助。
感谢美国多家机构对文中提及研究的长期支持。
声明:本文限于纯属学术观点的争鸣,不针对任何组织和个人,切勿对号入座。本文仅代表个人观点、不代表机构立场。
全文完
编辑:王豪

4.jpg (30.67 KB, 下载次数: 30)

4.jpg

12.jpg (26.69 KB, 下载次数: 31)

12.jpg

微信图片_20190801231434.jpg (14.49 KB, 下载次数: 43)

微信图片_20190801231434.jpg
120#
 楼主| 发表于 2019-8-2 23:48:06 | 只看该作者
【案例】

用主流价值导向驾驭算法
光明日报2019-08-02
作者:陈晓彦
习近平总书记指出,我们要增强紧迫感和使命感,推动关键核心技术自主创新不断实现突破,探索将人工智能运用在新闻采集、生产、分发、接收、反馈中,用主流价值导向驾驭“算法”,全面提高舆论引导能力。人工智能方兴未艾,算法扮演急先锋的角色。在人人都是传播者的今天,海量的信息与海量的用户之间要实现高效精准的对接,就离不开算法;就长期趋势来看,从“人找信息”到“信息找人”,算法必将越来越成为主流的新闻推荐方式。主流价值导向是算法的“方向盘”,没有正确的价值导向,我们在享受算法红利的同时就会遭遇算法黑箱、信息茧房、隐私泄露、低俗内容野蛮生长等问题,甚至陷入算法依赖和算法焦虑之中。
用主流价值导向驾驭算法是传播迭代的必然要求。从报纸、电视到门户网站,尽管传播载体在变迁、传播技术在进化、传播流程在再造,但新闻传播的基本规范和伦理守则从未退场。大众媒体时代,职业的把关人和健全的把关机制确保了到达受众的新闻的主流价值导向;互联网时代,算法新闻可以直接分发用户生产的内容和机器算法自动生成的新闻,这就使得到达受众的新闻可能没有经过传统的主流价值把关流程,甚至与主流价值出现大的偏差,产生错误的舆论导向,如微软在推特上推出的聊天机器人Tay,上线几个小时后就因宣扬歧视、仇恨和偏见而被迫下线。应当认识到,算法不是在脱离人类社会的真空中产生和运行的,“每一种技术架构、每一行代码、每一个界面,都代表着选择,都意味着判断,都承载着价值”。对算法进行价值观引导,仍然是人在引导;用主流价值导向驾驭算法,使算法的运行不偏离轨道,最终就能实现用主流价值规范人的行为。为此,我们可以从以下方面开展行动。
算法应恪守基本伦理规则和主流价值导向。算法本质上是解决问题的方法,因此,在算法解决具体问题的过程中,人类社会已有的伦理规则、法律规范仍然有效,一个社会的主流价值导向仍然应当得到坚持。另外,基于数据和机器学习等的算法有着与人类思维不一样的特征,在算法的设计和使用过程中,保持人类的主导和对算法影响到的具体的人的保护应该作为算法最基本的伦理规则。如欧盟的人工智能准则明确“可信赖的人工智能”应保证“人的能动性和监督能力”,英国数据伦理框架明确算法“应维护现实中的法律和伦理规范,应有清楚的公共福祉的意识”。新闻本质上是公益的和社会价值优先的,传统媒体和职业新闻人通过执照、专业素养教育等保障新闻伦理价值的贯彻。我国新闻职业道德准则要求新闻工作者的首要任务是坚持正确的舆论导向和全心全意为人民服务,而不是单纯的信息分发。因此,在新闻算法的设计和运用中,除了算法伦理逻辑,新闻伦理的原则也应该得到贯彻。这就要求对相关的算法科学家、工程师和设计、使用算法的机构和个人进行算法伦理和新闻伦理的教育,促使其具备基本的新闻和算法伦理意识,真正做到用主流价值导向驾驭算法。
明确算法把关人责任。在传统媒体中,从选题策划、采访、编辑到信息发布,都有职业的把关人和健全的审核把关机制,以确保到达受众的新闻符合主流价值导向。而在人工智能时代,算法科学家、工程师和新闻算法的设计与使用者(如新闻搜索网站、新闻聚合平台等)就处于把关人的位置,他们可以在新闻采集、生产、分发过程中很大程度上防止或减少新闻算法偏差。但是,如果只有伦理的束缚,他们可能缺乏足够的动力去以主流价值和社会公益来设计和运作算法。例如,由于公众注意力有限,如何推荐无限的信息给有限的注意力成为极为赚钱的生意。在此背景下,目前商业的新闻聚合平台和新闻搜索网站大都以流量驱动来分发新闻。因此,人工智能时代更需建立把关人机制。算法把关人在设计、运行算法的过程中至少应当承担两方面的把关责任:一是追踪评估算法的影响,摆脱搭建技术架构、书写代码时价值判断无意识状态,明确新闻主流价值的导向作用,不以片面满足用户需求和追求流量最大化为终极目的。二是当算法出现偏差时的及时纠偏和阻断责任。新闻算法和机器审核等机制并不完善,一旦知道或被告知算法出现偏差时,应及时采取措施纠偏甚至阻断瑕疵算法。只有这样,才是对传统媒体和新兴媒体实行一个标准、一体管理。
培养全社会的算法素养和媒体素养。算法展现了更高效便捷解决问题的能力,能够完成人工难以完成的工作和不能解决的复杂问题,在这些解决方案后面,算法的高度复杂性、自我学习和输入输出的暗箱,可能使算法难以被普通民众理解掌握。虽然目前一些法律法规开始强调算法的透明和可解释性,但由于公众甚至不少使用算法的机构缺乏相关知识,难以理解算法的运作逻辑和机器程序可能屏蔽的信息,导致算法的透明和可解释不容易达成。当机器算法不可逆转地影响到每个人的信息获取和基于此进行的决策时,算法素养和媒体素养就不应只是专业人士学习的课程,而应该列为中小学和大学的通识教育,才能使公众有意识和能力监督各平台和机构始终保持算法警觉,避免新闻算法与主流价值观相偏离。(作者:陈晓彦,系厦门大学新闻传播学院副教授)
原文链接:
编辑:王豪

发表回复

您需要登录后才可以回帖 登录 | 实名注册

本版积分规则

掌上论坛|小黑屋|传媒教育网 ( 蜀ICP备16019560号-1

Copyright 2013 小马版权所有 All Rights Reserved.

Powered by Discuz! X3.2

© 2016-2022 Comsenz Inc.

快速回复 返回顶部 返回列表