传媒教育网

 找回密码
 实名注册

QQ登录

只需一步,快速开始

搜索
做个试验
楼主: 刘海明
打印 上一主题 下一主题

人工智能与新闻业案例集锦

[复制链接]
251#
 楼主| 发表于 2019-10-10 22:43:36 | 只看该作者
【案例】
Nature发文:深度学习系统为什么这么好骗
几张贴纸就能「改变」交通标志识别结果,转个方向就看不出图中的动物种类,今天的人工智能系统经常会出现莫名其妙的 bug。最新一期《自然》杂志上的这篇文章向我们介绍了深度学习为什么如此容易出错,以及解决这些问题的研究方向。
一辆自动驾驶汽车在接近停止标志时非但没有停车,反而加速驶入了繁忙的十字路口。一份事故调查报告显示,该汽车之所以做出这种决策,是因为停止标志的表面贴了四个小矩形。这样一来,自动驾驶汽车就把停止标志识别为了「限速 45」。
这种事件其实还没有在实际中发生,但蓄意破坏 AI 系统的可能却是真实存在的。在停止路牌上贴标签、在帽子和眼镜上贴贴纸都有可能成功欺骗自动驾驶系统和人脸识别系统,还有研究者用白噪音来欺骗语音识别系统。
这些案例都说明欺骗一个领先的 AI 模式识别系统(即深度神经网络)有多么容易。这些系统已经在我们生活中无处不在,但只要对这些系统的输入做一些微小的改动,最好的神经网络也会受到欺骗。
在寻找问题的过程中,研究人员发现了 DNN 失效的很多原因。「深度神经网络本质的脆弱性是无法修复的,」谷歌 AI 工程师 François Chollet 指出。Chollet 及其他研究者认为,为了克服这些缺陷,研究者需要借助其他力量来巩固模式匹配 DNN:例如,让 AI 能够自己探索世界、自己写代码并保留记忆。一些专家认为,这类系统将成为未来十年 AI 研究的主题。
接受现实的检验
2011 年,谷歌推出了一个能识别猫的系统,从此掀起了 DNN 分类系统的研究高潮。人们惊呼:计算机终于可以理解世界了!
AI 研究者知道,DNN 其实并不理解这个世界。它们粗略地模仿大脑结构,其实是一种由分布在很多层上的数字神经元组成的软件结构。每个神经元与其相邻层的神经元相连接。
其基本思想是,原始输入(如图像的像素)的特征进入底层,触发一些神经元,然后根据简单的数学规则将信号传到上层的神经元。训练一个 DNN 网络需要将其暴露在大量样本中,然后每次调整神经元的连接方式,最终由上层得出想要的答案,比如把某头狮子的图像识别为狮子,尽管 DNN 从未见过这一头狮子的照片。
DNN 进行的首次重大检验发生在 2013 年。当时,谷歌的研究者 Christian Szegedy 及其同事发表了一篇名为「『Intriguing properties of neural networks」的预印版论文。该团队表明,通过修改几个像素就能误导 DNN 将狮子识别为图书馆等其他物体。他们将修改后的图像称之为「对抗样本」(adversarial example)。
一年之后,Clune 等人组成的团队表明,让 DNN 看到不存在的物体也是可能的,如在波浪形线条中看到企鹅。「任何从事过机器学习研究的人都知道,这些系统经常会犯一些低级错误,」Yoshua Bengio 说道,「但这种错误令人惊讶,而且出人意料。」
新型错误层出不穷。去年,Nguyen 证明,简单地旋转物体就能淘汰一波当前最好的图像分类器。今年,Hendrycks 等人报告称,即使是未经篡改的自然图片也能骗到当前最好的分类器,使其将蘑菇识别为饼干。
这个问题不止在目标识别中出现:任何使用 DNN 对输入进行分类的 AI 都能被骗到,如使用强化学习的游戏 AI,在屏幕上随机添加几个像素就能让智能体输掉比赛。
DNN 的弱点会给黑客接管 AI 系统提供可乘之机。去年,谷歌的一个团队表明,使用对抗样本不仅可以迫使 DNN 做出某种错误决策,也可能彻底改变程序,从而有效地将一个训练好的 AI 系统用于另一项任务。
许多神经网络理论上都能用来编码任何其他计算机程序。「理论上来说,你可以将一个聊天机器人转化为任何你想要的程序,」Clune 表示。在他的设想中,不远的将来,黑客就能够劫持云中的神经网络,运行他们自己的垃圾邮件躲避算法。
加州大学伯克利分校的计算机科学家 Dawn Song 认为,DNN 很容易受到攻击,但防守却非常困难。
能力越大越脆弱
DNN 非常强大,因为它们有很多层,也就意味着它们可以识别出输入的不同特征模式。经过训练,用于识别飞行器的 AI 算法有可能会找到诸如色块、纹理、背景等因素与预测目标具有关联性。但这也意味着输入内容的很小变化就可以让 AI 的识别结果出现明显的变化。
解决方法之一就是简单地给 AI 投喂更多数据,特别是多训练出错的情况以纠正错误。在这种「对抗性训练」的情况下,一个网络学会识别目标,另一个网络尝试修改第一个网络的输出,并制造错误。通过这种方法,对抗样本成为了 DNN 训练数据的一部分。
Hendrycks 等研究者建议测试 DNN 在各种对抗样本的性能,从而量化 DNN 对犯错的鲁棒性。他们表明,训练能抵御一种攻击的神经网络可能会削弱它对其他攻击的抵抗力,而鲁棒性的 DNN 不应该因其输入的微小扰动而改变其输出。这种因扰动而改变最终结果的属性,很可能是在数学层面上引入神经网络的,它限制了 DNN 学习的方式。
然而在当时,没有人可以解决所有 AI 都很脆弱这一问题。问题的根源,根据 Bengio 的说法,深度神经网络中没有一个很好的可以选择什么是重要的模型。当 AI 观察一个将狮子篡改为图书馆的图片,人类依然可以看到狮子,因为他们有一个思维模型,能够将动物视为更高级的特征——如耳朵、尾巴、鬃毛等。而其他低级别的细节则会被忽略掉。「我们知道从先验知识中学习什么特征是重要的,」Bengio 说,「而这来自于对结构化的世界的深度理解。」
解决此问题的一种尝试是将 DNN 与符号 AI 结合起来。符号 AI 也是机器学习之前,人工智能的主要方法。借助符号 AI,机器可以使用关于世界如何运作的硬编码规则进行推理,例如它包含离散的对象,之间以各种方式相互关联。一些研究人员,例如纽约大学的心理学家 Gary Marcus 说,混合 AI 模型是前进的方向。「深度学习在短期内非常有用,以至于人们对长期发展视而不见,」一直以来对当前深度学习方法持批评态度的马库斯说。
今年 5 月,他在加利福尼亚州帕洛阿尔托联合创立了一家名为 Robust AI 的初创公司,该公司旨在将深度学习与基于规则的 AI 技术相结合,以开发可以与人一起安全操作的机器人。公司正在做工作仍处于保密状态。
即使可以将规则嵌入到 DNN 中,这些规则的效果也只是能与学习一样好。Bengio 说,AI 智能体需要在更丰富的可探索环境中学习。例如,大多数计算机视觉系统无法识别一罐啤酒是圆柱形的,因为它们只在 2D 图像数据集上进行训练。这就是 Nguyen 等研究者发现我们可以通过不同角度的对象来愚弄 DNN 的原因。
但是,AI 的学习方式也需要改变。Bengio 说:「了解因果关系必须在现实世界做一些任务,智能体可以实验并探索现实世界。」另一位深度学习的先驱,Jürgen Schmidhuber 说,模式识别非常强大,足以使阿里巴巴、腾讯、亚马逊、Facebook Google 等企业成为世界上最有价值的公司。他说:「但是将会有更大的浪潮,其涉及智能体操纵真实世界并通过自己的行动创建自己的数据。」
从某种意义上来讲,使用强化学习在人工环境中搞定计算机游戏的方式已经是这样了:通过反复试错,智能体以规则允许的方式操纵屏幕上的像素点,直到达成目标为止。然而,真实世界要比当今大多数 DNN 训练所依据的模拟环境或数据集要复杂得多。
即兴表演的机器人
如下图所示,在加州大学伯克利分校 (University of California, Berkeley) 的一个实验室里,一只机器人手臂在杂物中翻找。它拿起一个红色的碗,然后用它把一只蓝色的烤箱手套向右推几厘米。它放下碗,拿起一个空的塑料喷射器,然后估量着平装书的重量和形状。经过连续几天的筛选,机器人开始对这些陌生的物体有了感觉,知道它们各自用来做些什么。
机器人手臂正在使用深度学习来教自己使用工具。给定一盘物体,它依次捡起并观察每一个物体,观察当它移动它们并将一个物体撞向另一个物体时会发生什么。
当研究人员给予机器人一个目标,例如向它展示一张几乎空的托盘图像,并指定机器人安排物体来匹配状态。这样,机器人可以与其之前未见过的物体交互并即兴做出行动,例如用海绵将桌子上的物体抹干净。机器人还能意识到,用塑料水壶清理掉挡道的物体要比直接拿起它们要快。
伯克利实验室的研究员 Chelsea Finn 认为,一般而言,这种学习可以使得 AI 更深入地了解物体和世界。如果你曾经只在照片上见过水壶或海绵,则或许能够在其他图像中识别出它们。但是,你不会真正地理解它们是什么或它们用来做什么。因此,Finn 表示,只有你真正地与它们接触才可以更深入地了解它们。
但是,这种学习过程很慢。在模拟环境中,AI 可以非常快速地浏览示例。例如,2017 年,DeepMind AlphaZero 自学习游戏软件接受训练在围棋、国际象棋和日本象棋领域大杀四方。那时,AlphaZero 针对每场赛事进行了 2000 多万场训练游戏。
AI 机器人学习这种能力很慢。AI 和机器人公司Ambidextrous 联合创始人 Jeff Mahler 表示,在深度学习领域,几乎所有的结果都极度依赖大量数据。他说道:「在单个机器人上收集数以千万计的数据点将需要连续数年的执行时间。」此外,数据或许不可靠,因为传感器校准会随时间出现变化,硬件也会退化。
因此,大多数涉及深度学习的机器人工作仍然使用模拟环境来加速训练。亚特兰大佐治亚理工学院机器人专业的博士生 David Kent 认为,你能学到什么取决于模拟器有多好。模拟器一直在改进,研究人员也正在把从虚拟世界学到的经验更好地转移到现实世界。然而,这样的模拟仍然无法应对现实世界的复杂性。
Finn 认为,使用机器人学习最终要比使用人工数据学习更容易扩展。她制作的会使用工具的机器人花了几天时间学会了一项相对简单的任务,但不需要大量的监控。她说:「你只要运行这个机器人,每隔一段时间就需要检查一下。」她想象着有一天,世界上有很多机器人可以使用自己的设备,昼夜不停地学习。这应该是可能的——毕竟,这是人们理解世界的方式。「小孩不能通过从 Facebook 下载数据来学习,」Schmidhuber 说。
从较少的数据中学习
需要指出的一点是,一个小孩也可以通过一些数据点识别出新的物体:即使他们之前从来没有见过长颈鹿,但依然可以在看过它们一两次后识别出来。识别如此之快的部分原因是,这个小孩已经看过很多除长颈鹿之外的其他生物,所以熟悉了这些生物的显著特征。
将这些能力赋予 AI 的一个统称术语是迁移学习:即将之前通过训练获得的知识迁移到其他任务上。实现迁移的一种方法是在新任务训练时将所有或部分预训练任务再次用作起点(starting point)。例如,再次使用已经被训练用来识别一种动物(如识别基本体型的层)的部分 DNN 可以在学习识别长颈鹿时为新网络带来优势。
一种极端形式的迁移学习旨在通过向新网络展示少量示例(有时甚至只有一个示例)来训练它。此类已知的 one-shot few-shot 学习极度依赖预训练的 DNN。举例而言,如果你想要构建一个能够识别出犯罪数据库中人的人脸识别系统,则利用包含数以百万计人脸(并不一定是数据库中的那些人)的 DNN 可以帮助该识别系统了解主要特征,如鼻子和下巴的形状。
所以,拥有此类预训练记忆可以帮助 AI 在未见过大量模式的情况下识别出新示例,这样可以加速机器人的学习速度。但是,如果面临一些它们经验范围外的任务,此类 DNN 或许依然表现不佳。这些网络能够实现多大程度的泛化也依然不清楚。
例如,DeepMind AlphaZero 等最成功的 AI 系统所拥有的专业知识也极其有限。AlphaZero 虽然可以接受训练来下围棋和国际象棋,但无法同时进行。
学会如何学习
AlphaZero 在游戏领域的成功不仅仅归功于有效的强化学习,还要得益于一种算法(用到了蒙特卡洛树搜索技术的一种变体),这种算法可以帮助 AlphaZero 缩小下一步的选择范围。换言之,AI 学习如何以最好的方式从环境中学习。Chollet 认为,AI 的下一步重大进展将是赋予 DNN 编写各自算法的能力,而不仅仅是使用人类提供的代码。
Chollet 还说道,为基础的模式匹配补充推理能力将使得AI 能够在它们的舒适区(comfort zone)外更好地处理输入。计算机科学家们多年来一直都在研究程序合成(program synthesis),让一台计算机自动生成代码。所以,在他看来,将这一领域与深度学习相结合可以生成更接近人类所使用的抽象心智模型的 DNN 系统。
例如,在机器人领域,Facebook AI 研究所(FAIR)的计算机科学家 Kristen Grauman 正在教机器人自身如何最有效地探索新环境。
该领域的研究人员表示他们在修复深度学习缺陷方面取得了一些进展,但他们也在探索一些新技术来使得 DNN 不那么脆弱。Song 认为,深度学习背后没有太多的理论可遵循。如果出了故障,则很难找出原因。整个领域依然以实证为主,所以研究人员必须亲自尝试着解决。
目前,尽管科学家们意识到了 DNN 的脆弱性以及他们对数据的过度依赖,但大多数人认为 DNN 技术将继续存在和发展。需要承认的一点是,近十年来,与大量计算资源相结合的神经网络可以在接受训练的情况下很好地识别模式。但遗憾的是,Clune 认为,没有人真正知道如何改进 DNN 技术。
原文链接:https://mp.weixin.qq.com/s/7emoVh1yjiEqFtCezBgSmg
编辑:陈茗

252#
 楼主| 发表于 2019-10-10 23:15:38 | 只看该作者
主题:重大科学问题《智能生成机理》研讨会
时间:2019年9月29日上午
地点:北邮科技大厦
内容:受中国科协委托,中国人工智能学会邀请院士专家对人工智能领域重大科学问题《智能生成机理》的研究进展、存在问题、政策建议进行集体研讨
   
主持人王国胤教授(中国人工智能学会副理事长)
各位专家,今天早上的重大科学问题“智能生成机理”研讨会现在开始。我是中国人工智能学会副理事长王国胤,李院士委托我来主持这个研讨会。在此感谢大家对重大科学问题研讨会的支持。
人工智能经过60多年的发展,现在已经在深刻影响整个社会。我们国家在《新一代人工智能发展规划》颁布以来,也在从智能大国往智能强国建设。我个人理解,如果没有对人工智能重大科学问题的探索,建设智能强国几乎是不可能的。所以,这样一个重大科学问题研讨对我们走向智能强国之路是很重要的。那么,作为重大科学问题,人工智能是根据什么样的机理生成的?必须把这个问题搞清楚。否则,我们就会像瞎子摸象一样找不到根本。因此,这个问题的讨论相信对引领我们中国人工智能的研究具有里程碑意义。
今天参加会议的各个方面的代表,有科协的代表,基金委的代表,我们也请到了几位院士、专家,金智新院士、陆汝钤院士、李衍达院士、郭桂蓉院士也亲自到场或者委派了代表,很重视这个会议。我们各个方面的专家,特别是像汪老师,也是我们在人工智能领域里面杰出的老前辈,还有不少中青年人工智能的专家。今天早上咱们这个会议要展开《智能生成机理》的研讨,然后还要给科协提交本次研讨会的正式报告。
    按照会议安排,首先有请中国科协重大科学问题工程技术难题征集评选项目组的代表,中国科学院文献情报中心业务主管谭一泓发言。
   
谭一泓研究员(科协代表)
各位专家,我叫谭一泓,来自中国科学院文献情报中心。我们从2018年开始承办这个项目,叫重大科学问题和工程技术难题工程评选,为什么要做这个事情呢?从2017年年底,科协就有一个想法,觉得目前社会上热点都很多,但是很多都是新闻媒体层面来评的,没有咱们科学界的人,而且没有广大科技工作者从下往上提出的问题。科协觉得要发挥科协的优势,科协毕竟是科技工作者之家,代表广大科技工作者,充分发挥广大科技工作者的力量,从下到上推出来评选重大问题,会更准确,更有意义。
    这个项目的目的和宗旨,是为了研判科技发展趋势,支撑咱们国家科技强国的建设。2018年开始第一届,评选了60个重大科学问题和工程技术难题,2018年5月份在中国科协的年会上发布,人工智能学会去年有两个入选了。今年从众多推荐的问题和难题中逐层遴选出了75个,但是最终评出和发布的是20个,在6月底哈尔滨的年会上发布的。咱们做这个项目,发布肯定不是目的,不是说一发就了事了。发布的过程,很多媒体跟进,也有很多科技界的大家引发一些讨论,发布的过程也是促进大家来讨论、加强这些问题的研讨认识、推进这些问题的解决,但这还不是主要目的。为什么要召开今天的座谈会?科协也一直在讨论,我们花那么大力气评完,金院士、钟院士好多方面都有参与,咱们那么多专家投入那么多精力做这个工作,肯定不能评完就了事了,还是想通过适当的机制推荐给中央、给国家各个部委的层面。所以今天开这个座谈会的目的,是希望在座各位专家发挥各位专家的智慧讨论一下。首先,“智能生成机理”这么一个题目,目前发展的状况、“卡脖子”难点在哪里、为了下一步发展,国家应该从哪些方面发力,比如推荐给哪些部委、或者在国家哪些专项里体现。召开今天会议的目的就是这样。希望大家广泛讨论,为下一步科技发展贡献自己的智慧。
    再次感谢学会一直以来对这个项目的支持,感谢北邮王校长、钟老师这边积极的参与,感谢大家今天参加我们的座谈会,希望今天的讨论有成果,我是来学习的,我代表项目组就讲这些。
   
主持人(王国胤教授):
谢谢谭一泓老师的支持,确实这样一个事情组织难度也很大,咱们要高质量的完成。钟教授,在北邮把人工智能这个领域的研究、教学带动起来了,作出了杰出的贡献,不仅仅在北邮,为中国人工智能的发展乃至国际人工智能的发展作出了杰出的贡献。北邮在这个领域有很大的贡献,包括人工智能学会就是挂靠在北邮,学校很支持我们的发展,今天这个会在北邮召开,北邮的王文博副校长亲自参加这个会议来支持和指导研讨会,下面有请王文博副校长致辞。
   
王文博教授(北邮副校长)
非常感谢!各位专家,各位领导,大家知道,马上就要国庆了,我也知道大家非常忙,今天大家来到学校探讨这个重大问题“智能生成机理”,意义非常重大。刚刚谭处长介绍了重大科学问题的背景以及我们今天研讨会的目的。
    对于北邮来讲,是信息科技领域的学校,是有行业特色的学校,人工智能是整个信息领域发展非常重大的推动力,近几年AlphaGo的成功,人工智能在各个行业的应用表明,人工智能需要包括通信、网络、计算处理的支持。北邮正是这样一个学校:我们信息通信工程是信息领域第一大学科,国内我们排名第一,是A+这样的学科,计算机学科排名A,当然还有电子科学技术是A-。从北邮的发展来讲,主要是在信息科技领域里。过去北邮主要专注在信息通信科技领域,它属于邮电部,过去是邮电部的学校主要解决邮电通信网络服务问题、设备制造问题。随着信息科技的发展,特别是人工智能的出现,以及现在大家炒的比较热的5G的发展,对国民经济各个领域的推动力、带动意义非常大。我们学校也在大力推进人工智能领域的发展,从科学研究到人才培养,刚才王理事长介绍了人工智能学会挂靠在北邮。学校对于人工智能整个领域非常重视,我们成立了人工智能研究院,过了“十一”以后准备成立人工学院。从科学研究到人才培养,都希望在智能科学这个领域能够发挥北邮的作用。长期以来北邮也得到了在座各位的关心和支持,在此表示感谢。未来我们希望能够跟大家一起,在人工智能领域,特别是人工智能的基础理论,包括今天我们这个主题“智能生成机理”,能够发挥更大作用,在未来研究中能够获取更多的成果。
    我自己主要做无线通信的,过去无线通信跟人工智能曾经是不搭界的,通信就是通信、智能就是智能,现在无线通信领域跟人工智能的结合也在深入展开,而且还是非常有效的,所以人工智能跟科研各个领域的结合也是未来发展非常重要的方向。通信领域的未来网络,也是重大科学问题,网络未来的发展也是我们信息领域非常关注的问题,包括空天一体化、包括未来的6G。网络往哪方面发展,过去的网络电信网、因特网都是大一统的网络,大家都可以挂上。未来的网络如果是不是大一统的网络?一周前在南京举办的网络发展的研讨会上,一些院士也提出,未来网络的发展智能化将是一个方向。但是怎么来理解智能?当时研讨会上大家提出这个问题,什么样的决策算智能,跟智慧有没有区别?今天我觉得探讨智能生成机理到底是不是有一个共性的机理,对我们未来智能领域的发展,以及支撑我们各个科学领域、国民经济各个应用领域的发展,我觉得有非常重要的意义。
    再次感谢各位专家的到来,也预祝今天的研讨会圆满成功。谢谢大家!
   
主持人(王国胤教授):
感谢王校长的致辞,我们科学研究开展离不开学校的支撑。下面按照会议安排,有请钟义信老师做报告,“关于智能生成机理研究的进展、问题、建议”。
   
钟义信教授(科学问题《智能生成机理》提出者)
尊敬的各位领导、院士、专家,中青年同行:非常高兴向各位汇报一下关于“智能生成机理”这个重大科学问题的四个方面:进展、意义、问题和政策建议。

    第一部分:《智能生成机理》的研究进展

经过数十年的艰辛探索,“智能生成机理”这个重大科学问题的研究已经取得重大的突破和实质的进展。突破,集中表现在颠覆了现行人工智能所沿用的“科学范式”;进展,主要表现在揭开了“普适性智能生成机理”的奥秘,并在此基础上创建了《通用人工智能基础理论》。

    进展(一)阐明了“智能生成机理”的基本概念及其在人工智能研究领域的极端重要性
我们认识到,“机理研究”是人工智能研究的核心问题。必须把它理解准确、解决到位。否则,就会像刚才王理事长所讲的那样,人工智能的研究就会变成“盲人摸象”,摸不到要害、摸不到全局、摸不到本质。
“机理”是一个理科术语,工科则称为“机制”,它们共同的外来语是Mechanism。所以,这两个词可以互相换用。
什么是机理?它是指一个系统运行的基本规则、基本原理和全局规律,而不是单纯的指系统结构、功能、或系统表现出来的行为。机理远比结构、功能、行为更具本质的意义。
例如,飞机跟飞鸟在结构上各不相同,它们共同的机理则是“空气动力学原理”。只有掌握了空气动力学原理,飞机的设计才能成功。智能也是这样,只有找到了统管智能系统全局的规律- 它的工作机理,对人工智能(包括人类的智能和生物智能)的研究才能获得真正的成功。
    显然,“智能生成机理”就是指智能系统为了生成智能所必须遵循的运行规则、工作原理和全局规律,而不是单纯的系统结构、功能或行为。
所谓“普适性智能生成机理”,就是普遍适用于一切智能系统生成智能所需要遵循的规则、原理和全局规律。它是通用人工智能系统的理论基础。
由此可见,“普适性智能生成机理”是整个智能科学研究的重大科学问题。只有掌握了普适性智能生成机理,才有可能建立“通用的人工智能理论”,建立通用的人工智能系统。
实事求是地看,国内外大多数人工智能研究的同行们都在热心于研究各种具体的人工智能系统,如棋类博弈、模式识别、机器人等等,都在做一些“个案性”的人工智能系统,没有高度重视各种人工智能系统共有的生成机理的研究。尽管那些研究都有一定的用处,但是,只研究“个案性”的人工智能系统而不研究“普适性智能生成机理”,就很难实现通用人工智能理论的重大突破。
所以,深刻理解“普适性智能生成机理”的学术涵义及其在整个人工智能研究领域的极端重要性,这实在是一个首要的前提。如果没有这个进展,就不会有后续的各种进展。

    进展(二):剖析了现有人工智能研究之所以未能高度重视“智能生成机理”,根本原因是忽视了“科学范式”的最高指导作用,因而导致“范式失配”的大忌
人们对于现有人工智能研究之所以不满意,主要是因为人工智能的研究一直处于“个案化”和“碎片化”的状态,没有通用性的人工智能系统:会“下棋”的系统,却不会“看病”,能“识别人脸”的系统却不会“开车”,如此等等。
现有的人工智能研究做不出“通用的人工智能系统”,直接的原因是没有掌握“普适性的智能生成机理”;而没有掌握“普适性的智能生成机理”的原因,则在于现有的人工智能研究没有重视“科学范式”的指导作用。
以下,我们就来解释这个重要结论。
所谓“科学范式”,是“科学观和方法论”的统称。
众所周知,人们的“世界观和方法论”是人们一切有意识行为的最高指南。同样的道理,在科学研究领域,“科学观和方法论”是一切科学研究活动的最高指南。
然而,不无遗憾的是,由于“分而治之”方法论的影响,人们却把“科学观和方法论指导下的科学研究活动”这个整体划分为“哲学”和“科学研究”两个互不相关的活动领域。因此,从事具体科学研究的人们,往往就不再关注“科学观和方法录(哲学)”对科学研究的指导作用。
问题是,“不再关注科学观和方法论指导作用”的结果,并不等于真的就“没有了科学观和方法论的指导作用”。恰恰相反,各种科学观和方法论对科学研究的指导作用是一种不以人们意志为转移的客观存在。不是接受这种科学观和方法论的指导,就是接受那种科学观和方法论的指导。由于不再关注科学观和方法论的指导,往往却导致了“误用”科学观和方法论的后果,导致科学研究走上曲折的道路。几十年来的人工智能研究,正是这样走上了曲折的发展道路。
我们的研究发现,迄今存在两类科学范式(科学观和方法论):一类是物质科学的科学范式,一类是信息科学的科学范式,两类科学范式的科学观和方法论特征如表1所示。
                表1 科学范式的对比
  
  
科学观
方法论
  
传统
  
物质
  
科学
  
物质观
还原论
对象是“与主体无关的客体”,
  
只关注客体的结构与功能形式。
采用纯粹的“形式化”方法作为描述和分析对象的方法。
对象是稳定不变的,因此
  
可以对它进行分解和合成。
对于复杂的研究对象,应当采取
  
“分而治之”的方法加以处置。
  
现有
  
人工
  
智能
  
事实上的物质观
事实上的还原论
脑是与主体无关的特殊物质,
  
关注它的结构与功能形式。
采用纯粹的“形式化”方法作为描述和分析对象的方法。
承认对象存在不确定性,
  
但接受“分解合成”的合理性
实行了“分而治之”的方法,
  
因而分出了“三大学派”。
  
现代
  
信息
  
科学
  
信息观
信息生态方法论
对象是“主客互动的信息过程”,
  
关注主体的目标是否达成。
采用“形式、内容、价值三位一体”的方法描述目标达成状况。
信息过程终存在不确定性,
  
不能对它实行分解合成。
对于主客互动的信息过程,应当采取“整体寻优生长”的方法。
不难理解,无论研究工作多么艰深,只要遵循了正确的科学观和方法论,研究工作就能够朝着正确的方向不断前进。反之,如果研究工作沿用了不恰当的科学观和方法论,研究工作就会走上弯路,最多只能做出一些局部性的成果,而不可能掌握全局规律,不可能做出源头性的创新贡献。
    人工智能是复杂的信息系统,因此应当遵循信息科学的科学范式。但是,从上面的表1可以清楚看出,现有人工智能研究所沿用的,却不是信息科学的科学范式,而是物质科学的科学范式。这就是科学观和方法论的“误用”,即“范式失配”,犯了“张冠李戴”的大忌。
正是由于现有人工智能研究犯了“张冠李戴”的大忌,沿用了传统物质科学的科学观和方法论,它就按照“分而治之和纯形式化”的方法,把自己分解成了三大学派(结构主义的人工神经网络研究、功能主义的专家系统研究、行为主义的感知动作系统研究),互不认可、互不相容,导致个案化、碎片化、局域化、孤立化、形式化、互不沟通地摸索,从而无法掌握“普适性智能生成机理”这样的全局规律,无法形成统一的人工智能理论。这就是“不再关注哲学指导”的人工智能研究造成的后果。
换言之,现有人工智能研究存在的根本问题就是它不假思索地沿用了物质科学的科学范式,而没有认真地去思考、总结和贯彻信息科学的科学范式,致使现有人工智能的研究性质与它沿用的科学范式严重失配!
以上的剖析,揭示了现有人工智能研究的病根。找准了病根,就为根治疾病提供了办法。这是《智能生成机理》研究的重要进展,也是整个人工智能理论研究的重要进展。
    那么,什么是信息科学的研究范式呢?
    从上面的表1可以看到:信息科学研究范式的科学观,认为人工智能的研究对象不是纯粹的客体、不应该不允许主体介入;而是完全相反,信息科学的科学观强调“研究对象是主体与客体相互作用的信息过程”。具体地说,信息科学的科学观认为:人工智能的研究对象是主体客体互动的整体,关注“在这样相互作用的过程中主体所追求的目的是否达到”。显然,“目的”是不能够纯粹用形式来描述的,“目的”包含形式、内容、价值的要素,而且价值是最重要的因素。所谓达到了目的,一定是实现了对主体最有价值的那种结果。所以在科学范式的科学观层面上,物质科学与信息科学秉持几乎完全不一样的观念。
另外,信息科学的科学观认为:研究对象是一个整体,不能允许“分而治之”,因为,分解以后,这个复杂的主客互动整体分出来的那些子系统之间的信息联系就丢掉了,而信息联系是看不见、摸不着的,丢了就找不回来。而这些信息联系是整体系统的生命线,是它的命脉,把命脉丢了、把生命线丢了,把那些失去了信息联系的各个子系统合起来,就不再是一个真正的活的复杂的信息系统了,不再是智能系统了。所以,信息科学的科学范式不允许“分而治之”。由此导出的信息科学方法论叫“信息生态方法论”。“生态”就意味着是整体,意味着要向优化的方向生长。
可见,物质科学与信息科学的范式差得太大,范式失配了就出大问题了。实际上,直到今天为止,人工智能研究都没有走上信息科学范式得轨道,以至现在的人工智能研究只有局部的个案性的成果,没有关注更没有掌握“普适性智能生成机理”,没有通用性的整体性的人工智能的成果。
可见,“科学范式”在科学研究中确实具有至高无上的极端重要性。

进展(三)论证了只有下定决心“变革范式”,才能引领“智能生成机理”的研究走上正确轨道
通过上面的剖析可以理解:只有变革现有人工智能研究所沿用的科学范式,才能引领智能生成机理的研究走上正确的轨道。如果人工智能的研究还是遵循物质科学的范式,那就永远都不可能认识和掌握“普适性的智能生成机理”。而掌握不了普适性的智能生成机理,人工智能的通用理论就永远都不可能够获得成功。
既然现有人工智能所遵循的科学范式已经“张冠李戴”,那么,只有通过“正冠”行动,把自己的帽子(信息科学的科学范式)戴在自己的头上(引领人工智能的研究),做到“李冠李戴”,才可能解决人工智能研究的根本问题。
表1说明,信息科学范式的科学观认为:人工智能的研究对象是主客互动演进的整体,关注的是主体目的的达成状况;它的方法论是“整体寻优生长,是形式、内容、价值三位一体的描述和分析方法”。
于是,我们就可以按照信息科学的科学范式去探索,看看智能生成的机理到底是什么?这样就导致第四个进展。

进展(四):揭开了“普适性智能生成机理”的奥秘
第四个进展就是揭示了智能生成机理的生成办法,弄懂了怎样才能够生成“普适性的智能”。这是《普适性智能生成机理》研究的核心进展。
按照上述信息科学的科学观和方法论,可以构造出图1所示的《普适性智能生成机理》的宏观模型。

file:///C:/Users/cming/AppData/Local/Temp/msohtmlclip1/01/clip_image002.jpg
     图1 普适性智能生成机理的宏观模型
    既然人工智能的研究对象是“主体与客体之间相互作用的信息过程”,那么,模型中就一定既应当有主体也应当有客体,后者就是环境中的问题。一般而言,主体会有两个基本的特征,第一,任何主体都有目的(总的目的就是要生存要发展)。第二,主体必定积累了一定知识(可以是规范性知识、经验性知识、常识性知识、或本能性知识)。
那么,模型中的主体与客体之间怎样相互作用呢?
通常,环境中的客体总会呈现自己的状态和状态变化的方式,这就是信息,叫做客体的信息。这个客体信息会作用到它能够作用到的那个主体,包括人类的主体(用人类来做代表,也可以是任何生物)。客体信息作用于主体,这是交互作用的一个方面。人类主体受到这个刺激以后,为了达到生存发展的目的,主体就要产生一个行为反作用于客体。但是,这个行为必须是智能的行为,如果不智能:第一,目的一定达不到。第二,如果这个行为不智能,可能会破坏环境的运行规律,客观的规律受到破坏反过来又会威胁到主体的生存发展。所以,主体的行为必须是“智能”的行为。这就完成了“主体与客体相互作用的一个回合”。
图1模型表明:主体必须产生“智能行为”。由此可见,“智能”生成的机理一定就隐藏在这个模型里。换句话说,这个模型虽然看似简单,却能揭示“普适性的智能生成机理”。或者说,图1的模型是探讨“普适性智能生成机理”的根本模型,一切与此相关的问题都包含在这个模型之中。因此,深入分析这个模型,就可以揭示出“普适性智能生成机理”的深层奥秘。
这个奥秘,可用以下8个要素来具体刻画。
    (1)“动力”:生成智能的动力是什么?
这个动力一定是:在主体与客体相互作用过程当中主体要不断地追求生存与发展。如果没有这个动力,什么“追求”都没有,什么刺激来了都不理睬,就不会生长智能。
(2)“启动”:怎样启动生成智能的具体过程?
模型1表明,一定要有客体信息来给主体一个刺激。没有外来客体信息的刺激,这个过程不会启动。
(3)“路径”:主体生成智能的路径是什么?
模型表明,面对客体信息的刺激,主体要寻求一种跟刺激相应的智能行为。从“客体信息刺激”的发生,到“智能行为”的生成,就是这条路径的起点和终点。
(4)“牵引”:这个路径的牵引力是什么?
没有牵引力,就可能失去方向。模型表明,“主体追求的生存与发展目标”,就是生成智能这个过程的牵引力。
(5)“约束”:怎样约束智能生成的过程?
模型表明,这个约束力量就是要遵守与该问题相关的各种知识。虽然有目的的宏观牵引,如果没有相应知识的约束,生成智能的过程也可能偏离最佳的正确路径。
(6)“准则”:判断生成智能过程终止的准则是什么?
这里有一个准则,就是“主体满意的行为实效”。满意不满意?就看智能生成过程中所产生的实际状态跟目标状态之间相差有多远,相差很远就不满意,相差如果差不多了,甚至完全重合了,主体就满意了,智能行为就生成了。
(7)“优化”:如果主体对智能水平不够满意,怎么办?
由于整个过程存在很多不确定性,所以往往会存在一定误差,就要把误差作为一种新的信息,反馈到主体系统的输入端,根据误差信息学习更多的知识,从而优化智能策略,最终改善智能行为,这就是反馈、学习和优化的过程。
(8)“进化”:如果智能水平优化不了,又该怎么办?
如果无论怎么优化都不能满意,这就表明主体当初预设的目标不尽合理。这时,就要提升主体的认知,把目标设置得更合理。这样,主体在这个过程中自己也进步了。
综上可见,上述八大要素(动力,启动,路径,牵引,约束,准则,优化,进化)确实可以充分刻画:面对环境中客体信息的刺激(主体所面对的问题),主体怎样通过分析和学习生成满意解决这个问题的智能策略和智能行为。
这既是“普适性智能生成机理”的奥秘,也是一切人工智能系统工作的共性过程。在信息科学的科学范式引领下揭开了“普适性智能生成机理”的奥秘,这是本课题研究的里程碑式的进展。

进展(五):根据上述“普适性智能生成机理”的揭秘,成功构筑了“普适性智能生成机理”的基本模型
    由图1模型所导出的刻画普适性智能生成机理的“八大要素”(八个工作步骤),其实就是“生成智能”的基本过程,也是“智能生成机理”的奥秘。这是“智能生成机理”研究的重大成果和进展。
把上述“普适性智能生成机理”的奥秘具体化,就可以构筑实现智能生成机理的基本模型,实际上就是一个人工智能系统工作的标准模型,如图2所示。

file:///C:/Users/cming/AppData/Local/Temp/msohtmlclip1/01/clip_image004.jpg

         图2 实现智能生成机理的基本模型

图2的模型表明,主体跟客体相互作用,首先是客体信息作用于主体,如果这个客体信息跟主体的目的有关系,主体就会产生感知信息(也叫做语义信息)。它是主体对问题的认识。然后,把感知信息提炼成为知识。进一步,在目的牵引下和在知识支持下产生智能策略。再通过执行机构把智能策略变成智能行为,完成了主客相互作用的一个基本回合。
但是主体对客体反作用的效果怎么样呢?必须评估,如果评估满意,就成功了;如果不满意,就把这个误差信息再反馈给主体,以便补充新的知识,改善智能策略,从而改进智能行为。这样不断地优化。如果怎么优化都不满意,就要重新设定目标,主体本身就得到了提升。所以这个模型就是通过分析和学习实现智能生成机理的模型。
图2的模型表示的智能生成机理是普适性的。所谓“普适性的机理”是指:这个模型与具体的对象内容无关,什么对象都是这套规则、都是这套原理、都是这套规律;无论对于什么不同的问题,那只是信息的具体内容不同、知识的具体内容不同,策略和行为的具体内容不同而已,而生成智能的这整个机制不会改变。

进展(六):总结了智能生成机理的“知行学原理”和“信息转换与智能创生原理”
若把图2基本模型表达为更简明的文字描述,就可显示出普适性智能生成机理实质乃是“知行学原理”:

file:///C:/Users/cming/AppData/Local/Temp/msohtmlclip1/01/clip_image005.pngfile:///C:/Users/cming/AppData/Local/Temp/msohtmlclip1/01/clip_image006.pngfile:///C:/Users/cming/AppData/Local/Temp/msohtmlclip1/01/clip_image007.png                    优行
    感知      认知  知行      执行
客体信息→感知信息→知识→智能策略→智能行为→误差
    这个“知行学原理”含义就是:客体信息作为于主体,通过“感知”产生感知信息,感知信息通过“认知”生成了知识(以上就是“知”的过程,以下则进入了“行”的过程);知识在目的牵引下通过“知行(知道应当怎样行动)”生成智能策略;智能策略通过“执行”生成智能行为;如果存在误差,就把它反馈到主体的输入端,学习新的知识,优化智能策略和智能行为,称为“优行(即优化行为)”。
所以整个智能生成机制就是一个“知行”的过程。
当然从科学角度,可以把这个“知行学原理”(普适性的智能生成机理)归纳成为“信息转换与智能创生原理”,即通过信息转换(课题信息转换为感知信息,感知信息转换为知识并进而转换为智能策略和智能行为)而创生智能。所以,这个普适性的智能生成机理有两个名字,一个叫知行学原理,一个叫信息转换与智能创生原理,两个都是正确的称谓,是互相等效的称谓。
由此可以得到一个结论:信息,才是智能生成机制的真正源头。所以,人工智能的研究必须高度认识信息的源头作用。换言之,研究信息转换原理的信息科学才是人工智能的根本。不仅如此,信息,还是一切智能系统理解能力的基础和源泉。不过,这个信息不是“信息论”里面所讲的只有形式因素的信息,而是主体产生的具有“形式、内容、价值三位一体”的感知信息,后者可以用“语义信息”来代表(见本人学术专著《信息科学原理》,1988年福建教育出版社第一版,2013年北京邮电大学出版社第二至第五版)。
现有的人工智能研究只注意了纯形式的信息,完全忽视了具有形式、内容、价值三位一体的感知信息,所以不可能具有真正的“理解能力”。而且,现有人工智能的研究强调了数据,忽视了信息;事实上,数据只是信息的载体和外壳,只有携带了信息的数据才有意义,没有携带信息的数据其实就式垃圾。因此,现有人工智能系统的理解能力都很差,差就是差在对“信息”的认识没有到位。

进展(七):在“普适性的智能生成机理”这一成果基础上,在国内外首创了“通用的人工智能基础理论”
在揭秘和理解“普适性的智能生成机理”的基础上,我们首先创建了“通用的人工智能理论”。这就是由“智能生成机理”这个核心研究成果上升到了一个完整的通用的人工智能理论成果,这是一个重大的进展。
这可在本人正式发表的一系列学术论文、特别是本人的学术专著中找到详细的介绍和解释:《机器知行学原理:信息、知识、智能的转换与统一理论》(2007年科学出版社出版),《高等人工智能原理:观念、方法、模型、理论》(2014年科学出版社出版)。
    进一步的成果和进展是,以基于机制主义的“通用人工智能理论”与何华灿教授的“泛逻辑理论”和汪培庄教授的“因素空间理论”三者深度融合,形成了“智能理论-逻辑基础-数学基础”的三结合,形成了“通用人工智能的基础理论”。这个重要进展可以参看《智能系统学报》2018年第一期发表的头三篇论文及其编者按。
基于普适性智能生成机理的《通用人工智能基础理论》在国际学术界是首创,它有几个重要的创新标志:
    ①全新的科学范式:是信息科学的科学观和方法论,而不再是物质科学的科学观和方法论;
②全新的智能模型:是主体客体相互作用的信息过程,而不再仅仅是大脑的结构、大脑的功能或人的行为;
③全新的研究途径:是基于普适性的智能生成机理,而不再是基于对大脑的结构、功能或人的行为的模拟;
④全新的信息理论:是形式、内容、价值三位一体的信息理论,而不再是只有形式因素的信息理论;
⑤全新的数学基础:是“因数空间理论”,而不仅仅是概率论和集合论;
⑥全新的逻辑基础,就是“泛逻辑理论”,而不再是形式化的数理逻辑理论。
正是凭借以上这些重大的创新优势,基于普适性智能生成机理的《通用人工智能基础理论》消除了现有人工智能理论存在的几乎所有弊病,比如:
    ①现有人工智能理论最大的问题是“三驾马车”(基于结构模拟的人工神经网络、基于功能模拟的专家系统、基于行为模拟的感知动作系统)统一不起来,而基于普适性智能生长机理的《通用人工智能理论》则把它们无缝和谐地统一了;
②现有人工智能理论最不能令人满意的问题是所有系统的“理解能力”都很差,而基于普适性智能生长机理的《通用人工智能基础理论》因为解决了语义信息的生成问题,使理解能力得到了根本的解决;
③现有人工智能系统最不可接受的问题是“结果的不可解释性”,而基于普适性智能生成机理的《通用人工智能基础理论》因为有了“语义信息理论”和“泛逻辑理论”就得到了满意的解决;
④现有人工智能理论总是需要“大量的样本”才能够得到一个结论,而基于普适性智能生成机理的《通用人工智能理论》因为具有强大的理解能力就只需要小样本就可以解决问题。
⑤现有人工智能理论最大的忌讳和最大的禁区是不敢问津“人工意识”的问题,而《通用人工智能基础理论》因为解决了“普适性智能生成机理”而成功解决了基础的人工意识、人工情感和人工理智的统一生成理论。
总而言之,由于获得了“普适性智能生成机理”这个前所未有的重大创新成果,在此基础上创建的《通用人工智能基础理论》已经全面超越、大大领先于现有的人工智能理论。可以认为,“普适性智能生成机理”以及基于这个智能生成机理的《通用人工智能基础理论》的研究成果已经深深进入了世界人工智能科技前沿“无人区”的腹地。

进展(八):基于普适性智能生成机理的《通用人工智能基础理论》开始走向应用
除了上述各项理论研究的重大进展以外,“普适性智能生成机理”连同《通用人工智能基础理论》的研究也已经开始走向实际应用。
我们把“普适性智能生成机理”和《通用人工智能基础理论》的一些部分成果(如语义信息理论、信息生态方法论、泛逻辑理论、因素空间理论等)在国际学术大会上与国外同行交流,结果在西方学者中间引起很大的震动,比如,德国的学者居然把报告人钟义信尊称为“钟子”,美国俄亥俄大学的教授向报告人钟义信连连鞠了两个躬,表示从报告中得到了巨大的启发。还有像泛逻辑理论,何老师的很多学生和同事得到了许多很好的应用成果,都是普通的数理形式逻辑所不能达到的结果。汪老师的许多学生和同事在因素空间理论方面也在许多场合得到很好的应用成果,特别是在范鹏的金融系统得到了成功的应用。范鹏金融公司的业务技术负责人郑宏杰总结说:虽然只是初步的应用,就不但已经可以解放(替换)原来金融运行系统当中那些操作性人员,而且可以解放(替换)那些决策层的专家,效果非常显著。
最近我们还在努力,希望跟中商联合能源集团能够形成全面的合作,一方面是在网络上实现《通用人工智能系统》的能力,同时通过“类人机器人”来代替人类处理各种具有智商和情商的工作。
以上,就是我们在探索“普适性智能生成机理”、以及基于“普适性智能生成机理”所首创的《通用人工智能基础理论》方面所取得的主要(归纳为八个方面)进展。
总结起看来,所有这些进展都具有以下共同特点:在国际学术界“独辟蹊径、遥遥领先、意义重大”。
   
    第二部分进展的意义
   
如上所说,上述“八大进展”在国际学术界独一无二、遥遥领先、意义重大。为什么这样说呢?

意义一,在国际学术界首次解决了“智能生成机理”的普适性问题。
所谓“智能生成机理”的普适性问题,是指:所要解决的问题尽管可以各种各样,但是,生成智能的“机理不变”。这就是说,我们所发现的“智能生成机理”可以适应各种各样的问题。这就是人工智能研究中的“不变性”。
从人工智能理论的内部关系来看,现有人工智能理论所遵循的“结构主义方法”、“功能主义方法”、“行为主义模拟”所关注的都是系统能力的某个侧面,只有“机制主义”关注的是系统全局的能力。事实上,系统的结构、功能都是为系统的工作机制服务的,系统的行为则是系统机制的一个外部表现而已,所以“机制主义”方法可以和谐的、无缝的统一现有人工智能的三大流派。
这样,长期困扰人们的现有人工智能研究中的那些“个案性”、“局部性”、“孤立性”、“互不相容性”等问题就在理论上得到了满意的解决。

意义二,破解了意识、情感、理智统一生成的机理
长期以来,人工智能研究都不敢触碰人工意识的问题。但是,有了“普适性智能生成机理”的成果,我们就把人工意识的研究与人工情感和人工理智的研究统一起来了,这是因为,从最广泛的意义来说,“意识就是人类大脑对外界的反应”,包含了感知、认知、思维、理智等各种心理现象。因此,基础意识、情感、理智,都是在客体信息的作用下,在目的的牵引下,运用不同的知识所做出的反应。
具体来说,客体信息经过感知变成语义信息;在语义信息的驱动下,在目的的牵引下,基于本能知识和常识知识就可以产生基础意识的反应;基于本能常识、常识知识和经验知识就可以产生情感的反应。基于本能、常识、经验、规范知识就可以产生理智的反应。所以情感也好、理智也好、基础意识也好,生成的机理是一样的。

意义三,发现了“信息转换与智能创生定律”
物质科学有一个“质量转换与物质不灭定律”,能量科学有一个“能量转换与能量守恒定律”。我们通过智能生成机理的研究发现了“信息转换与智能创生定律”。
这样一来,物质、能量、信息三个领域的基本定律就形成了完备的体系。这在科学上的意义非常深远。
   

编辑:陈茗
253#
 楼主| 发表于 2019-10-10 23:17:03 | 只看该作者
重大科学问题《智能生成机理》研讨会

第三部分:存在问题
存在的问题很多,由于时间有限,这里只谈一点。
要把我们的理论转化成应用,面临着许许多多的困难,我们课题组还有何华灿教授、汪培庄教授,都是80岁以上的人,都是退休教授。因此,我们的学生都毕业了,没有人手了,办公场地没有了、连办公桌也没有了,经费没有了,退休以后申请项目的资格也没有了。这就是我们面临的困难。
校内的师生,因为这个课题不是“国家级”的项目,也没有经费,所以老师和学生都不敢涉足,因为老师和学生们做这个课题算不了“工分”,提职称、授学位都不能算数,所以没有人敢来做。所以,真是很难办。
校外的企业关注短期效益(这可以理解),而基础性理论成果的转化肯定需要时间做原型开发系统,这样就需要一定的时间。这样就很少有企业对此感兴趣。
政府部门也不愿意过问这种“民间项目”。我们曾经先后向教育部、科技部、工信部、发改委、基金委都做过汇报,但是因为国家没有相应的政策,哪个部门都说“很好”,但是都没有办法给以实际的支持。
所以,这么好的一个范式变革、顶层突破、全面超越、大大领先的“普适性智能生成机理”和基于这个机理的《通用人工智能基础理论》成果转化,却是寸步难行,毫无办法!
幸好这次中国科协要征集十大重大科学问题,我是因为最后一个机会,作为终审的一名评委,发现居然十大科学问题中竟然没有人工智能题目,才把这个重要科学问题提出来了,结果得到学界代表们的高度认可。所以,特别感谢科协提供了这个机会。
同时,也感谢基金委,授权我们撰写一个基金委重大项目的立项建议书“人工智能基础理论及关键技术”。要是没有科协和基金委这两个出口,这个重大科学问题就肯定被埋没了,甚至是闷死了。

    第四部分:政策建议

基于以上所汇报的重大科学问题的研究进展、重要意义和存在困难,为了更好地推进这一重大科学问题的进一步研究,使我国人工智能的研究能够兑现国务院在《新一代人工智能发展规划》的庄严承诺- “到2025年,人工智能的基础理论研究实现重大突破”,我们提出三点重要建议。

第一,自然科学基础研究要高度重视“范式变革”
智能生成机理,特别是普适性的智能生成机理,属于人工智能(和人类智能)的核心基础研究,只能在信息科学的科学范式(科学观和方法论)引领下才能成功。然而,由于历史的原因,迄今的人工智能研究一直都沿用着传统物质科学的科学范式,处在“张冠李戴”的状态。如果不在科学范式上实施变革,我相信人们再聪明、再能干,也不可能真正攻克“普适性智能生成机理”。
科学范式的变革,不是个人的好恶,而是物质科学为主导的科学体系向信息科学主导的新的科学体系转变、特别是信息科学的研究从以一般信息技术(如通信技术、计算机技术等)为标志的初级阶段向以人工智能为标志的高级阶段转变所必然要催生的变革,使历史性的变革。
建议我国政府科技主管部门高度重视,尽快出台相应的政策,引导学术界自觉地认识与实施科学范式的变革。否则,我们就很难占领信息科学高级阶段的制高点,很难掌握信息领域这个“国之重器”,就还得继续在别人后面跟踪,继续受制于人。
特别需要强调的是,由于信息科学的科学范式正好与中华文明思想精髓“整体观”(科学观)和“辩证论”(方法论)高度吻合,这就意味着,在21世纪的科学发展中,中华文明将处于驾驭的地位、引领的地位,而不是跟踪的地位。这是几百年来难得的历史性机遇。
建议国家要做出清醒的反应,制定出高瞻远瞩的科技发展政策,促使中华文明思想能够真正站在引领世界科学研究的舞台上。习主席曾经多次强调“要增强民族文化自信”,现在“科学范式变革”- 把“只顾客体,排除主体”的科学观和“分而治之,纯粹形式”的方法论,变革为“整体论”的科学观和“辨证论”的方法论 - 的历史性机遇真的已经到来了。我们的科学政策应当对此作出积极的反应。

第二,把基于“普适性智能生成机理”的《通用人工智能基础理论和关键技术》及其在国民经济各领域的应用列入国家“十四五”规划
人工智能是现代科学技术的“领头雁”,是引领当代科技革命和产业变革的战略性力量。因此,应当高度重视和扎实推进人工智能研究的发展。
在此,一方面应当把现有人工智能的成果尽快转化为现实生产力,为实体经济的发展服务。另一方面,更要有长远的眼光,高度重视人工智能研究的“科学范式变革”,积极支持人工智能的基础理论研究,并通过“范式变革”实现我国人工智能基础理论的重大突破,并在此基础上,引领世界人工智能科学技术及其应用的发展。
为了全面实现上述目标,建议把“普适性智能生成机理”列入国家自然科学基金委的重大研究计划,把基于普适性智能生成机理的《通用人工智能基础理论及其在各个领域的应用》列入到正在研究制定的国家“十四五”规划。

第三,改善“退休人员”的科技政策
建议国家高度重视“收获那些仍然活跃在学术前沿的退休人员毕其终身智慧所爆发出来的最美贡献”。
那些仍然活跃在科技前沿的退休人员,是国家最宝贵的财富:他们积累了毕生的知识和能力,在退休的条件下,能够自觉地根据国家和社会的需要,最充分地发挥自己的兴趣与特长,在科学技术前沿的无人区、在基础理论研究的最深处、在国家最希望占领的制高点,心无旁骛地做出最艰深最基础最有意义的贡献。这是一般在岗人员很难企及的。如果国家不去收获这些成果,国家就太亏了!
试想,国家把一个人培养大、把他教育出来,到他退休之前都在相当浮躁的环境之下匆匆忙忙去完成各种事务,难以沉下心来去做那些艰深冷清而又极其重要的研究,可是,等到退休以后真的做出了最精彩成果,国家却不要了。国家是不是太亏了,所以这个政策要调整、要完善。

最后,关于参考文献的简要说明
   
这里列出的参考文献肯定很不完全。这个文献简表只是想请大家了解:我们关于“智能生成机理”和“通用人工智能基础理论”的研究大体是从1978年全国科学大会前后就开始了,而不是即兴之作。
何华灿老师从计算机逻辑理论进入人工智能逻辑理论、汪培庄老师从模糊数学进入人工智能数学理论、我从信息论进入人工智能基本理论,差不多都有40多年的历史了。
非常难得的是,我们进入人工智能的研究领域之初,很快就发现了人工智能研究存在方法论的问题:信息论只研究了信息的形式,忽视了信息的内容和价值,这是“分而治之”和“纯粹形式化”的方法论导致的表面化毛病;人工智能研究分裂为人工神经网络、物理符号系统/专家系统、感知动作系统/智能机器人三个互不相容的学派,更是“分而治之”方法论造成的结果;逻辑理论局限于形式推理而且各种逻辑理论支离破碎,是“分而治之”方法论导致的结果;与人工智能相关的数学理论之间互不相关,同样是“分而治之”方法论遗留下来的结果。所以,我们从不同的背景、不同的角度却发现了同样的问题- 方法论有问题,而且追求同样的目标 - 在中华文明思想精髓“整体观和辨证论”的引领下建立通用的人工智能基础理论。这就使我们从不同的学科、不同的工作单位走到一起来了,互相默契合作,形成了现在呈现给大家的“普适性的智能生成机理”及在此基础上的《通用人工智能基础理论》。
有不对的地方特别希望大家提出各种各样的批评和问题。谢谢大家!
   
主持人(王国胤教授):
感谢钟老师精彩的报告,这个报告对智能生成机理的研究有很精深的意义。按照会议安排,下面请何华灿教授发言。
   
何华灿教授:
我主要谈为什么要推荐人工智能系统的智能生成机理。钟老师谈的很详细了,我主要讲两点,这样美好的东西有没有存在的必要性,能不能够在计算机上实现这些思想,我从自己的感受来谈谈。
    大家知道,我们整个学科的发展背景是这样的,一方面,人工智能是引导现在科技革命和产业革命战略性力量,国家非常重视,国际上也非常中重视。我国在新一代人工智能发展规划里面提到,2025年要在人工智能基础理论方面形成重大突破,这是引领世界潮流的点睛之笔,非常重要,如果我们国家不能在基础理论方面实现重大突破的话,一切所谓引领世界潮流的思想是没有基础的,因为你跟踪不可能去引领。但是眼前确实人工智能基础理论研究现状是一个最弱项,国际上主要是美国有人想搞通用基础理论,他们有这个设想,但是限于分而治之的这种方法论,他们做不到,能做到的就是拼盘,有的是用行为主义、有的是用联结主义,三大学派的东西拼在一起,互相去交流、去协调,这个实际上是没有抓住问题。而机制主义,抓住了最本质的特征,就是演化,它的智能是在演化中形成和完善的。以前的机械工具、动力工具,他们的用途、工作环境都是终身不变的,刀就是刀、茅就是茅、钟表就是钟表、发动机就是发动机,都是不变的。而智能工具不是,智能工具不仅在它生命周期里贯穿着不确定性要去验证,而且它本身的能力是在工作中不断提高、不断完善的,这是前所未有的,这样的工具是演化的,而现在分而治之丢掉的就是这个。所以说我们国家在这方面能够有重大的突破,而且是一批80岁的退休老人集他们几十年的经验,在退休的二三十年时间里他们集中精力在中华文化整体观认识的影响下,形成了这么一套理论,这套理论我们看在世界范围里是领先的,但西方学者他们走到这个里面的时候无路可走的时候,看到机制主义思想他们非常激动,激动的要给他鞠躬,因为他们看到了发展的希望,走出全局的可能性,所以这个意义是非常重大的。
    可不可以实现呢?我谈几点可实现性:
    第一,演化为核心的机制主义的普适性有没有依据怎么来实现,可以说很多理由,我说一个无可辩驳的理由,生物原形是最清楚的,当男女两个、父母两个决定造一个下一代的时候,他们是怎么开始的,是规划我这个孩子将来在哪个领域里生存,他要作为什么样的专家,我来特殊的设计,还是造一个通用的宝宝呢,做的都是通用的宝宝,这个宝宝出生以后就有一套人类自身的演化生存机制在里面,生物本身去生存去发展的本性,会使他的成长过程学习很多的生活经验、生活知识,然后学习专业知识,之后到某一个领域,然后再某一个领域里工作几十年成为这方面的专家。所以通用机制在自然界是存在的,而我们的人工智能研究到目前为止基本上忘记了这个事实,而是抓住一些具体的功能去接受专业化的设计,初期探索是可以的,但是经验积累到一定程度,我们要建立这个学科通用的理论的时候,我们不能叫每个父母去特制一个婴儿。
    另外,人和机器最大的差别,人是以算计为主、计算为辅,人更多的是在这种不确定性博弈斗争里为了求生存他要算计,那就是说毛泽东这种算计就是不按规则出牌,按小概率事件去驾驭大概率事件,而机器我们让它做的是什么呢,它有了一定的目的以后、有了一定规律以后,他去快速的计算,所以他是以计算为主、算计为辅。所以智能工具出来以后,必须人机结合,由人来驾驭,把计算的艰巨任务交给机器来完成,机器他快速进行计算,计算出来的结果看符不符合我们这个算计的需要。所以实际上人机关系是算计来加以计算。现在人工智能走反了,是以算力算法为主,以计算为主,用计算去改变我们人的算计,这个不行的。毛主席打败美国最主要的,就是算计,用小概率事件去驾驭大概率事件。
    而现在我们大数据、云计算所有的都是统计大概率事件,用大概率来牵着我们的鼻子,这个走下去是非常危险的,如果我们的对手会制造大量的假数据,形成我们一种错误的大概率的计算,会使我们陷入它的陷阱,因为现实社会不是下围棋,他的规则、输赢所有的标准都是定死,谁能够算的层次越深就能制胜,没有你算计的可能性,所谓的算计就是多看几步或者少看几步。可是现实的博弈场景是棋盘不定、规则不定,算计在这里面起了非常重要的作用。而机制主义包括因素空间,他是以一种前所未有的,就是能够模拟人或者认识主体的主观能动性,能够用主观的目的去牵引信息处理的方向,然后形成因果关系,用因果链去指导我们整个推理的序列,形成认识主体的目标、主体的需求,牵引这么一个信息处理过程,这是以前的任何数学包括概率论统计是没有这个能力的,完全是用客观牵着鼻子走。这个泛逻辑理论是我们已经把所有的逻辑它的生成规律找到了,这个泛逻辑是可以按照你的应用需要去生成你的逻辑计算,那就是我们基于这个机制提供了逻辑保证,现有的是,不同的应用用不同的逻辑,不同的逻辑计算规则不一样,你换一个应用环境,不可能建立普适的,而泛逻辑从逻辑层面保证了各种各样的需求,我给你都生成下来。
    我觉得整个机制主义的东西,从生物原型看,是客观存在的,从我们目前的理论技术准备包括数学准备、包括逻辑准备,提供了可能性,这样我们大规模的处理就能把相关的关键基础都开发出来,能够应用逻辑,形成大规模应用人工智能的这么一个情形,就像我们现在生一个孩子一样,而不是为了某一个应用去定义某一个人工智能系统,也不是完全靠不需要智能或者知识的大数据、云计算去进行无目的的数理统计,统计完了让这个大概率牵着鼻子走,让我们人类算计的谋略大大的萎缩,而计算的能力拼命的提高,确实变成一个机器的社会、机器的人,很容易被敌人所攻击,你没有任何洞察力,这个是危险的。我觉得,机制主义确实抓住了牛鼻子,而且这个是可以实现的。
    钟老师提的需求我很感动,就是说咱们国家大量的退休人员,由于条件不一样,有的只能在家养着,但是有些人精力还旺盛,我们都感觉到年轻人是职务管着我们,我们没有办法,很多感兴趣的事先放在旁边,等有空再说。我在进入到搞这个的时候没有钱,我的好多朋友和学生说你能不能把这个放下,先去搞工程争取到钱然后再来搞这个,我是正好相反,我是前面搞了大量的工程,也挣了不少钱,但是我没有精力思考这个问题只能放着。现在我可以招博士生,好多人可以利用。我想干一点这个东西的时候,但是面临着没有钱,因为我们那个时候节约的经费都要上交的,所以我的工程一结束、经费一上交就变成穷光蛋了,我现在再要回去的话,可能我这套思想的火苗就熄灭了,以后不知道谁来搞,所以那个时候很艰苦。但是退休了以后就可以来做,做的这些事情现在看来确实很有价值,因为一套逻辑系统,是逻辑生存系统需要的,包括你的云计算,空间逻辑、氛围逻辑,所有这些都可以用这个机制来生成。
   
主持人(王国胤教授):
咱们这个研讨会按照安排进入到集体讨论。
   
韩力群教授:
刚才,听了钟义信教授“智能生成机理”这个理论,我的一个体会就是,他对人工智能的研究主要意义是指导性,不像一般技术发明就是很具体这些对象,所以他是提供了一种指导思想,我觉得:第一个,是从科学观来看,智能生成机理这个理论能知道我们对整个人工智能学科的宏观认识。第二个,从方法论来看,这个智能生成机理这个理论能知道人工智能领域的研究者在研究工作中能采用真正的研究方法。第三个,从研究模型来看,智能生成机理为我们展开了一幅在正确的科学观和正确方法论指导下全局的蓝图,体现了多学科交叉,体现了整体论的思想。所以我想它最大意义在于对我们人工智能领域的研究人员提供了一个新的指导思想,对我们的作用是一种开导启迪的作用,有助于研究者修炼内功,会潜移默化的提高在科研工作当中的基本素质。所以我觉得他的这种作用恐怕很难用多少引文来考量它,主要是对思想上的启发我觉得不同的人可能学习了这样的理论之后起的作用是不一样的,因为它的感悟不一样,靠他自己去悟,这种东西很难说我在论文上直接引用哪项技术或者哪一篇论文,所以我觉得不大好用多少引文去考虑。
    智能生成机制机理亟待创建良好的生态圈。这个理论是中国人提出的人工智能的原创性的理论,充满了东方文明的智慧,再好的良种也需要肥沃的土壤、充足的阳光和雨露滋润才能壮大成长,这个土壤、阳光、雨露不是创建者自己去提供,刚刚钟教授也说了,退休以后面临很多很多问题的困惑,所以我觉得这种生态环境需要大家去创建。刚才我们也看到,智能生成机理它的蓝图当中实际上还有很多的基本概念和基本原理是需要落地的,他提出了各种基本要素之间的相互关系也需要研究相应的算法和技术去实现。这是刚才钟教授给出的一张图,我觉得这个图里每个方框给出的内容,需要具体的实践技术和方法,方框前后的入和出是怎么实现、怎么转化的,应该有大量的人来参与。刚才我看到了这张图,我觉得这里边,在这个框架下需要填补很多关键技术,这些关键技术除了刚才提到的几位老先生,像因素空间、泛逻辑学,我觉得还不足以把它支撑起来,所以这些关键技术需要人工智能领域的研究者,特别是中青年研究者尽快的加入到研究队伍当中来,就是基于智能生成机制这个理论指导的研究队伍,大家要众人拾柴,共同创建一个智能生成机理这样一个学术生态圈,大家一起发展壮大,一起培育它,我觉得这是我们现在面临的一个问题。比如说牛顿发现了三大力学定律,但是他并没有去发明各种各样的工具,因为他不是技术专家、他也不是工程师,是哪些人做的工作,但是他提出了这样的理论指导思想,所以我觉得一个好的理论要有大量的实现技术去支撑。好的技术也需要有大量的应用场景去形成这样的应用生态,像前段大家都知道华为在开发一个鸿蒙操作系统,我想技术不一定落后,但是最主要问题不像安卓和苹果那样这么多年的发展已经建立起强大的生态圈,我觉得我们人工智能领域的中青年、科技工作者有这种责任心去呵护这样的理论,共同建造这样的生态圈。
    具体建议,刚才钟教授和何教授提到的也是我想说的,我就不重复了,我觉得我们中国人特别习惯跟踪外国人创造的国际前沿,因为只要一说国际前沿,有“国际”两个字,就一定是外国人创造的,实际智能生成机制理论也是国际前沿,只是它是中国人创造的,我们总是跟在外国人创造的国际前沿修修补补、跟踪,这个已经成了一种思维定式,往往轻视或者忽略我们本国的原始创新,我觉得这里面除了崇洋思想以外,可能政策导向应该负主要责任,因为我们各个大的课题资助的时候特别强调国际如何如何,所以我们建议,也是一种强烈的呼吁,就是国家科技政策要向中国原创倾斜,给予充分的呵护。当然我们可能离国家科技政策制定层、决策层比较远,我们没有通天的渠道,但是我想我们要从自己能做的一点一滴做起,比如说智能生成机制这个理论,应该是代表中国人工智能学会或者中国人工智能学术圈提出来的这样一个理论,进入了重大理论问题。中国人工智能学会现在有两个奖,一个是吴文俊人工智能科学技术奖,还有一个是优博,副理事长王老师也在这儿,我们自己可以不可以在这两个奖当中,明确的理直气壮的为智能生成机理领域倾斜或者为它单独设奖,这是我们自己就可以做的。
    另外我也建议,中国科协有没有可能开设通用人工智能基础理论培训班或者高级研修班之类,来推介智能生成机制理论,这也是我们这个层面做应该可以做到的。
   
郭嗣宗教授:
刚才听了钟老师的报告,接到钟老师邀请来参加这个会议,这里面也思考了一下,我想简单的谈一谈对于智能生成机理研究的重大意义,以及目前面临的一些问题。
    第一个问题,我们应该从人类工业发展史上来认识人工智能技术的重要意义。我们知道,从18世纪到21世纪,整个工业的发展经历了三次重大的技术革命,一次就是瓦特的蒸汽机,一定要记住“英国”这个词,当时在英国首先掀起了“蒸汽机+”,因此英国一跃成为世界第一强国。19世纪,德国的西门子公司创造了电动技术,因此德国率先开展了电动,德国立即成为当时世界第一强国。进入到20世纪,美国为了导弹的弹道计算,设计了计算机,这个计算机很快把我们整个工业带到了智能化时代,我们整个工业由于蒸汽机把我们带到了机械化时代、电动机把人类带到了电气化时代、计算机把人类带入了智能化时代,三次工业革命之后现在第四次全世界各国都在考虑,一致认为人工智能,人工智能将把我们整个工业社会引入到智能化时代,恰恰是为了这个,我们国家政府做了很多很多的步骤,但是我们很多人没有意识到,比如说最有名的“中国制造2025”,这个国策是干什么?就是提高中国的制造水平,主要是智能制造,紧接着人工智能发展规划,还有一系列的规划,同时我们国家想利用人工智能这个技术的改革,使得我们国家也成为强国,因为那三个贡献使三个贡献者都成为世界强国,中国成为世界强国就要抓住这么一个机遇,但是我们大家也知道,这个机遇不是白给你的,特朗普首先带着来的,中美贸易战是干什么的,实际背景在哪儿?美国跟中国谈判的时候最后一句话,立即叫停“中国制造2025”,很明显的,因此这个是中国强国的必由之路。我们认为应该加强人工智能基础理论的研究,它的重大意义是什么?为了中国2025顺利实现,为了中国人工智能规划顺利实现,同时还有为了解决人工智能的瓶颈问题,后面我还要简单谈一下。
    下面我谈一下目前人工智能发展的现状和存在的问题是什么。我们知道人工智能是从1956年在美国的一个学院的会议上提出的概念,而且当时是非常兴奋,觉得类人的东西要出现了,但是经过了整整40年,到1996年的时候,经过两次一个高潮、低谷、兴奋、又衰落,今天我们是人工智能的第三次,又出来一个高潮,大家又很兴奋,因为看到很多成果很兴奋,但是我很忧虑,第三次低谷一定会出现,为什么说第三次低谷一定会出现呢?恰恰因为我们对前两次高潮低谷的总结,他认为人工智能发展瓶颈是什么,为什么不像一开始我们那么兴奋,我们的期待主要是两件事。第一,硬件。就是由于计算机的计算速度和它存储能力达不到对人工智能的描述,这是核心。第二,算法,软件达不到。恰好是这些年来,到1996年,到90年代末、20世纪初,我们恰好在计算机的运算能力和性能上得到了极大的提高,甚至我们包括了云中心、云计算和计算机的速度,因此,我们发展的速度复苏,这种复苏同时还包括深度学习算法,出现很多的成果,大家都知道AlphaGo、索非亚、刷脸技术、科大讯飞的云翻译、云汽车,大家都很兴奋,觉得类人的技术离我们并不远了。我认为将来第三次人工智能如果进入低潮的话,因为人工智能是需要成本和效率的,将来我就是为了提高机器的效率不断的提高计算机的成本,让计算机如何如何的提高速度,但是计算机的速度现在已经快到瓶颈了,怎么办?大型的、并行的云中心,一个云中心需要多少,金院士也来了,原来在他们中心搞云存,几亿、几十亿的投入,非常大,靠这么大的投入去做人工智能值得不值得,不如一个月在我们地区给1500元就能干活了,为什么去做这个?我想提问这件事,按现在的人工智能发展路线,难道不能出现第三次低谷吗?第二,现今天的路线能实现真正的类人吗、就是智能吗?
    我们可以预见到,未来人工智能的瓶颈一定是成本和效率问题,今天的计算机很难实现真正的人工智能。
    第三个问题,人工智能的发展瓶颈是怎么去破的。我记得我看过汪老师1988年搞的推理机制的时候,钱学森先生接见你们的时候有个讲话,我们50年代抓两弹是为了抓住我们的国力,他说21世纪不是两弹的竞争,他说叫机器智能,机器智能就是人工智能,他说这个是国际上的竞争,然后他紧接着有那么一句话,他说50年代我们搞两弹,是先有理论、后有实践,我们现在最头疼的是,未来的机器智能我们没有理论,钱老已经看到了,很多已经意识到人工智能的最大问题,没有理论。人工智能所取得的这么多成绩都是人工智能的技术发展,而这种技术发展就继承原来我们处理物理问题和其他问题的数学方法和数学逻辑所完成的。目前人工智能研究,尽管我们出现了这么多的成绩,但是我觉得一个问题,重技术、轻理论。
    二,现在所用的技术和方法论来说,只不过是工程学方法为主,即使在学习算法上我也看,因为我是搞数学的,也看,比如我们今天提出的深度学习对于我们人工智能的确发展起了很大作用,但是深度学习,不说别的,我来识别一个东西卷积神经网络,我一直在想,我脑子里有网络,但是没有这个卷积,就是说我们现在所做的只是工程的模拟,而已跟人的智能差距很大,根本不是那么回事。未来要解决人工智能的成本问题、效率问题,唯一的一个办法是要深入的去研究智能行为究竟怎么产生的,我就很感兴趣钟老师这个人工智能的生成机理。刚才那位老师谈到,说我们这个是什么指导的,我不同意这个意见,工具,你总不能说微积分是对物理科学的指导和启发,不是,就一个工具。现在为什么说是工具呢?因为根据三个老先生,一,我们需要基于信息论的知识的生成过程,它的原理要搞清楚,知识最原本的东西是推理,推理需要逻辑,整个逻辑还有数学基础,恰好是三种放在一起,不是说给人一个启发,我们重点是三位老先生还是人工智能创造全新的途径,我认为是这么一个工作。
    我还想谈这样一件事,今天我们利用计算机来实现了人工智能,未来的人工智能利用今天的计算机能实现吗?我的结论是不可能,为什么我的结论不可能?因为谈到今天的计算机,很多人都认为计算机的两个最大贡献,一个是图灵、一个是冯诺伊曼,但是我认为图灵、冯诺伊曼主要在计算机技术上,而计算机的生成基础原理应该是莱布尼茨,莱布尼茨应该是数学逻辑的创始人,还有一个很重要的康德,近代集合论的创始人,集合论是什么?他并不简简单单是数学方法,是最重要的思维方法,而恰好就在这个出现了毛病,因为基础知识是莱布尼茨的数理逻辑和康德的集合论,因而才产生了布尔代数,才有了后来的图灵的工作,康德的集合论创造之初就受到了很多人的攻击,特别是维尔斯特拉斯对他也产生了攻击,还有罗素的理论,后来我们发现的确是集合论的思想,而且他的这种思想是今天计算机所依赖的理论。现在有什么问题呢?我们说当时罗素提出来的悖论,实际根本推翻了两件事,一个是证明过程可以用反正法吗?不能,二证明的过程可以用数学归纳法吗?不能,他说这是人真正认识,人的认识问题不能用反证法,也不能用纯粹的数学归纳法,这恰好就是康德集合论出现的东西,我们回避了,但是人的思维是不能回避这些东西的,就是在今天的计算机基础上实现所谓类人是不可能的,这里都需要我们的基础理论要重建,要重构基础理论,我很赞成三位先生的工具,要重构这个理论。
    下面我想提这么几个建议,时间关系简单说:
    一,要提高对基础研究的认识,把它纳入到国家战略。
    二,一定要走中国的道路,为什么走中国的道路?因为刚才何老师说了,人工智能主要不是计算,而是算计,计算是物理科学重点是计算,人是算计,但是他俩对象不一样,计算的对象是数,算计的对象是概念,一定要创出中国全新的东西。一定要多学科联合,除了我们搞信息科学的、数学的、逻辑的,还需要思维科学的、脑神经科学的、化学的、行为学的,一定要多学科进行联合。另一个,一定要走老中青相结合的道路,为什么?因为我们今天要构建、重构人工智能的基础理论,要运用到更高、更深的智慧的结合。最后,理论与实践一定要并行发展,为什么?因为一定要按照毛主席说的实践—认识—再实践—再认识,要符合这个规律。
   
陆汝钤院士(张松懋研究员宣读):
我是中科院数学所的,我是代表陆院士来发言的,陆老师专门写了发言稿,他做了这个PPT,所以我来给大家念一下陆老师的发言。
    为了考察智能生成机理,陆老师写这个是泛泛的题目,并不是针对钟老师的这个机理专门来讲的,他是从这个词源深说的。首先,要明确什么是智能,这个问题现在好像还没有一个为专家们普遍接受的说法。这是首先要明确的,什么叫智能。
    第二个要明确的,说的是人的智能还是机器的智能,甚至有可能是人类以外的生命体的智能。我们先从人的智能说起。
    人生来就是有智能的吗?我们想到的第一个回答可能是否定的,试想如果我们把新生婴儿封闭起来,只是给吃给喝,没有语言交流、没有声光电各种外界刺激,婴儿长大以后可能是一个白痴。我们说人有智能的意思是正常人天生具有通过学习获取智能和应用智能的器官,如果大脑受到严重伤害,或者负没有任何信息来训练大脑,大脑就不会体现智能,根据这个思路我们可以认为,每个人类生命个体的只能是该个体在后天通过不断学习得来的。
    只有人类才能有智能吗?我们的观点是否定的,可以从两个方面来考察。首先从人的定义来说,恩格斯曾经把制造工具作为从猿到人的关键一步,现代的人类学家经过研究后认为,如果要画一条界限的话,真正的人类出现的应该是从直立人开始的,因为之前已经会制造工具了,因为是直立,所以脑容量迅速扩大,一般1千毫升以上,给智能的产生发展提供了物质基础。另外,我们从动物的观察中也可以看出许多动物是有智能的,比如像狮虎狼等等猛兽,在捕食过程中的潜伏、围猎等行为都可以体现智能。
    智能是在过程当中某一点突然爆发的吗?根据情况研究不是这样的,智能和大脑的结构、容量是密切相关的,但从容量来说,从脑容量约500毫升、经过直立人1000毫升,到现在的1500毫升,几乎可以刻画人类发展的过程,所以我们可以认为人类获取和应用智能的能力是通过不断进化逐步提高的。
    大脑是产生智能的唯一器官吗?好像不是,文献中报道的著名仿声大狗,能够在复杂地形上负重快跑,对身体平衡的掌控模拟了人类小脑的功能,在更广的意义上人类的脑是复杂的结构,各个部门各司其职,例如脑干要负起维持人所在生命多种重要责任,还有许多条件反射和无条件反射,如果用人工智能技术构造一个人工生命,对于脑干功能的模拟是必不可少的,这里我们想起了布鲁克斯主张的没有表示的智能,他凭次获得了国际人工智能大会的国际思维奖,这个观念看不仅大脑,而且整个脑子都能产生并体现人类的智能,可能包含一些高等动物的智能。
    现在这个问题就来了,一个生物的生命活动中有许多自调节的现象,如果把这些生命现象都说成是智能的话,是不是把智能的范围不适当的扩大了。例如,当有细菌或者病毒入侵人体时,我们的免疫系统会动员起来抵抗入侵者,难道这样的生命机制也算智能吗,我们认为是不算的,因为这些完全是人的机体的自发行为。
    总结以上讨论,我们把脑子,无论脑子哪一部分控制和调节生命体的行为看作是高级生命系统的智能行为。
    是上我们对人类的智能发生机制的讨论。
    关于计算机的智能,计算智能、机器智能,我们认为可以有两个层次的含义。最能为大家接受的一种说法是凡是需要计算机来模拟人的大脑思维去做的事情就是智能,比如说计算机做计算、做文学的解读、做推理写文章、作曲、绘画等等都属于这个范畴,图灵1950年提出著名的图灵测试也属于这个范畴,从窄一点来说,可以认为计算机能够进行创造性思维才是智能的,计算机做一些固定的有规律的计算,并不需要聪明才智,比如说求解一个线性方程组,我们对创造性思维的理解是,在不完全信息和没有先验支持的条件下,计算机还能适当运用已有的知识和有限的信息,以应付不分明环境和新的问题,这样才算是智能。
    至于前面提到的人类大脑以外的脑部件体现的功能,一般是不能仅仅通过计算机来实现的,例如对于物理力的测量,声音和光电信号的接收和转换等,必须另加设备,严格地讲,他们就不是计算机智能的一部分了,尽管大家常常把各种外部设备提供的功能也算成是机器智能,但是我们觉得它不应该属于今天讨论的范围。
    当然这个机器智能的发生机理还可以细分,老一辈的智能生成机理大师认为这个智能产生于逻辑推理,比较典型的代表包括Newell和Simon物理符号的假设,这个学派的学者也被称为符号的智能学派。还有一些大师认为机器智能产生于计算,这里里程碑的工作包括神经网络、遗传算法、软计算,以及近些年来崛起的深度计算,这一派是计算智能学派。第三种观点来自于Feigenbaum的知识工程,他曾经宣称足够多的知识就可以形成智能。他的具体设想是,用10年的时间构建海量的知识库,使他能够回答涉及人类知识的一大部分的问题,先用10年时间建立,然后再用10年来扩大海量知识库,使他能够回答他所不知道的问题,再用第三个10年来改进海量知识库,使它能够自己创造知识,从而达到智能化的程度。我们觉得这些主张都是有道理的,但是都不够全面,可以看作是互补的。还有第四种观点,全名为钟老师这边提出来的,以信息观、系统观、机制观三位一体的机制主义的人工智能。信息观体现了只能是从信息转换而来的,系统观体现了信息转换的全面性和系统性,而机制观体现了智能生成机制的重要性,还有一些其他智能发生的观点,我们是主张通过大家熟知的百家争鸣、百花齐放这样的机制来辨明真理,我们相信实践是检验真理的唯一标准。
    谢谢大家,这是陆老师的发言。
   
金智新院士:
首先向钟老师、何老师、汪老师致敬,也向三位老先生学习,听了今天的报告,报告的内容非常精彩,也很受启发。报告的视角非常独特,从普适的这样一个概念出发,普适的一些东西一定为人类做贡献,最后钟老师的这些建议我想也都非常实在、非常中肯,今后有这样的机会一定会把我们国家的这些老先生他们所从事的专业面临的一些困境、一些问题有机会反映。
    我本人是学煤炭采矿的,非常有幸两年参加了中国科协重大科学问题和工程难题的终审会议,当然我搞矿业的,因为对矿业了解,所以就为矿业两年争取了两个项目,一个是矿山的重大安全问题,一个是千米竖井施工装备的一些难题,千米竖井大家都知道,多少川藏铁路目前已经开工了一部分,但是有很多生态脆弱地区施工条件连工业场地都没有,如果工业场地太大,要打很多的山路上去,应该说对生态脆弱地区环境破坏非常大。
    人工智能确实我说不了太多的东西,但是我想从我这个行业说说我们人工智能现在的发展。煤炭行业大家都知道,是我们国家的主要能源,就是这几年大家对它的责难也好,大家觉得它对环境带来很大影响,这也都是现实,但是它无论如何目前在中国一次能源消费中的比例还占到了59%,当然和世界的27%比重确实是很高了,这几年新能源发展很快,我们煤炭企业的数量由改革开放最高潮的时候8万多煤矿,到现在只有6千座,这6千座当前正在干什么呢?智能采矿,这个可以说是我们整个煤炭行业目前非常火的一个东西。但是怎么智能?怎么弄?很模糊,包括5G在煤矿用,大家也可能赶这个时髦,因为在地面上还没有用,在煤炭上要用,特别马上由于井下使用防爆的要求都提出了更新的一些挑战。在智能方面大家都是这样一个具体的问题来说,我觉得今天听了钟老师的讲话,对煤炭的智能发展非常有帮助,今后我还得好好的把它消化消化。
    作为高校里边可能这些思想、这些理念应该很有意义,特别是当前的高校在紧锣密鼓的学科建设当中,无论是中期的评估,还是下一步验收,我觉得作为把老学科进行一些调整,这个新的学科智能方面应该说各行各业确实都非常需要,能把这些理念、想法融入多具体的应用当中的,将极大的促进生产力的发展,例如有人巡检、无人操作,这是我们对智能提出了要求,因为他这个矿业类的,如果把智能上去,经验的学习非常重要,同时又不允许失误,他这个一失误可能涉及到人命关天的事。同时,也应该在这个学科当中的学习当中我想是有一个贯通的学习,可能光光本科大概学这些有些费劲,因为很多思想还要和哲学的一些东西结合起来,这个就提出了更高的一个要求,我想这个难度应该说也比较大。
    这是我的一点体会。谢谢大家!
   
吴国政处长(基金委信息科学部三处):
受张主任委托参加这个会,学习了很多东西,今天早上看到以钟老师为首做的报告,很受启发。基金委也收到了钟老师的建议,我们还是非常关注这块的,特别是人工智能这块,做这个概括也是希望突出这块,希望在这个上面有大的创新,今天的报告提到通用人工智能,也关注到,但是现在整体感觉到难度很大,不管从基础理论的突破、从范式的概括,我们现在还没有找到着重点解决通用人工智能,您刚刚提到的方向我觉得还是很好的。
    第二,我代表我们处针对钟老师这个题目说说,不一定对,我不是搞人工智能应用的,现在整个人工智能基础研究方面,我们当时也分了一下类,应用基础研究,真正的通用或者原始基础性的人工智能技术很少,现在我们也希望在这方面做出贡献。我不太懂,所以还是请教几个问题:
    第一个,刚才钟老师在报告当中提到的物质信息,我现在有点困惑在哪儿呢,我觉得物质科学、信息科学,实际上也是包含着物质,很难说这两个学科有一种对立的关系,因为信息里面还有很多物质,包括电子、通信流、信号,我确实是外行,不一定对,基础来说我觉得把这两个分开来讲,通过这个达到信息科学这块,但是物质科学我觉得信息科学绝大部分是有重合的。
    第二个,知行合一和我们这个是有异曲同工之妙的,如果在重大项目申请,如果提出这个观点的话需要更进一步对它内涵和外延进行科学的解释,因为我们现在还达不到基金资助这个层面,更多的是在数学原理这块,把这块内涵外延钟老师再解释解释。
    第三个,我还是觉得咱们这个研究,刚刚听也提到了困难,但是再困难我估计最后如果他作为一个项目立项需要有验证,这个验证再困难都得做,我特别感兴趣的您刚刚说的,我也查了一下,这块怎么把智能生成机理应用的工业大数据,我觉得再难需要有一些延伸性的东西。
    最后,您的立项我们也看到了,可能最大的是咱们三位老师的年龄,如果三位这个项目真的能立住,真的去申报,一个是以单位,第二,从我们现在的创新群体限制是55岁,不光我们基金委,整个科技的用人和和团队来说,政策又得改变,我们可以慢慢在来,第一步我们也是进入这个过程当中,我们现在整个评审是透明的,咱们随时交流。
    刚刚提的建议很幼稚,因为我不是搞这个的,不是特别懂,仅供参考。
   
钟义信教授:
吴处长刚刚提的几个问题带有普遍性,不光是您个人的看法。物质科学跟信息科学的关系,所有信息系统都要有物质、都要有能量,没有物质连形体都没有,信息科学系统就不存在,没有能量,信息的过程不可能进行,所以物质科学跟信息科学并不是一刀两断谁也不管谁,但是在所有的信息系统中它的物质、它的能量都是为了支持信息科学系统的信息过程,而不是关注它的物质过程,物质是支持信息过程的,所以信息科学跟物质科学有关系。但是当我们研究理论的时候,信息科学问题会把信息作为它的基本研究对象,这并不意味着信息科学不要物质、不要能量了,科学界都有共识,没有问题,不存在这两个东西你没有我、我没有你,只是说研究信息科学的时候不能只是关注物质,而不关注它的信息过程,信息过程是命脉、是它的主导,也就是说信息流来指挥物质流和能量流,物质流和能量流是支持信息流的,所以一定要把信息作为主要研究对象。所以,他们之间有联系,但是又有重大区别。
    第二,我们也经常碰到这么一个问题:研究自然科学为什么要把哲学问题拿进来?这个就是“分而治之”的方法论造成的世界性的影响,把哲学和自然科学截然分开,自然科学的发展就会受到影响。如果总在下面这些层次去做,就永远也达不到整体的把握。为什么近年提倡交叉科学?就是因为“分而治之”方法论把原来的科学分成很多很多分支,把他们之间的联系割断,现在“交叉科学”就要恢复这些学科之间的联系,包括哲学和自然科学的联系,没有这个联系就会陷入局部,因为哲学和自然科学并不是一刀两断没有关系的,科学最深刻的东西就在哲学,哲学要应用的东西都在科学,这两个是不可分割的,但是以前为了研究的方便把它分成门门类类,这个正是现在提倡交叉科学的原因,为了减少这样一种副作用,恢复学术问题的内在联系,所以自然科学一定要有科学观、方法论的问题,不能够把它们去掉。我注意到有一个报道,不知道是基金委整体的方针还是能源科学部的方针,它说:评价科学基本成就的时候,一定要看它有没有涉及方法论。我认为这个方针很好,所以我给陆建华副主任写了一封信,我说这是巨大的进步,不是小进步。很多人都因为自然科学和哲学一定要分清,所以都不涉及科学观、方法论的问题,于是思考的层次都比较低,这样很难从根本上实现突破。所以刚才吴处长提到的问题特别重要,而且也有特别的普遍性,所以我想说说我们的的观点,供大家批评。
最后一点,老年人对国家科学贡献的问题。目前,国家执行的退休人员政策有毛病。国家已很大的投入把人们从小学、中学、大学,一步步成长起来,这个过程当中他都在成长,当然也再作贡献。但是,到退休了,国家就不管他们的贡献了。国家在这里很吃亏。有人问:钟义信为什么你最近有那么多成果?我说很简单,因为我退休了,所以我能有重大成果,如果我没退休,为了应付那些管理要求,我就没时间去做很基础的研究。所以,现行的年龄政策太形而上学,而且国家的损失真正是太大了。那些仍然很活跃的这样一些人,他有非常精彩的成果,国家没有政策去支持他们,这些成果就丢掉了、埋没了,跟这些人一起进入棺材里了,这些如果不改变,国家的损失巨大的。尤其是基础理论自然科学基金,基础理论这个领域青年人、中年人要应付这些管理的要求,哪里能够坐得下来、沉下来去研究这些最基础的东西,研究科学观、研究方法论、研究生成机理,基本上不可能。而能够研究这些的人都退休了,退休了的人研究出来的这些精彩结果,国家又都不要了,这个国家的政策不改善真的损失太大!

何华灿教授:
关于自然科学和哲学的关系,我们可能受到一些思维定式的影响,实际是不对的。我举个例子,我们讨论一个家庭两个小孩之间的关系的时候,就不牵扯到家庭与家庭的关系,但是要讨论孩子婚姻的时候,就牵扯到两个家庭之间的关系,我们在讨论中国公民的管理的时候会牵扯到外国,但是也有外宾来了,在我们国家认祖或者跨国婚姻的时候,自然科学和社会科学都是跟哲学有关的,但是一般的讨论自然科学问题不涉及到这些,但是我们涉及到科学观、方法论要转变的时候,虽然都是研究自然科学,必须从哲学的高度来。所以说,管住我们的高层。不涉及到高层我们就上不去。我跟我的博士生,遇到大量的脱离传统的思维,找新的方法的时候,或者我们大家都有一个共同的感受,首先要从哲学,从观点上突破,一旦突破了以后就好做了。我们在辩证的层面思考问题的时候,任何问题都是对立统一的,这样才能实现,所以从哲学的角度看辩证思维的时候,离不开真假同体、对立统一,这个思想一打开,别人该怎么骂骂去、我们该怎么做做去,所以才有今天泛逻辑大一统,把所有逻辑规律包含在一个统一的体系里边去。我觉得真正到了原始创新,必须涉及到科学观和方法论的层面。

钟义信教授
对,不考虑科学观、方法论的创新都不是真正根本上的原创,都是局部的创新。
   
王万森教授:
第一个,刚刚吴处长提到的,包括钟老师的研究,是不是结合找些数据来验证验证,我觉得作为基金的资助应该分两个方面,一个就是原创性基础的这种研究未必一定能去找到数据去验证。我觉得这个观念是错误的,我觉得是不对的,就是在基金方面我自己也吃过这个苦头,我曾经报过泛逻辑方面的课题,包括国家基金和北京市基金,后来有人给我透露,我觉得这是咱们国家基金资助方面的一个悲剧,不应该这么做,要容忍创新、要鼓励创新、要容忍失败,这是基金最基本的原则,如果任何基础和原创性的研究都得拿数据去验证的话,我认为这个不是真正的原创,不是真正的创新方面的研究。
    第二个,钟老师提出的国家创新人员如何提出他的应用为国家科技进步做点贡献,这是非常有道理的。年轻人正在创新活力时期,不容忽视,应该是国家在科技创新方面的一个主力军。一个退休的人,在没有工作压力的情况下去思考一些基础性的问题,我觉得对国家是更有益处的。大家都忙于工作、忙于完成任务、忙于完成指标,谁有精力做太多的创新的原始方面的研究,我至少我觉得我见到很少有,就是为了完成指标,我多少SCI、我多少项目、我多少经费,考核的就是这个东西,如果没有这些东西我就没法生存,我饭碗就没有了。我觉得钟老师这个想法非常重要,确实值得我们国家在研究方面、政策方面引起一些关注。
    我自己就有一个很简单的例子,当然我这个不算什么,现在人工智能教育这么热,做人工智能教育的有多少?可能千千万万,真正思考人工智能教育的有多少?最近科技日报对我有一个采访,问答式的,我把我的观点谈了以后,4月4日他们在科技日报登了,登了以后当天就有转载,我是一个退休人员退了几年了,但是我对这个问题的思考,我觉得至少他转载了我觉得他是认可的,我觉得对退休人员的这种余热的发挥或者研究方面的政策,确实是需要认真思考的一个问题。
   
李衍达院士(胡涛转达):
大家好!我叫胡涛,我目前还是清华大学自动化系的博士生,但是我今天是作为李衍达院士的代表人,因为李衍达在学校有一个报告,他今天委托我过来传达一下他对于智能生成机理的思考。
    作为我个人来说,我个人来到这儿更多的是抱着学习的态度过来的,确实听完钟教授精彩的报告我也学习到了很多东西。对于我来说最感动的有两点。第一个,钟老师再度向我们表达了方法论对于科学研究的重要性。在我的博士前几年中间我可能更加关注如何解决一个具体问题,比如通过编程、通过算法这样一些具体的措施去解决某一个具体的问题,但是往往就会忽略了方法论上面的重视,这个对于我来说也是一个警醒。第二个,钟老师在他这个年龄还具有这种不服老的精彩,能够身体力行、知行合一奋斗在科研前沿第一线对我是很好的鞭策。
    接下来我就简单的传达李衍达原始关于智能生成机理的两个简单的思考。
    虽然李老师跟钟老师的研究方向可能不太一样,但是我们会发现,大师们对一个问题思考的时候,他们在本质上都能够挖掘到本质上最重要的东西,从而能够找到一致的内容,李老师讲的这两点东西其实跟钟老师今天跟我们讲的很多东西本质上都是相同的,但是李老师在他准备这个稿子之前肯定是并不太清楚知道钟老师今天要讲什么内容的,但是我们会发现,他们内部具有惊人的一致性。
    首先,李老师第一个观点认为,智能中间智能生成的机制很重要。李老师认为人的智能最大的特点是具备概念,概念能够让人认识到各种各样的事物,并且在事物中形成迁移,这种迁移辅助人们认识新的事物,对于智能系统而言我们如何产生这种概念,李老师的观点是要把智能系统和复杂系统联系理解,复杂的根本特征是涌现,一个复杂系统拥有多个单元组成,当这些基本单元存在相互作用的时候就可能产生新的结构或者是新的属性,比如说在礼堂中每个人鼓掌可能不会产生很大的效果,但是如果我们有很多杂乱的掌声汇聚在一起,就可能形成共鸣,这种共鸣就可能产生一种非常巨大的后果,比如说对建筑造成破坏等等,这就是复杂系统涌现的体现。
    对于人的智能而言,我们的概念就可能产生于涌现,而涌现可能由人对事物的分布式认知而产生的,比如说我们认识马的时候就是由各种各样的概念形成的,各种概念共同作用的时候就能够让我们分辨这个是马而非其他动物,同时这种分布式的概念还具有一定的关联性,正是所有有关联的部分同时进行发射脉冲,从而产生系统的共频,形了一种涌现,这种涌现是新出现的,反映出了各个部分脉冲的某种共性,但又与组成部分的分布式脉冲不同,就像是某个主体各种分布式感知的一个整合,这个整合是所有感知联合起来形成一个整体,这个整体是我们概念产生的一种机制。这是李老师的一个观点,这种观点在今年我们自动化系在Nature上发布的文章,就是利用分布式的刺激模拟人的类脑进行无人的自行车的控制,当时没有明确的工作,其实这个也是验证了李老师在智能系统上的一个思考。
    李老师认为,人的智能本身就是复杂程度极其高、自组织特性非常高的复杂系统,所以我们要研究人工智能还需要回到复杂系统中间去寻找一个思路。李老师提出这样一个观点也是基于李老师本身的研究方向,因为李老师本身是基于信息科学以及控制科学,所以我们可能平时更关注的是复杂系统中间是怎么样进行优化和控制的。
    第二个,李老师认为,智能应当具备自主决策的能力。我们一直期望人工智能能够具有人一样的能力,人最大的能力就是具有意识,从而能够进行自主决策,我们之前做了很多工作,让机器已经初步具备了学习的能力,现在的人工智能系统已经能够基于已有的数据或者已有的知识进行学习,并初步具有决策的能力,但是目前人工智能系统只是对已有的刺激进行学习,这样产生的是被动的条件性的系统,我们脱离与训练时相同的环境或者面临与之相同工具、不同统计规律的数据的时候,这个时候就不能很好的工作了。对于人的智能来说学习能力之上,我们最大的特点之一就是进行不断的进化,我们基于学习的只是在新的场景同样具备决策能力,所以未来的智能生成系统应当具备自主决策能力,从而在环境的不断刺激下,为适应环境的变化开发出自主决策的机制进行自主决策,李老师提到的闭环跟之前钟老师报告中研究成果中讲到的闭环本质上是一致的。
    我要转达的主要就是这些内容。谢谢大家!
   
魏英杰编审:
各位领导专家好!我来自科学出版社,非常荣幸参加今天的会议。在我们日常生活中平时遇到的都是国际最顶尖的专家和学术著作,我明显的感觉这些著作都缺乏战略的高度,算法的优化、模型的展现非常多,缺少大师之作。今天收获很多,钟老师、何老师是从战略高度去思考了方法论和解决的措施,这是非常艰巨的一个问题。刚开始听的时候我的感觉就是,怎么从一个定性的问题找定量,这可能是一个跨越,但是后面听到了一些实践和应用,我觉得非常非常的惊奇,期望将来可以和咱们的专家一同把人工智能往下推动,出版社也在这方面做了很多工作,今年5月份我们在清华大学召开了编委会,邀请了李衍达院士、钟老师、何老师、陆院士等十多位院士、二十多位国内的著名学家,拟计划共同组织出版一套人工智能理论和应用的丛书,目标服务于国家战略规划,促进我们国家原创性的和国家急需要的重大成果的出版,也希望将来可以和各位专家一同促进我们国家人工智能的发展。
    谢谢大家!
   
陈月辉教授:
各位领导,各位专家好!我来自济南大学人工智能研究院,我本身是学控制论的,钟老师是搞信息论的,人工智能目前世界范围非常热,但是真正理论突破在世界上是没有的,但是我想钟老师、汪老师、何老师他们三位老先生提的这个东西绝对是一个原始性的创新。
大家知道,智能很复杂,涉及到我们大脑的方方面面,比如说我们讲神经科学、大脑科学,大脑科学在宏观层面上我们了解的比较多,比如说我们大脑的区域指挥哪一部分的活动,在微观层面上,也了解的相对比较清楚了,从神经元、神经细胞这个角度,但是在中观层面我们不清楚,不清楚的主要原因是因为我们的一些重要的仪器设备还没有。比如说我们在做事、我们在解一个数学问题的时候,大脑是如何活动的,各个神经元是怎么连接的,这个层面没有观察手段,所以这块我们是不清楚的。比如生物科学,生物科学现在是按照西方的做法,就是还原论的方法,不停的把大的东西看的越来越细,我们现在研究的,从分子细胞这个角度研究了很多很多,包括基因测序,这些都有了,来了很多的数据,有了这些数据之后这个生命的机制是怎么产生的,到现在搞不清楚。所以说21世纪两个最大的世界难题,一个大脑的运行机制问题,一个是生命的产生机制问题,这些机制按照西方的那种还原主义的做法我认为是行不通的,所以必须用一个系统科学论的观点、一个整体论的观点来做,而三位老先生做的事情正是走了系统论的方法去做了我们人工智能创新,这个我觉得是非常重要的,所以应该是咱们的科技部也好、基金委也好、中国科协一定要大力支持咱们项目。我们在济南大学成立了一个人工智能研究院,钟院士给了我们很多的指导,我们在山东这个地盘上这套东西能得到山东省政府、济南市政府的支持,包括给房子、给经费我们做到了,另外还需要国家重点推动。这套理论非常好,但是下一步我们把这套理论要具体化,做验证系统,要在各行各业进行推广,这块我们一定要组织人力去做,理论、算法、技术怎么去突破、怎么去创新,这块我们有一个团队,准备下一步大力去推进这个事,有当地政府的支持,我想我们能在这方面做出重要的成绩。
   
董奇校长(李小俚代表)
非常感谢钟老师提供这个学习的机会,汪老师,我硕士生的时候就是做模糊数学的,因为董奇校长刚刚出国学习回来没有时间来,委托我来,但是我们北师大就在我们隔壁,我们脑科学里边有一个重要的的任务要去找智能生成机制是什么,我们找的方法比较传统,用动物试验、用人的试验。因为我也不是特别懂这个东西,我们提两个同意的观点、给两个建议。
    两个同意:
    第一个,我觉得智能的研究还处于试飞的阶段,像莱特兄弟试飞机的阶段,真正的空气动力学理论是不是存在,也是我们在脑科学理论里面描述现象困惑的一点。
    第二个,你提出很重要的观点 -范式,范式对于我们搞信息科学和脑科学非常重要,因为在什么样的认知,范式对我们来说就是认知任务,在什么样的认知任务的条件下大脑是怎么去处理这个信息、怎么样的行为,包括它的注意力,包括它的记忆力,包括它的情绪的应急的反应等等一系列问题,所以我觉得范式的观点还是非常重要的,作为一个系统,如果你没有一个刺激的源头,你很难看到后面的通路,这个也是不能说老是静态的观点。
    两个建议:
    第一个,要研究智能科学的话肯定离不开脑科学的,我们脑科学目前的困惑,我们只能提供一些局部的数据和局部的规律,仅仅是局部的数据我觉得对我们理解智能也是非常重要的支撑点,因为只能是人说的智能,而不是外星人说的智能,还要回到我们人身上来。
    第二个,我们在研究智能的时候,尤其在我们实验室时常会碰到一个现象,就是两组打起来了,一组是研究人脑的,有一组是研究猴脑的,这样就带来一个问题,人脑跟猴脑智能本质上的差异在哪里、有多大的差异,从基因上来讲,从神经元的动力学的个性上来讲,神经网络描述的现象来讲,好像很接近,但是猴脑对于人脑智能的差异性也就不用去争论了,这是没有什么可争论的,所以智能上描述的一个是质和量上的考量,怎么样把质上的东西和量上的东西,我们现在强调更多的是量,但是智能里面有一个最重要的问题没解决掉,就是我们也是脑科学计划里面提出的很重要的观点就是说,像物理学里面讲力,有牛顿的一个量化的标准,光有频率、波长,热有温度,我们智能现在没有一个单位,我们单位是所谓的标准,在这样的范式下猜1000个人统计出来这么一个数据,总是相对的,没有一个绝对的物理量,所以每次报告像精神科大夫看病一样,也会看错,为什么看错,说给他一个行为量表的东西变了,可能就把不是疯的看成疯的,也可能把疯的看成不疯的,它总是在变。我们最终的一个问题就是说,如果我们没有理论的体系做支撑,形成我们一个大家都认可的相对绝对的一个物理量,就是相对一个量的东西去描述这些智能的时候,我们后面就很难走。
    这是我的两个建议。
   
陈志成博士:
我概括讲第几点:
    第一点,大家在座的所有老师都应该知道国务院人工智能发展规划的文件,里面有很多内容,但是第一个大的内容,就是讲人工智能基础理论,基础理论当中也列了七八条,我们下来仔细学习、研究分析列了七八条,到底是些什么内容,人工智能基础理论到底是个什么基础理论,我学习了很长时间、看了很多遍,我们认为它在领域当中,各个领域当中它是基础的,但是是不是人工智能通用的基础理论?这个我们现在不好说。人工智能通用基础理论应该是具备一些特性的,就是说统一性、普适性或者是奠基性的工作,我们讲计算机二进制是我们的基础,数理逻辑是我们计算机里面最基础的,我们人工智能现在有没有从二进制、三进制或者泛逻辑这些角度考虑,我想我们国家战略当中从这方面是要多关注,包括知识表示、数据分析,这点上我们今天钟老师、何老师、汪老师他们这种体系可能是更加符合基础概念的,有一定通用性的特征。
    第二点,智能,能不能生成,什么是智能?他生成的机制、方法和手段,这个问题我们今天是主题思想,刚才韩老师说,钟老师这套思想方法论,我们讲科学观确实有指导意义,我是这么认为的。但是还有一个问题,他不仅仅是光指导,其实这几位老师的东西已经形成了系统、方法,已经提供了相应的平台、工具,比如已经知道怎么生成一套逻辑体系,我们以前讲的概率逻辑、模糊逻辑都是概率性的系统,现在我们可以在不确定问题之下可以自动生成我的公式、自动生成相应的算法和概率,你可以想想,算法可以生成,有生成器的概念,按照机制主义的思想,我们已经开发出来了有一定的至少是有仿真或者有一定领域应用的这套工具,向在座的老师给大家汇报一下,不仅仅是指导意义的改善,已经有方法、工具相应的平台系统已经做出来了,不好说做的多么完善,逐渐还会改进,但是已经有了。这是第二点,确实可以生成,后续进一步完善就可以了。
    第三点,建议,对信息技术这个时代、计算机时代我们的操作系统落后了、我们的芯片落后了,中国曾经在2000年的时候龙芯启动了中国的芯片,也能够1999年、2000年启动做中国国产的操作系统,我那时候有幸参加了国产操作系统的研发,龙芯他们做硬件、我做软件,2004年在人民大会堂我们就开发部会,说中国的国产操作系统,大唐电信做TD—CDMA,3G、4G的通信协议,后来国际电联不通过,几年之后国际电联才把大唐电信的4G标准列入进去,现在回过头来看,人工智能如果说是国家战略,没有把基础理论作为重点可能确实是个问题,但是还好,新一代规划当中列出来了,但是我们怎么去找到真正的这种基础理论,我感觉今天几位老师的研究工作有一些成果,还希望从这方面做一些决策。
    具体下来几点建议:
    第一,我们自身,就是研究团队我也是跟着几位老师学习了,很长时间了,因为1999年我考了何老师的博士,2000年读博士到现在,我学习了很长时间,我自己一方面努力,理论也好,应用也好。
    第二,北邮作为我们人工智能学会的总部基地,有很多的支持,这是我认为的,我还特意适当的加了点力度,有的稍微实际落实一点,比如钟老师退休了,开会我们办公室找不着,天天在咖啡厅,我记得去年7月8日,教育部科技司来的时候,贾院长、王校长亲自在场,跟我说陈志成你支持他们研究,我落地了也确实支持了,但是我记得你们当时承诺的时候说,我找一间房子出来,现在没有落实,北邮这么大个地方,房子紧张可以理解,但是不至于找一个挂牌子的地方都没有,这个话到今天校领导都在,我提个要求出来,有这么一个事情。
    第三,北邮成立了人工智能研究院,我们在这里面是否可以从自己做起,人工智能研究院里面成立一个人工智能基础研究中心,把这个牌子亮出来,清华人工智能研究院成立之后,第一个成立基础研究中心,又成立交互中心,现在成立了好几个了,清华要成立10个人工智能相关的研究中心,这方面可以做。
    第四,科协,科协是不是在人工智能所谓的新的时代也好、新的创新理论也好,看看有什么机制,机构方面做一些支持,也成立一个相应的什么机构,我没有想清楚,因为我不太了解科协的运作机制。
    第五,科技部,科技部下面有个人工智能推进办公室,今年初的时候也成立了,清华老师牵头成立了一个国家治理法律伦理相关的研究中心,我们也是否可以成立一个人工智能基础创新相关的一个中心,从这个层面做一些工作。
    第六,应用方面,人工智能应用我们一块想一些办法,把它做起来,现在已经有一些应用了,我现在推动中商联合集团公司做一些应用,把这套理论变成真正的价值。
   
郭桂蓉院士(张静代表)
各位老师,各位领导,我也简单报告一下我个人的学习体会。今天郭院士出差赶不回来,派我来学习,今天会议的情况包括发的资料,我会及时的向郭院士报告。
我是来自军事科学院系统工程研究院的,因为我们所的名字对外是保密的,所以我不在这里报告了。今天能够有机会来学习我个人感觉特别荣幸,不光是学习了咱们三位老先生的全新的非常系统的学术成果,更加学习的是做科研的态度、情怀和方法。
    时间关系我简单汇报三个方面:
    第一,简单报告一点理解。
    第二,提出一个诉求。
    第三,表达一个心愿。
    第一,一点理解。报告的理解很多,时间关系只报告一点。钟老师讲的,包括何老师讲的,在我个人感受,其实某种意义上也和系统观、系统论思想不谋而合,非常契合,在我们的工作中其实曾经也走过弯路,之前几十年从还原论角度分析军事装备如何服务作战。但慢慢的大家也认识到还原论的思想其实并不适用,甚至于还会带来新的问题,新的问题可能还会造成非常非常大的影响,所以我们也是不断的回归这个体系、整体,包括像您多次讲到涌现、演化的思路。但是我们自己的体会,其实这个推进起来非常非常难,特别是咱们三位老先生,从机理的角度来建立了一整套的机理,建立机理本身就非常难,但是可能真正实施下去、推进下去逐渐产生影响、带来效益,这个会更加难,我也没有这个资格,但是也可以类比一下,钱老当年在咱们国内推广系统工程的时候,其实也是遇到了方方面面各种各样的一系列不尽人意的地方,我想这些可能在我们未来推广咱们的这套智能生成机理一样还会遇到,但是我觉得我们现在会更有信心来共同往前推进。
    第二,提出一个诉求。因为我也看到了一下,今天参会的可能只有我一个人是来自军队的,我就从军方的角度来提一下。因为我们整体来说,也不怕露怯,我们关于机理性的研究、基础性的研究整体还偏弱,我们开展的规律更多的面向应用研究,所以目前我们面临的一个重大的问题就是军事智能生成机理,今天您讲到的是智能生成机理,其实也结合刚才吴处长提到的关于验证工作,我们智能生成机理如何往军事领域去拓展和验证,我个人觉得是可以给咱们提供,既是我们的诉求,也可以提供一个平台。
    我们也是经过系统梳理,认为目前在军事智能本身的特征,可能和人工智能还不太一样,我们有一些特定的特征,有的人是概括车五个方面,我们现在认为是八个方面。比如说:第一个,环境的高复杂性,这是面临作战的背景,其实刚才何老师也有讲到。第二个,博弈的强对抗性,这也是对抗双方的,和我们一些民口的或者一些试验性的是截然不同的。包括时效性等等。第三个,响应的高实时性。第四个,信息的不完整性,包括具体军事活动中大量的欺骗信息。第五个,边界的不确定性。还有三个方面的特征。第六个,监督的不确知性,咱们学习,不管有监督、无监督一定会有参考样本,军事有可能结合长期性、动态性,类似于毛主席之前农村包围城市,包括毛主席最初的一些军事思想,早期大家未必认可,也是有争议,但是他只有推进下去才能形成关于我们智能生成相关的监督的这种效应。第七个,损失的不可估性,军事活动中如果基于智能产生的判断决策,他带来的一些影响可能会极其巨大。第八个,样本的极端小性,我们经常说小样本、小样本,但是军事活动中涉及到的可以说极端小,我们军事活动许多都是不可重演的,说是艺术,但是我理解是一种委婉的说法。
    结合我们军事智能的特征,如何来去研究他的军事智能生成机理,我们也是在推进,但是结合我们自身的能力,我们始终推进的非常非常艰难,所以说提出了一个诉求。
    结合我们所的定位,我们所的定位客观讲不直接研究机理,军事智能生成机理,我们是要对军事智能进行试验验证,就是说现在我们也要发展一些带有军事智能的装备,这些装备投入到战场之后,他的这种高度的可信性、可扩性,是否体现他智能特点的时候不会产生其他的这些风险,这些方面是我们的重点,也就是在基于军事智能生成机理之后我们还要再往前延伸一步,就是要对他进行试验验证,这是我提的一个诉求,希望能够向我们这边多学习、多结合。
    第三,表达一个心愿。刚才包括钟老师、何老师,我作为一个晚辈已经深深的感受到咱们科研情怀、报国情怀,确实是这样,但是从我们的角度,我希望可以和我们深度联合,因为我们军科院现在是杨学军院长,也始终要求我们开展学理性、机理性的研究,这方面确实我们有不足,不光您说的各种事务性被牵着,还有受我们的见识、我们的能力方方面面所限,所以希望在后续可以继续向我们赐教,包括加强我们关于认识论、方法论、因果论等等一系列,提升我们的科研工作和解决问题时效的能力。包括目前我们军科院和我们这个工作直接相关的,就有下属三个院,系统院另外还有创新院、战争院,战争院可能侧重于军事智能如何生成战斗力,不光机理产生智能,如何去打仗,也相当于面向应用。我们创新院面向人工智能的相关机理,我们更多的面向人工智能的试验验证机理,这些工作前提都是咱们的研究成果智能生成机理,所以我个人觉得,我们是有大量可以结合的,我们的科研经费也比较充足,后续看咱们三位老师更希望怎样的方式来进行结合,我会后向咱们来请教。
    最后一点,我们单位目前在西直门北大街,离我们这儿很近,也有这个地利,如果咖啡厅什么,我们这边也还是非常近便,归根结底我们这边的相关资源,不希望三位老先生做起工作来太为难、太不容易,同时也是给我们提供学习锻炼机会。
   
主持人(王国胤教授)
你刚刚说的三位老师没法拿项目,必须涉秘人员才能拿,你们课题都是涉秘的?

郭嗣宗教授
不一定,我们机理性的相关研究可以共同去研讨,涉及到军事案例的时候要回避。
主持人(王国胤):
拿过来以后落到哪个单位、怎么落都复杂,我搞科研管理的我知道。

陈志成博士
谁给钱多就给谁,北邮给的钱多给北邮。
   
张世光研究员:
咱们这个会上老、中、青,老的都有,三位老先生带队,很多中年的科技工作者,我估计我可能是现场所有人年龄最小的,一开始听很多内容感触也比较多,越到最后越兴奋,从陈志成先生逐渐更多的切入到我们今天的研讨,其实技术层面的研讨我觉得我不够资格,因为三位老先生在这个领域我认为已经是顶级的专家了,我觉得更多的一些,其实我想引发的研讨是关于大家提到的一些困难,没经费、没场地、没设备等等一系列的事,场地我先认领一个场地,回头谁的场地要是更好我们可以再探讨,就在钟教授家附近给您找一个场地,相关的环境会是比较便捷、比较不远,这是第一件事。我想我们多能够为三位老先生未来科技成果转化去验证他们的这些想法,我们提供更多的一些支持。讲理论探讨其他的我觉得对我们来说没用,我们更多的探讨探讨怎么样能够帮助三位老师更多的把他们的报国的理想实践,我先把场地认领下来,其他的我们共同探讨,别的我们后面再说。
   
贾庆轩教授(北邮科研院院长)
各位专家,钟先生、何先生、汪先生的报告我也多次聆听,对于三位老先生一直艰苦奋斗40年,在这个方向上来进行研究,坐冷板凳,表示非常大的敬意。三个老先生的研究我们也跟科技部、教育部做过汇报,北邮来说,尽力支持,2017年底我到科研院以后,先从学校的自有资金拿了10万元叫钟先生做研究,这是历史上没有过的,给退休的,但是钟先生不舍得花,钟先生,那10万元还没花完吧?
    上面的资金审查,又有审计,刚刚韩老师说的学术生态圈很重要,下面有年轻的,以他的名义申请,因为有些钱只能给在职的、只能给40岁以下的,这个钱现在财政审计了不得,因为不是说这个钱哪一次来,都有审计,在座的都知道,跟企业不一样,包括建立联合实验室,按学术规定,如果学科不同意这个联合实验室还建立不起来,学科同意,你的学科在哪个学院,就得给找地方,院长签字不是白签的,都有个程序,学校在职的都有一个程序,跟企业还不一样。比如刚才陈总说那个地方的事,我就找计算机学院了,你都签字了,院长要建,我重要,也拿来钱了,为什么不给人家地方。你找院长签过字,我们才叫你建联合实验室,因为是个学校,科研院不管场地,场地都分到学院了,学院来进行调控。
    钟先生,你该申请还得申请,但是只能学校特批开常委会才能给你批少少的钱,如果你有好的学术生态圈,你叫下边团队的,这一次有一个计划来了,学校拿2千万进行支持,很想看到您的团队申请,没有看到,现在一个项目100万,现在我们刚刚发布24个,一个100万,要求40岁以下,因为要用教育部的基本科研费,教育部要求,40岁以上他来审计你,你的钱做的对不对。
    学术生态圈非常重要,特别钟教授,你的团队,好几个呢。从学校的角度,支持是没问题的,但是从王校长也好、我们也好,都认为钟教授研究的非常有意义,几次会议王校长参加,起码钟教授听你五次了,包括新来的建华校长,他当时代表教育部,都非常支持你这个内容,怎么把这个事做的合理,从我们管理部门来说审计拎过去很难看,我们坚决支持。
   
主持人(王国胤教授)
感谢各位老师,大家提了很多建议。我借此机会提两个问题,你在报告,前面两个遵守能量守恒定律,这个怎么增长,这里面有什么守恒的东西,没搞清楚(钟义信回答:不守恒,守恒就麻烦了)。
    另外,刚才几位老师都谈到了,我也有困惑,人的认知,算计,跟我们的计算机系统做的计算,我也一直认为这两个是有很大差异的,这个差异究竟在哪里,我们怎么把它形式化的拿出来,有什么办法把这个进行研究,这是我对这个问题的思考。
    上午钟老师做了主题发言,讲了基本想法,各位老师从不同角度也提了很多建议、问题,基金委也给了很多指导,未来也希望基金委从科协的角度更多的支持,从早上整个讨论真的很热烈,如果不控制时间可能中午就不用吃饭了,一直讨论到晚上,这个问题肯定是一直要做下去,重大科学问题可能这里边,包括我们要攻克这样一个重大科学问题里面还会有很多管理机制、政策其他方面的问题要解决,要不然我们就成了空谈了,不能够实际的把这些重大科学问题攻克,我们接下来把这样一个科学问题的报告做好,我觉得这个重大科学问题不仅仅是我们看到的科学问题,而是钟老师带着整个团队,已经在这样一个科学问题上有了坚实的进展了,我们未来怎么把这样一个科学问题真正引领人工智能的发展不仅仅引领中国,还引领世界。中国人工智能学会,钟老师也是我们第四届、第五届理事长,也是一直带领我们学会在发展成长的,在这样一个重大科学问题的引领下面,未来也会继续引领我们学会事业的发展,在这样一个问题上面学会也给李院士那边报告,钟老师这儿觉得我能够服什么务您就只管分咐。
钟义信教授:
这个会时间比较有限,所以报告就很简练。刚刚大家提到“什么是智能”,我的第一稿原来就是讲概念,讲“什么是智能”、什么是“人工智能”。后来看到给我的时间短,就删掉了。将来如果学会组织比较宽松的学术交流会,就可以比较细致的、系统的、深入的互相交换、互相交流。我对学会寄予厚望。

主持人(王国胤教授):
    今天上午会议就到这里。谢谢大家!
——完——


编辑:陈茗

254#
 楼主| 发表于 2019-10-11 23:07:49 | 只看该作者
【案例】
人体姿态估计的过去、现在和未来
前言
因为在ICIP2019上面和两位老师搞了一个关于人体姿态估计以及动作行为的tutorial,所以最近整理了蛮多人体姿态估计方面的文章,做了一个总结和梳理,希望能抛砖引玉。
问题
人体姿态估计是计算机视觉中一个很基础的问题。从名字的角度来看,可以理解为对“人体”的姿态(关键点,比如头,左手,右脚等)的位置估计。一般我们可以这个问题再具体细分成4个任务:
单人姿态估计 (Single-Person Skeleton Estimation)
多人姿态估计 (Multi-person Pose Estimation)
人体姿态跟踪Video Pose Tracking)
3D人体姿态估计 3D SkeletonEstimation)
具体讲一下每个任务的基础。首先是单人姿态估计, 输入是一个crop出来的行人,然后在行人区域位置内找出需要的关键点,比如头部,左手,右膝等。常见的数据集有MPII, LSP, FLIC, LIP
其中MPII2014年引进的,目前可以认为是单人姿态估计中最常用的benchmark使用的是PCKh的指标(可以认为预测的关键点与GT标注的关键点经过head size normalize后的距离)。但是经过这几年的算法提升,整体结果目前已经非常高了(最高的已经有93.9%了)。下面是单人姿态估计的结果图(图片来源于CPMpaper)
单人姿态估计算法往往会被用来做多人姿态估计。多人姿态估计的输入是一张整图,可能包含多个行人,目的是需要把图片中所有行人的关键点都能正确的做出估计。针对这个问题,一般有两种做法,分别是top-down以及bottom-up的方法。对于top-down的方法,往往先找到图片中所有行人,然后对每个行人做姿态估计,寻找每个人的关键点。单人姿态估计往往可以被直接用于这个场景。对于bottom-up,思路正好相反,先是找图片中所有parts (关键点),比如所有头部,左手,膝盖等。然后把这些parts(关键点)组装成一个个行人。
对于测试集来讲,主要有COCO, 最近有新出一个数据集CrowdPose。下面是CPN算法在COCO上面的结果:
一个行人,进行人体以及每个关键点的跟踪。这个问题本身其实难度是很大的。相比行人跟踪来讲,人体关键点在视频中的temporal motion可能比较大,比如一个行走的行人,手跟脚会不停的摆动,所以跟踪难度会比跟踪人体框大。目前主要有的数据集是PoseTrack
同时,如果把人体姿态往3D方面进行扩展,输入RGB图像,输出3D的人体关键点的话,就是3D 人体姿态估计。这个有一个经典的数据集Human3.6M。最近,除了输出3D的关键点外,有一些工作开始研究3Dshape,比如数据集DensePose。长线来讲,这个是非常有价值的研究方向。3D人体姿态估计的结果图(来自算法a simple baseline)如下:
过去
这部分主要用于描述在深度学习之前,我们是如何处理人体姿态估计这个问题。从算法角度来讲,这部分的工作主要是希望解决单人的人体姿态估计问题,也有部分工作已经开始尝试做3D的人体姿态估计。可以粗略的方法分成两类。
第一类是直接通过一个全局feature,把姿态估计问题当成分类或者回归问题直接求解 [1][2]。但是这类方法的问题在于精度一般,并且可能比较适用于背景干净的场景。第二类是基于一个graphical model,比如常用pictorial structure model。一般包含unary term,是指对单个part进行featurerepresentation,单个part的位置往往可以使用DPM(Deformable Part-based model)来获得。同时需要考虑pair-wise关系来优化关键点之间的关联。基于Pictorial Structure,后续有非常多的改进,要么在于如何提取更好的feature representation [3][4] 要么在于建模更好的空间位置关系[5][6]
总结一下,在传统方法里面,需要关注的两个维度是: feature representation以及关键点的空间位置关系。特征维度来讲,传统方法一般使用的HOG, Shape Context, SIFTshallow feature 空间位置关系的表示也有很多形式,上面的Pictorialstructure model可能只是一种。
这两个维度在深度学习时代也是非常至关重要的,只是深度学习往往会把特征提取,分类,以及空间位置的建模都在一个网络中直接建模,所以不需要独立的进行拆解,这样更方便设计和优化。
现在
2012AlexNet开始,深度学习开始快速发展,从最早的图片分类问题,到后来的检测,分割问题。在2014年,[7]第一次成功引入了CNN来解决单人姿态估计的问题。因为当时的时代背景,整体网络结构比较简单,同时也沿用了传统骨架的思路。首先是通过slide-window的方式,来对每个patch进行分类,找到相应的人体关键点。
因为直接sliding-window少了很多context信息,所以会有很多FP的出现。所以在pipeline上面加上了一个post-processing的步骤,主要是希望能抑制部分FP,具体实现方式是类似一个空间位置的模型。所以从这个工作来看,有一定的传统姿态估计方法的惯性,改进的地方是把原来的传统的feature representation改成了深度学习的网络,同时把空间位置关系当成是后处理来做处理。总体性能在当时已经差不多跑过了传统的姿态估计方法。
2014年的另外一个重要的进展是引入了MPII的数据集。此前的大部分paper都是基于FLIC以及LSP来做评估的,但是在深度学习时代,数据量还是相对偏少(K级别)。MPII把数据量级提升到W级别,同时因为数据是互联网采集,同时是针对activity来做筛选的,所以无论从难度还是多样性角度来讲,都比原来的数据集有比较好的提升。
一直到2016年,随着深度学习的爆发,单人姿态估计的问题也引来了黄金时间。这里需要重点讲一下两个工作,一个工作是Convolutional Pose Machine (CPM[8],另外一个是Hourglass[9]
CPM
CPMCMU Yaser Sheikh组的工作,后续非常有名的openpose也是他们的工作。从CPM开始,神经网络已经可以e2e的把featurerepresentation以及关键点的空间位置关系建模进去(隐式的建模),输入一个图片的patch输出带spatial信息的tensorchannel的个数一般就是人体关键点的个数(或者是关键点个数加1)。空间大小往往是原图的等比例缩放图。通过在输出的heatmap上面按channel找最大的响应位置(x,y坐标),就可以找到相应关键点的位置。
这种heatmap的方式被广泛使用在人体骨架的问题里面。这个跟人脸landmark有明显的差异,一般人脸landmark会直接使用回归(fully connected layer for regression)landmark的坐标位置。这边我做一些解释。首先人脸landmark的问题往往相对比较简单,对速度很敏感,所以直接回归相比heatmap来讲速度会更快,另外直接回归往往可以得到sub-pixel的精度,但是heatmap的坐标进度取决于在spatial图片上面的argmax操作,所以精度往往是pixel级别(同时会受下采样的影响)。但是heatmap的好处在于空间位置信息的保存,这个非常重要。
一方面,这个可以保留multi-modal的信息,比如没有很好的context信息的情况下,是很难区分左右手的,所以图片中左右手同时都可能有比较好的响应,这种heatmap的形式便于后续的cascade的进行refinement优化。另外一个方面,人体姿态估计这个问题本身的自由度很大,直接regression的方式对自由度小的问题比如人脸landmark是比较适合的,但是对于自由度大的姿态估计问题整体的建模能力会比较弱。相反,heatmap是比较中间状态的表示,所以信息的保存会更丰富。
后续2D的人体姿态估计方法几乎都是围绕heatmap这种形式来做的(3D姿态估计将会是另外一条路),通过使用神经网络来获得更好的feature representation,同时把关键点的空间位置关系隐式的encodeheatmap中,进行学习。大部分的方法区别在于网络设计的细节。先从CPM开始说起。
整个网络会有多个stage,每个stage设计一个小型网络,用于提取feature,然后在每个stage结束的时候,加上一个监督信号。中间层的信息可以给后续层提供context,后续stage可以认为是基于前面的stagerefinement。这个工作在MPII上面的结果可以达到88.5,在当时是非常好的结果。
Hourglass
2016年的7月份,PrincetonDeng Jia组放出了另外一个非常棒的人体姿态估计工作,Hourglass。后续Deng Jia那边基于Hourglass的想法做了Associate Embedding,以及后续的CornerNet都是非常好的工作。
Hourglass相比CPM的最大改进是网络结构更简单,更优美。
从上图可以看出,网络是重复的堆叠一个u-shapestructure.
pipeline上面跟CPM很类似。只是结构做了修改。从MPII上的结果来看,也有明显的提升,可以达到90.9PCKh
这种u-shape的结构其实被广泛应用于现代化的物体检测,分割等算法中,同时结果上面来讲也是有非常好的提升的。另外,Hourglass这种堆多个module的结构,后续也有一些工作follow用在其他任务上面。
但是Hourglass也是存在一些问题的,具体可以看后续讲解的MSPN网络。
CPM以及Hourglass之后,也有很多不错的工作持续在优化单人姿态估计算法,比如[10][11]
2016年的下半年还出现了一个非常重要的数据集:COCO。这个时间点也是非常好的时间点。一方面,MPII已经出现两年,同时有很多非常好的工作,比如CPM Hourglass已经把结果推到90+,数据集已经开始呈现出一定的饱和状态。另外一方面,物体检测/行人检测方面,算法提升也特别明显,有了很多很好的工作出现,比如Faster R-CNNSSD。所以COCO的团队在COCO的数据集上面引入了多人姿态估计的标注,并且加入到了2016COCO比赛中,当成是一个track。从此,多人姿态估计成为学术界比较active的研究topic。正如前面我在“问题”的部分描述的,多人姿态估计会分成top-down以及bottom-up两种模式。我们这边会先以bottom-up方法开始描述。
OpenPose
2016COCO比赛中,当时的第一名就是OpenPose [12]CMU团队基于CPM为组件,先找到图片中的每个joint的位置,然后提出Part Affinity Field PAF)来做人体的组装。
PAF的基本原理是在两个相邻关键点之间,建立一个有向场,比如左手腕,左手肘。我们把CPM找到的所有的左手腕以及左手肘拿出来建立一个二分图,边权就是基于PAF的场来计算的。然后进行匹配,匹配成功就认为是同一个人的关节。依次类别,对所有相邻点做此匹配操作,最后就得到每个人的所有关键点。
在当时来讲,这个工作效果是非常惊艳的,特别是视频的结果图,具体可以参考OpenposeGithub官网。在COCObenchmark test-dev上面的AP结果大概是61.8
Hourglass + Associative Embedding
2016年比赛的榜单上面,还有另外一个很重要的工作就是Deng Jia组的Associative Embedding[13]。文章类似Openpose思路,使用bottom-up的方法,寻找part使用了Hourglass的方式来做。关键在于行人的组装上面,提出了Associative Embedding的想法。大概想法是希望对每个关键点输出一个embedding,使得同一个人的embedding尽可能相近,不同人的embedding尽可能不一样。
COCO2016比赛后,这个工作持续的在提升,文章发表的时候,COCO test-dev上面的结果在65.5
除了Openpose以及Associative Embedding之外,bottom-up还有一个工作非常不错,DeepCut[14]以及DeeperCut[15],他们使用优化问题来直接优化求解人的组合关系。
CPN
后面一部分章节我会重点围绕COCO数据集,特别是COCO每年的比赛来描述多人姿态估计的进展。虽然2016bottom-up是一个丰富时间点,但是从2017年开始,越来的工作开始围绕top-down展开,一个直接的原因是top-down的效果往往更有潜力。top-down相比bottom-up效果好的原因可以认为有两点。首先是人的recall往往更好。因为top-down是先做人体检测,人体往往会比part更大,所以从检测角度来讲会更简单,相应找到的recall也会更高。
其次是关键点的定位精度会更准,这部分原因是基于crop的框,对空间信息有一定的align,同时因为在做single person estimation的时候,可以获得一些中间层的context信息,对于点的定位是很有帮助的。当然,top-down往往会被认为速度比bottom-up会更慢,所以在很多要求实时速度,特别是手机端上的很多算法都是基于openpose来做修改的。不过这个也要例外,我们自己也有做手机端上的多人姿态估计,但是我们是基于top-down来做的,主要原因是我们的人体检测器可以做的非常快。
说完了背景后,在COCO2017年的比赛中,我们的CPN[16]一开始就决定围绕top-down的算法进行尝试。我们当时的想法是一个coarse-to-fine的逻辑,先用一个网络出一个coarse的结果(GlobalNet),然后再coarse的结果上面做refinement (RefineNet)。具体结果如下:
为了处理处理难的样本,我们在loss上面做了一定的处理,最后的L2 loss我们希望针对难的关键点进行监督,而不是针对所有关键点uniform的进行监督,所以我们提出了一个Hard keypoint miningloss。这个工作最后在COCO test-dev达到了72.1的结果(不使用额外数据以及ensemble),获得了2017年的COCO骨架比赛的第一名。
这个工作的另外一个贡献是比较完备的ablation。我们给出了很多因素的影响。比如top-down的第一步是检测,我们分析了检测性能对最后结果的影响。物体检测结果从30+提升到40+(mmAP)的时候,人体姿态估计能有一定的涨点(1个点左右),但是从40+提升到50+左右,涨点就非常微弱了(0.1-0.2)。
另外,我们对data augmentation,网络的具体结构设计都给出了比较完整的实验结果。另外,我们开始引入了传统的ImageNet basemodel (ResNet50)做了backbone,而不是像Openpose或者Hourglass这种非主流的模型设计结构,所以效果上面也有很好的提升。
MSPN
2018年的COCO比赛中,我们继续沿用top-down的思路。当时我们基于CPN做了一些修改,比如把backbone不停的扩大,发现效果提升很不明显。我们做了一些猜测,原来CPN的两个stage可能并没有把context信息利用好,单个stage的模型能力可能已经比较饱和了,增加更多stage来做refinement可能是一个解决当前问题,提升人体姿态估计算法uppper-bound的途径。所以我们在CPNglobalNet基础上面,做了多个stage的堆叠,类似于Hourglass的结构。
相比Hourglass结构,我们提出的MSPN[17]做了如下三个方面的改进。首先是Hourglass的每个stage的网络,使用固定的256 channel,即使中间有下采样,这种结构对信息的提取并不是很有益。所以我们使用了类似ResNet-50这种标准的ImageNet backbone做为每个stage的网络。
另外,在两个相邻stage上面,我们也加入了一个连接用于更好的信息传递。最后,我们对于每个stage的中间层监督信号做了不同的处理,前面层的监督信号更侧重分类,找到coarse的位置,后面更侧重精确的定位。从最后效果上面来看,我们在COCO test-dev上面一举跑到了76.1 (单模型不加额外数据)。
HRNet
之前我们讲的很多人体姿态估计方面的工作,都在围绕context来做工作,如何更好的encode和使用这些context是大家工作的重点。到了2019年, MSRA wang jingdong组出了一个很好的工作,提出了spatial resolution的重要性。在这篇工作之前,我们往往会暴力的放大图片来保留更多信息,同时给出更精准的关键点定位,比如从256x192拉大到384x288。这样对效果提升还是很明显的,但是对于计算量的增加也是非常大的。HRNet从另外一个角度,抛出了一个新的可能性:
相比传统的下采样的网络结构,这里提出了一种新的结构。分成多个层级,但是始终保留着最精细的spaital那一层的信息,通过fuse下采样然后做上采样的层,来获得更多的context以及语义层面的信息(比如更大的感受野)。从结果上面来看,在COCO test-dev上面单模型可以达到75.5
到此为止,我们重点讲述了几个多人姿态估计的算法,当然中间穿插了不少我们自己的私货。在多人姿态估计领域还有很多其他很好的工作,因为篇幅问题,这里我们就略过了。
回到2017年,MPI提出了一个新的数据集, PoseTrack,主要是希望能帮忙解决视频中的人体姿态估计的问题,并且在每年的ICCV或者ECCV上面做challenge比赛。PoseTrack的数据集主要还是来源于MPII的数据集,标注风格也很相近。围绕PoseTrack这个任务,我们重点讲一个工作, Simple Baselines
Simple Baselines
Simple Baselines [19]xiao binMSRA的工作。提出了一种非常简洁的结构可以用于多人姿态估计以及人体姿态估计的跟踪问题。这里重点讲一下对于PoseTrack的处理方法:
这里有两个细节,首先是会利用上一帧的检测结果,merge到新的一帧,避免检测miss的问题。另外,在两帧间,会使用OKS based相似度来做人体的关联,而不是只是简单的使用框的overlap,这样可以更好的利用每个关键点的temporal smooth的性质。从结果上面来看,这个方法也获得了PoseTrack2018比赛的第一名。
到目前位置,我们描述了单人的姿态估计,多人的姿态估计,以及简单讲了一下视频中的人体姿态跟踪的问题。最后,我们讲一下3D人体姿态估计的问题,这个我觉得这个是目前非常active的研究方向,也是未来的重要的方向。
3D Skeleton
3D人体姿态估计目前我们先限制在RGB输入数据的情况下,不考虑输入数据本身是RGBD的情况。我们大概可以把这个问题分成两个子问题:第一个是出人体的3D关键点。相比之前的2D关键点,这里需要给出每个点的3D位置。另外一种是3D shape,可以给出人体的3D surface,可以认为是更denseskeleton信息(比如Densepose, SMPL模型)
先从3D关键点说起。主要的方法可以分成两类,第一类是割裂的考虑。把3D skeleton问题拆解成2D人体姿态估计,以及从2D关键点预测3D关键点两个步骤。另外一类是joint2D以及3D的姿态估计。
大部分的基于深度学习的3D人体骨架工作是从2017年开始的,主要的上下文是因为2D人体姿态估计中CPM以及Hourglass给出了很好的效果,使得3D Skeleton成为可能。
我们先从3D2D skeleton割裂的算法开始说起。首先从2017deva Ramanan组的一个非常有意思的工作【20】开始说起,3D Human Pose Estimation = 2D Pose Estimation + Matching。从名字可以看出,大致的做法。首先是做2D的人体姿态估计,然后基于Nearest neighbor最近邻的match来从training data中找最像的姿态。
2D的姿态估计算法是基于CPM来做的。3Dmatch方法是先把trainingdata中的人体3d骨架投射到2D空间,然后把test sample2d骨架跟这些training data进行对比,最后使用最相近的2d骨架对应的3D骨架当成最后test sample3D骨架。当training数据量非常多的时候,这种方法可能可以保证比较好的精度,但是在大部分时候,这种匹配方法的精度较粗,而且误差很大。
随后,也在17年,另外一个非常有意思的工作【21】发表在ICCV2017。同样,从这个工作的名字可以看出,这个工作提出了一个比较simplebaseline,但是效果还是非常明显。方法上面来讲,就是先做一个2d skeleton的姿态估计,方法是基于Hourglass的,文章中的解释是较好的效果以及不错的速度。基于获得的2d骨架位置,后续接入两个fully connected的操作,直接回归3D坐标点。这个做法非常粗暴直接,但是效果还是非常明显的。在回归之前,需要对坐标系统做一些操作。
同样,从2017年的ICCV开始,已经有工作【22】开始把2D以及3d skeleton的估计问题joint一起来做优化。这样的好处其实是非常明显的。因为很多2d数据对于3d来讲是有帮助的,同时3D姿态对于2d位置点估计也能提供额外的信息辅助。2DMPII COCO数据可以让算法获得比较强的前背景点分割能力,然后3D的姿态估计数据集只需要关注前景的3D骨架估计。这也是目前学术界数据集的现状。从实际效果上面来讲,joint training的方法效果确实也比割裂的train 2d以及3d skeleton效果要好。
2018年开始,3D skeleton开始往3d shape发展。原先只需要知道joint点的3D坐标位置,但是很多应用,比如人体交互,美体,可能需要更dense的人体姿态估计。这时候就有了一个比较有意思的工作densePose 23】。这个工作既提出来一个新的问题,也包含新的benchmark以及baseline。相比传统的SMPL模型,这个工作提出了使用UV map来做估计(同时间也有denseBody类似的工作),可以获得非常dense3d姿态位置,等价于生成了3d shape。当然,从3d shape的角度来讲,有很多非常不错的工作,这里就不做重点展开。
最后讲一下3d人体姿态估计目前存在的问题。我个人认为主要是benchmark。目前最常使用的human 3.6M实际上很容易被overfit,因为subjects数量太小(实际训练样本只有56人,depend on具体的测试方法,测试样本更少)。同时,是在受限的实验室场景录制,跟真实场景差异太大,背景很干净,同时前景的动作pose也比较固定。当然,3d skeleton的数据集的难度非常大,特别是需要采集unconstrained条件下面的数据。目前也有一些工作在尝试用生成的数据来提升结果。
应用
最后,讲了这么多的人体姿态估计,我们最后说一下人体姿态估计有什么用,这里的人体姿态估计是一个广义的人体姿态估计,包含2D/3D等。
首先的一个应用是人体的动作行为估计,要理解行人,人体的姿态估计其实是一个非常重要的中间层信息。目前有蛮多基于人体姿态估计直接做action recogntion的工作,比如把关键点当成graph的节点,然后是使用graph convolution network来整合各种信息做动作分类。我博士的研究课题是action recognition,我读完四年博士的一个总结是action这个问题,如果需要真正做到落地,人体姿态估计算法是必不可少的组成部分。
第二类应用是偏娱乐类的,比如人体交互,美体等。比如可以通过3d姿态估计来虚拟出一个动画人物来做交互,使用真实人体来控制虚拟人物。另外比如前一段时间比较火热的瘦腰,美腿等操作背后都可能依赖于人体姿态估计算法。
第三类应用是可以做为其他算法的辅助环节,比如Person ReID可以基于人体姿态估计来做alignment,姿态估计可以用来辅助行人检测,杀掉检测的FP之类的。
未来
深度学习带来了学术界以及工业界的飞速发展,极大的提升了目前算法的结果,也使得我们开始关注并尝试解决一些更有挑战性的问题。
下面的几点我是侧重于把人体姿态估计真正落地到产品中而展开的。当然也可以换个维度考虑更长线的研究发展,这个可能希望以后有机会再一起讨论。
Data Generation
我觉得这个是一个非常重要的研究方向,不管是对2d还是3d。以2d为例,虽然目前数据量已经非常的大,比如COCO数据,大概有6w+的图片数据。但是大部分pose都是正常pose,比如站立,走路等。对于一些特殊pose,比如摔倒,翻越等并没有多少数据。或者可以这么理解,这些数据的收集成本很高。如果我们可以通过生成数据的方法来无限制的生成出各种各样的数据的话,这个对于算法的提升是非常的关键。虽然目前GAN之类的数据生成质量并不高,但是对于人体姿态估计这个问题来讲其实已经够了,因为我们不需要清晰真实的细节,更多的是需要多样性的前景(不同着装的人)和pose。但是数据生成的方式对于人体姿态估计本身也有一个非常大的挑战,这个可以留做作业,感兴趣的同学可以在留言区回复。
Crowd的问题
这个问题其实是行人检测的问题。目前市面上没有能针对拥挤场景很work的行人检测算法。这个问题的主要瓶颈在于行人检测的一个后处理步骤:NMS Non-maximum suppression)。这个其实是从传统物体检测方法时代就有的问题。因为目前大部分算法不能区分一个行人的两个框还是两个不同行人的两个框,所以使用NMS来基于IOU用高分框抑制低分框。这个问题在传统的DPM以及ACF时代问题并不突出,因为当时算法精度远没有达到需要考虑NMS的问题。但是随着技术的进步,目前NMS已经是一个越来越明显的瓶颈,或者说也是行人检测真正落地的一个很重要的障碍。
最近我们提出了一个新的数据集CrowdHuman,希望引起大家对于遮挡拥挤问题的关注。从算法上面来讲,最近也陆续开始由蛮多不错的工作在往这个方向努力,但是离解决问题还是有一定的距离。回到人体姿态估计这个问题,目前top-down方法依赖于检测,所以这个问题避免不了。bottom-up可能可以绕开,但是从assemble行人的角度,拥挤场景这个问题也非常有挑战。
Multi-task Learning
刚刚我们讲到,2D以及3D人体姿态估计可以联合training,从而提升整体结果。同样,其实可以把人体姿态估计跟人体相关的其他任务一起联合做数据的标注以及训练。这里可以考虑的包括人体分割(human segmentation),人体部位的parse (human parse)等。可以这么理解,human seg本身的标注可以认为是多边形的标注,我们可以在多边形轮廓上面进行采点,这几个任务可以很自然的联合起来。
人体多任务的联合训练我觉得对于充分理解行人是非常有意义的,同时也可以提升各个任务本身的精度。当然潜在的问题是数据标注的成本会增加。另外可以考虑的是跨数据集的联合training,比如某个数据集只有skeleton标注,有个数据集只有seg标注等,这个问题其实也是工业界中很常见的一个问题。
Speed
速度永远是产品落地中需要重点考虑的问题。目前大部分学术paper可能都是在GPU做到差不多实时的水平,但是很多应用场景需要在端上,比如手机的ARM上面进行实时高效的处理。我们之前有尝试过使用我们自己的ThunderNet [24]做人体检测,然后拼上一个简化版的CPN来做人体姿态估计,可以做到端上近似实时的速度,但是效果跟GPU上面还是有一定差距。所以速度的优化是非常有价值的。
UnConstrained 3D skeleton Benchmark
这个我上面也有提到,3D人体姿态估计急需一个更大更有挑战的benchmark来持续推动这个领域的进步。随着很多3d sensor的普及,我理解我们不一定需要依赖传统的多摄像头的setting来做采集,这个使得我们能获得更真实,更wild的数据。
后记
这里只是从我个人的角度列了一些人体姿态估计的重要工作,当然其中可能miss了很多细节,很多重要的文献,但是我希望这个是一个引子,吸引更多的同学来一起投入这个方向,一起来推动这个领域的落地。因为我时刻相信人体姿态估计的进步,将会是我们真正从视觉角度理解行人的非常关键的一步。
最后,希望借此也感谢一下我们R4D中做人体姿态估计的同学,感谢志成、逸伦、文博、斌一、琦翔、禹明、天孜、瑞豪、正雄等等,虽然可能有些同学已经奔赴各地,但是非常感谢各位的付出也怀念和大家一起战斗的时光。
Reference
[1] Randomized Trees for Human PoseDetection, Rogez etc, CVPR 2018
[2] Local probabilistic regression foractivity-independent human pose inference, Urtasun etc, ICCV 2009
[3] Strong Appearance and ExpressiveSpatial Models for Human Pose Estimation, Pishchulin etc, ICCV 2013
[4] Pictorial Structures Revisited: PeopleDetection and Articulated Pose Estimation, Andriluka etc, CVPR 2009
[5] Latent Structured Models for Human PoseEstimation, Ionescu etc, ICCV 2011
[6] Poselet Conditioned PictorialStructures, Pishchulin etc, CVPR 2013
[7] Learning Human Pose Estimation Featureswith Convolutional Networks, Jain etc, ICLR 2014
[8] Convolutional Pose Machines, Wei etc,CVPR 2016
[9] Stacked Hourglass Networks for HumanPose Estimation, Newell etc, ECCV 2016
[10] Multi-Context Attention for Human PoseEstimation, Chu etc, CVPR 2017
[11] Deeply Learned Compositional Modelsfor Human Pose Estimation, ECCV 2018
[12] Realtime Multi-Person 2D PoseEstimation using Part Affinity Fields, Cao etc, CVPR 2017
[13] Associative Embedding: End-to-EndLearning for Joint Detection and Grouping, Newell etc, NIPS 2017
[14] DeepCut: Joint Subset Partition andLabeling for Multi Person Pose Estimation, Pishchulin etc, CVPR 2016
[15] DeeperCut: A Deeper, Stronger, andFaster Multi-Person Pose Estimation Model, Insafutdinov, ECCV 2016
[16] Cascaded Pyramid Network forMulti-Person Pose Estimation, Chen etc, CVPR 2017
[17] Rethinking on Multi-Stage Networks forHuman Pose Estimation, Li etc, Arxiv 2018
[18] Deep High-Resolution RepresentationLearning for Human Pose Estimation, Sun etc, CVPR 2019
[19] Simple Baselines for Human PoseEstimation and Tracking, Xiao etc, ECCV 2018
[20] 3D Human Pose Estimation = 2D PoseEstimation + Matching, Chen etc, CVPR 2017
[21] A simple yet effective baseline for 3dhuman pose estimation, Martinez, ICCV 2017
[22] Compositional Human Pose Regression,Sun etc, ICCV 2017
[23] Densepose: Dense Human Pose Estimationin the Wild, Guler etc, CVPR 2018
[24] ThunderNet: Toward Real-time GenericObject Detection, Qin etc, ICCV 2019
原文链接:
编辑:陈茗

255#
 楼主| 发表于 2019-10-13 12:01:43 | 只看该作者
【案例】
AI时代还想笑出声来,请记住这三分钟
导语:
过去几年我一直关注数字化转型、未来国民职业、工作职业技能结构化改变,过程中阅读了大量海外的同行研究以及我个人的田野调查。希望通过系列文章给小伙伴提个醒,我们一起来探讨和面向未来。
一、群情激奋开展迎接未来,你不可发呆啦
人工智能的时代正在颠覆各行各业工作。随着公司开始认真使用智能技术,许多低头干活的员工猛然发现风险已陷入迷茫困惑中。埃森哲对未来劳动力的调查,超过60%的员工对人工智能对其工作的影响持肯定态度。三分之二的人承认他们必须发展自己的技能才能使用智能机器。
麦肯锡人工智能时代人才问题报告指出,新的技能再培训变得更加重要。到2022年,至少有54%的雇员,需要学会新的技能来提升自己。批判性思维、创新能力、想象力、以及服务导向意识,会变得更加重要。作为领导人,精心构建公司内部的终身学习体系,也将变成企业的重要任务。
20181115日,德国联邦政府正式发布了其人工智能(AI)战略,口号是“AI Made in Germany”,国家拨出专门资金用以解决“AI时代国民职业技能结构化改变、迁移”
大公司与员工不在同一个层面上。领导层认为,只有大约四分之一的员工为人工智能的采用做好了准备。埃森哲调查报告发现只有3%的企业高层计划大幅增加培训预算,以应对人工智能带来的技能挑战。
美国著名管理学家汤姆·彼得斯(Tom Peters)代表作,包括《追求卓越》等。在《向50位顶尖管理大师学领导》(Dear CEO: 50 Personal Lettersfrom the World's Leading BusinessThinkers)本书里,汤姆·彼得斯给出了他给企业管理者的几条建议。特别提到核心能力问题。工作的是人、创造成长与利润的也是人,真正重要的是人。对于人工智能将给白领带来的失业风险,汤姆·彼得斯主张,企业领导者要明确企业的道义责任,
“做为领导人,你最大的道义责任就是竭尽所能帮助麾下每一名员工发展未来核心能力,包含‘软性’与‘硬性’能力。这也是最高明的中期至长期的利润最大化策略!”
二、不会被人工智能取代的工作,现在你可去排队!
从变化的角度和现实的角度来看如果存在生命的竞争优势的壁垒,
那么观点一:CHM暂时安全的
•创造类(Greativity)     对应右脑优势
•经营管理类(Management)    情商
•服务类(Hospitality)    同理心、共情力
"C"(创造类)指的是写小说、拍电影、发明创造、新产品、科学研究等工作;"M"(经营管理类)指的是管理工厂、商店、项目及经营公司等工作;"H"(服务类)指的是护理人员、保育员、辅导师等工作。
未来相对安全的职业,海外共识观点二:
首先是真正的创造力类,例如艺术家,科学家,制定新的商业战略的工作。就目前而言,人类仍然擅长创造力。
第二个领域是涉及与人建立复杂关系的职业:例如,护士或要求您与客户建立密切关系的业务角色。
第三个领域是高度不可预测的工作。例如,如果你是一名水管工,被召唤到不同地点处理紧急情况。
三、能力结构化改变,那些能力更重要?
未来的员工将花更多的时间在人工智能能力欠缺的活动上,比如管理人员、应用专业知识和与他人交流。人所需的技能和能力正在改变,需要更多的社交和情感技能,以及更高级的认知能力,比如逻辑推理和创造力。
需求将转向更高的认知技能。从仅需要基本认知技能的活动转向使用更高认知技能的活动。对创造力,批判性思维,决策制定和复杂信息处理等高级认知技能的需求将突飞猛进。然而,基本认知技能(如基本识字和算术)、基础数据输入和处理技能的工作活动将会减少。
专家通过美国劳工部的O * Net数据库分析了美国职业要求的100多种能力图谱发现:创造力、解决复杂问题能力、人际关系能力的重要性都急剧上升。除了学习未来工作场景所需要的新技术,员工的新的职业技能中尤其要加强“人机+机器”交互,协同工作的能力。
每个有脑子的员工应根据人工智能新环境要求调整自己的技能
关键在:确定AI时代新任务和执行这些任务所需的技能。然后将公司现有的内部能力映射到新角色,并确定培训和新技能的必要性。
原文链接:https://mp.weixin.qq.com/s/lS4HQOGSLsgsDZhIG3YXMg
编辑:陈茗

256#
 楼主| 发表于 2019-10-14 18:38:20 | 只看该作者
【案例】
最新发布:我国人工智能产业创新趋势与百强解析(可免费获取)


河北石家庄
12 Oct 2019
2019中国国际数字经济博览会“新一代人工智能高峰论坛”今日举行。本次论坛由2019中国国际数字经济博览会组委会主办,中国电子信息产业发展研究院承办,人工智能产业创新联盟协办,会上,赛迪顾问股份有限公司副总裁宋宇,对中国人工智能产业创新趋势与百强企业进行了解析。

近年来,人工智能发展势头强劲,与其他产业加速融合,在产业和资本的对接下,涌现出了大批极具发展前景的人工智能企业,正确理解人工智能目前的竞争能力、发展状态,成为行业的重要任务之一。

赛迪顾问人工智能产业研究中心通过建立指标体系,对700余家中国人工智能主流企业进行定量评估,评选出2019赛迪人工智能企业综合实力百强榜。


以下是论坛现场的PPT:

原文链接:https://mp.weixin.qq.com/s/C-csWfmi_XlsDoieytL4cw


编辑:董莉

257#
 楼主| 发表于 2019-10-15 18:51:17 | 只看该作者
【案例】
正确看待人工智能应用前景

党的十九大报告提出,加强应用基础研究,拓展实施国家重大科技项目,突出关键共性技术、前沿引领技术、现代工程技术、颠覆性技术创新。人工智能就属于其中的“颠覆性技术”。人工智能会不会“碾压”人类?它将给人类社会带来哪些巨变?
人工智能从技术角度通常可分为三个阶段,即计算智能、感知智能和认知智能。在计算智能方面,机器已绝对超过人类;感知智能就是让计算机能听可看会说,现在基本上可以与人媲美,在医学影像读片等特殊任务中甚至超过人类;认知智能是指对知识的理解、推理、应用,目前机器在阅读理解等方面的能力已接近人类。人们不禁要问:这样发展下去,人工智能是不是很快会全面超越人类?
专家给出的答案是否定的。人工智能的发展前景不可限量,但离赶超人脑还有非常漫长的距离。人类的行为和社会生活复杂多变,不可能用简单的规则来概括、描述,目前还没有通用的人工智能技术,所有人工智能应用都被限定在特定场景中。人工智能目前的发展阶段,相当于当年蒸汽机火车刚推出的时候,离赶超人脑还非常漫长。应理性看待人工智能的广阔前景,不要过分热捧,否则可能导致又一个寒潮期。
人工智能现在已经被应用到越来越多的行业中。比如,工厂里的机器手臂,餐厅里的送菜机器人,智能家教,等等。越来越多的人工智能应用出现在我们的身边,并且开始进入一些和我们生活息息相关的行业领域。一部分人工智能应用开始创造新的生活方式:结账不用掏钱包,过安检不用拿身份证,回家不用找钥匙……这一切,都可以靠“刷脸”解决。这些解放双手的操作,依赖于人工智能的人脸识别技术。不得不说,这的确让人们的生活更丰富、更便捷了,这是时代的进步,我们应该为之感到庆幸。
毋庸置疑,人工智能会取代一些工作岗位,但也会创造新的工作岗位,只是工作方式不一样。人工智能可以显著提高人类的工作效率。原来依靠人工去识别、审核图片和视频,工作量很大、速度很慢,现在则完全可以交给机器,能快速过滤掉大部分无用信息,节省人力和时间。国内不少电商平台和快递公司在物流领域布局人工智能,配备了智能机器人进行快递分拣,有的机器人只需充电几分钟就能工作几小时。这些智能机器人能识别出快递的面单信息,然后设计出最优分拣路线。利用人工智能帮助医生识别医学影像,寻找其中的病根症结,是很多人工智能公司近年来开发的新技术。
人工智能可以拓展人类的感知。人的感官只有耳朵、眼睛、鼻子、嘴巴等,人工智能可以拓展人类的感知能力和行动能力。少数人天生就有听觉障碍、视觉障碍等,人工智能可以弥补这些缺陷。人工智能还可以帮助人类探索新的未知领域。人脑是如何持续学习、积累知识的,人是如何产生情绪和意识的,目前还不太清楚。有了先进的算法之后,结合数据做快速分析和跨领域综合比较,有望探索人类认知和心灵层面的东西。人类可借助人工智能探索浩瀚宇宙和深邃海洋。
人工智能正在深刻改变通信产业。通信网络优化是一项改进延迟、带宽、设计或架构的技术,是能以有利方式增加数据流的技术。对于通信服务提供商来说,优化可以直接转化为更好的客户体验,除了带宽不足之外,运营商面临的最大挑战之一是网络延迟,像手机上的AR、VR等应用,只有极低的延迟才能达到最佳效果。运营商将基于AI的解决方案集成到5G无线技术中,利用边缘计算减少带宽限制,并与云进行通信。
我国在人工智能人才储备和数据研发上有优势,但在制造业应用方面的基础技术还不够成熟,同时,人工智能在制造业应用场景中也需要创新。理性看待人工智能行业发展,避免非理性炒作,有利于人工智能的整体发展。落实人工智能国家战略,必须打造人工智能“人才矩阵”,形成基础能力、源头创新、产业研发、应用开发、实用技能等多类型人才并重并用的局面。
总之,人工智能把人类从单调低级的劳作中解放出来,人们可做更有创意、更有价值的事情。人工智能给人类社会带来的影响将是全方位的,会让我们的生活越来越美好。

原文链接:https://mp.weixin.qq.com/s/tJKFGo2amNl_Pe7yakH7FQ


编辑:董莉

258#
 楼主| 发表于 2019-10-15 23:02:18 | 只看该作者
【案例】
王坤宇:脑机接口与人工智能影像

内容摘要

近段时间以来,有关脑机接口技术这一重要人工智能技术突破的信息不绝于耳,虽有媒体夸大之嫌,但不可否认的是,这种技术通过与话语、影像形成的双向互动形塑着当代人的想象。一方面,脑机接口技术的发展为如《神经漫游者》等在人工智能技术及相关话语影响下产生的文艺作品注入了新的创意——本文作者王坤宇便基于大量电影文本(如《攻壳机动队》、《阿丽塔:战斗天使》、《黑客帝国》、《我,机器人》等),从三个叙事维度进行分析,强调脑机接口所带来的三个重要的创意潜力:人机互联的身体奇观、后人类新伦理语境以及赛博世界观的影像化呈现。另一方面,作者虽然强调人工智能技术对当代人类社会的建构所起到的重要性,但同时又强调,我们需要意识到我们的认知正是被影像、话语和技术共同型塑而成。这不仅拓展了人们的想象空间,也同时为人类思考当下处境提供契机。这些都是此类影像的价值,也是对人类未来发展方向的警醒。


本文原刊于《文艺论坛》2019年第5期,感谢作者王坤宇授权文艺批评转载!


大时代呼唤真的批评家


王坤宇


脑机接口与人工智能影像

近段时间以来,有关脑机接口技术(BCI,Brain Computer Interface)取得突破的消息不绝于耳,这引发了笔者的好奇。忙向长期致力于神经心理学研究的一位著名学者求证,她的回答很耐人寻味:梦想照进推文。继而又连续强调“任重而道远”。也许当前的媒介环境夸大了脑机接口技术的进步,但是在科幻小说和科幻电影中,这一概念和意象不断复沓却是不争的事实。惯常开脑洞的埃隆·马斯克甚至已经成立了一个名为Neuralink的公司,试图将科幻电影中的人机互联的情节变成现实。这不得不让我们思考以下的几个问题:第一,脑机接口技术到底是什么?第二,叙事、影像何以热衷于这一技术的呈现,二者之间具有何种关系?第三,科幻是否会照进现实,如果可能,意味着什么?本文试图在对脑机接口技术的探索和相关科幻文本的勾陈中回答这几个问题。


从霍金的轮椅谈起



著名物理学家、宇宙大爆炸学说的提出者史蒂芬·霍金患有渐冻症,他的后半生均在轮椅上度过。而他的轮椅被认为是一个典型的脑机接口的案例。



斯蒂芬·威廉·霍金
(Stephen William Hawking,1942.1.8-2018.3.14)

霍金在1985年就失去了口语表达能力。一位电气工程师为他设计了一个电脑程序,而后这个程序又被升级为记录霍金语言的设备。它可以每分钟“翻译”出物理学家的15个词汇,通过文字显示出来。20年后,霍金的肢体全部僵化,戈登·摩尔为他设计了升级版的轮椅。通过霍金的面部肌肉的动作来和系统互动,生成备选的语词,并进而用眼球控制红外线发生器以选定具体的词汇。六年后的2011年,霍金的眼球也不能动了,于是程序再次升级,具有了预测功能。但是霍金似乎与这一版本磨合地并不是很成功。


在霍金的案例中,我们清晰地看到人脑与计算机之间的交互,或者抽象一点说是碳基与硅基之间的交互。为了更加具体地了解这个技术,我们首先应该对其内涵和外延稍作了解。脑机接口技术是一种涉及神经科学、信号检测、信号处理、模式识别等多学科的交叉技术。[1]这种交互可以有三个不同的类型:人脑对程序的指令,程序对人脑的作用和二者之间的主体间性的作用。这一技术以脑科学和计算机科学为基础,通过对脑侵入、半侵入和非侵入式的电极介入来实现对神经信号的记录、破译,从而可以对残障人士的辅助治疗,并可以在军事领域实现对人有机肢体的机械化加强等应用。侵入式脑机接口主要用于重建特殊感觉(例如视觉)以及瘫痪病人的运动功能。此类脑机接口通常直接植入到大脑的灰质,因而所获取的神经信号的质量比较高。但其缺点是容易引发免疫反应和疤痕,进而导致信号质量的衰退甚至消失。非侵入式的神经成像术作为脑机之间的接口,记录到的信号被用来加强肌肉植入物的功能恢复被试的部分运动能力。虽然这种非侵入式的装置方便佩戴于人体,但是由于颅骨对信号的衰减作用和对神经元发出的电磁波的分散和模糊效应,记录到信号的分辨率并不高。很难确定发出信号的脑区或者相关的单个神经元的放电。埃隆·马斯克的Neuralink公司走得更远,追求用一种叫做“neural lace”(神经织网)的技术,通过经静脉传输在大脑皮层中植入一层人工智能内壳来将人类大脑与计算机连接起来而可以上传或者下载思想。马斯克的终极目标是彻底改变大脑和机器的沟通方式,让人类与软件能够进一步融合而跟上人工智能(AI)的发展脚步。总体而言,脑机接口技术虽然取得了一定的成果,例如使部分残障人士重获语言、视力和运动能力等,但是离人们预想的状态还相差甚远。其可能对人的加强工作也尚处在非常初级的试探阶段。但是在艺术领域,通过对现有技术的点染和想象,已经将这种技术的可能性延伸到了登峰造极的地步。


脑机接口题材的叙事潜力



有关脑机接口的电影有《攻壳行动队》(Ghost In Shell)系列,《机械战警》(Robocop)系列,《黑客帝国》(Matrix)系列等,最新的电影有《阿丽塔:战斗天使》(Alita: Battle Angel),此外还有《环太平洋》等更加概念化的制作。如果我们向前推溯,这一题材电影都可以在威廉·吉布森的划时代性科幻小说《神经漫游者》中找到创意的基因。但是这种创意并不是孤立存在的。脑机接口创意往往和人工智能电影的其他创意共同构成错综复杂的奇观体系。在深入探讨这一题材之前,我们首先要对其上一级种属人工智能电影有一个较为清晰的认识。



《神经漫游者》  [美] 威廉·吉布森
(江苏文艺出版社2013年版)

人工智能电影是在人工智能技术以及相关话语影响下产生的一种科幻电影亚类型。以控制论、生化技术、数据的无界流动等作为整合影片的高概念。以人机关系、伦理蜕变、末日核爆、人机战争等作为叙事主题。以未来装置、后人类身体、末世黑色美学等作为美学建构的基础。这种亚类以其对未来人工智能世界的世情呈现区别于时空穿越、外星接触等其他科幻亚类。是一个由想象力和技术话语联袂合成的,有关人工智能和人类存在反思的符号体系世界。[2]


从这个定义可以看出,存在一个递归的逻辑关系:脑机接口创意—人工智能亚类—科幻电影类型。脑机接口创意是人工智能电影最为重要的意象之一,为人工智能电影带来三个方面的叙事空间:人机互联的身体奇观、后人类伦理冲突和新的赛博宇宙观。



《阿丽塔:战斗天使( Alita: Battle Angel)》

超越肉体身体的局限是人类一直以来的冲动。麦克卢汉将自己的《理解媒介》的副标题定为“身体的延伸”。人类自从开始使用工具就不断地通过具象(工具)和抽象的媒介(符号、技术)在延伸着自己的身体。从这个意义上讲人兽(自然物)转换、灵魂出窍等原始创意无不源自于人的这种冲动。我们可以发现人类的想象力很容易被其所处的科技阶段所框定。例如《弗兰科斯坦》中的科学怪人的身体事实上是一个将机械化思维类比人类身体,并辅之以电力来驱动这一人肉机械。而到了《大都会》对于拼接身体的想象则与大工业和资本主义对人的异化共振。脑机接口带给人工智能电影的创意首当其冲地是对身体的加强,《阿丽塔:战斗天使》是一个较为典型的案例。主人公阿丽塔一方面具有人类中美丽少女的外表,另一方面除了大脑之外又都是机械加强的存在。这一点和更早的机械战警是相似的。所不同的是机械战警是一个男性的形象,而这部电影的主人公则是一个软萌的少女形象。通过对人脸-机形的这种拼接,创造出奇特的身体景观。而这种拼接还可以有很多其他元素的排列组合。例如丑陋男人的脸与强劲的机械身体,漂亮女性的脸与章鱼似的机械臂等。但是无论如何,这种拼接还是皮相的、机械式的。一定程度上也可以说,与科学怪人式的拼接具有很强的继承关系。而这类电影叙事中的脑机接口事实上与科学怪人身体上的缝线的叙事功能是相似的,并没有深入到人工智能概念的深层。


脑机接口创意的另一个重要的意义是创生了一个人机互联的后人类新伦理语境。后人类话题由来已久,从福柯在《词与物》的结尾喊出了:“人是近期的发明,并且正接近其终点……人将被抹去,如同大海边沙地上的一张脸。”[3]之后就不绝于耳。目前最有代表性的是《人类简史》和《未来简史》的作者尤瓦尔·赫拉利,他认为自由、平等、博爱的精神将被“算法”所取代。在人工智能电影方面,《攻壳行动队》系列是一个典型。这部影片也仍然沿用着《大都会》式的人形设定,真人版电影女主角由好莱坞最当红的性感影星斯嘉丽·约翰逊担任。但是与其他类型的人工智能电影不同的是,“少佐”素子脖子上的接口不断被特写。除了充电接口之外还有数据接口。“素子”是一个拥有人类大脑和机械身躯的“义体人”。这枚大脑曾经随着年龄的增长数次更换义体,并逐渐和义体之间完成了相互的驯化。影片的英文名(Ghost In Shell)具有很强隐喻意。Ghost(灵魂)代表着人文主义的价值传统。而Shell(壳)则是后人类时代可以被替换的身体。这个隐喻暗示着以下的几重伦理关系的重审:灵魂与身体、人与物、义体人与人类,义体人与义体人、人与数据等。这使得既有的人类伦理体系不再够用。这多重关系为此类电影的叙事打开了繁复的空间。正如《攻壳行动队》系列所塑造的那样:政治与资本的张力、人性与物性之间的抉择、数字与实体之间的转换等令人目不暇接。



《攻壳机动队》 《黑客帝国》



脑机接口的第三个重要的创意潜力是赛博世界观的影像化呈现。典型的案例是《黑客帝国》系列。赛博空间(cyberspace)是一个已经被用烂了熟词,但这个词却远不止我们今天网络空间这个简单的含义。《黑客帝国》开创了一种数码与肉身之间转换的哲学。我们可以仿照“道成肉身”来将其设定为“码成肉身”。而这个转换的关键在于插入主人公尼欧和其团队脑后的探针这一意象。影片并没有详细交代这种转换功能是如何获得的。而是着力地展示了赛博空间内部的博弈。而这种博弈包括三个方面的指涉,一是大脑的潜意识感知,二是赛博空间与现实之间的转换,三是对于现实和存在的不可靠性的揭示。或者说,人类的生活也许是一种代码化的生存,只是自己不自知罢了。尼欧第一次看到仓中的监视员盯着电脑屏幕上的代码目不转睛地观看、并意识到那就是自己刚经历的惊心动魄的一幕时,感到非常惊诧。但是对于这种状态,监视员却轻描淡写地对他说:已经习惯了。对于那位监视员来说,这些代码就是尼欧刚刚经历的居室、电话亭、打斗或者爱情。


换一个角度看这个问题,这种以身体形式展现在屏幕上的形象和故事也正说明了接受者认知的局限性。我们习惯于用身体想象和思考,电影也用身体来呈现抽象的数码故事。后人类身体美学在人工智能电影中的呈现一定程度上是一种后人类时代的影像的拟人形态。


技术、话语与影像的关系



伴随着人工智能技术的博兴,有关人工智能的各种话语甚嚣尘上。无论是有商业炒作之嫌的alphago、alphazero、alphafold, 沙特的索菲亚,小冰;还是各类人工智能的论坛、会议;以及各级行政部门出台的鼓励发展人工智能的文件,都一再复沓着这一概念的炙手可热。而对这一技术缺乏深刻认知的大众(哲学家、文学家、剧本创作者、相关社科人文研究者、批评者、公众等)正是在懵懵懂懂、半知半解的状态中被拉扯进入了这一话语场域,开始面对人工智能的智力、人工智能美学、各行各业(法律、伦理、教育等)可能受到的冲击等似是而非的问题。在这样的语境中,人工智能电影大热在情理之中。而与此呼应地,人工智能电影反映、点染着这一技术,直至在想象的层面上将其推向极致或不可能之域。面对着这一现象,我们需要厘清技术、话语和影像之间的关系。


人工智能技术是型塑当代社会的重要力量,作为一种工具理性和实践技术,成为建构人类社会的刚性存在。人工智能电影作为一种典型的类型电影,也正是对这种社会热点技术和话语的呼应。但这种呼应并非是被动的,而是一种多维度、多向度的延异。[4]这种延异构成了瑰丽多彩的人工智能电影的人物(怪物)形象和故事情节。人工智能电影对于接收者具有激发性、启蒙性,其所塑造的形象,探讨的伦理、哲学问题有可能成为思维的质料,从而回哺人工智能话语。



《我,机器人 (I, Robot)》

技术、话语和人工智能影像之间的关系体现为双向互哺的特征。人工智能技术是人工智能电影点染的原点,电影提供了一种对于技术和话语的可能性的影像符号化路演。人工智能电影中展现和想象的世界又大大地超越当前的人工智能技术。人工智能的社会热点话题处于二者之间,起到一个桥梁的作用。话语对技术做了放大处理,而影像则在话语的基础上对于这一问题进行展现和表现。这类探讨是否会对技术人员产生一定的启示作用呢?这个问题已经被很多科学家的“夫子论道”所回答。爱因斯坦认为:“想象力比知识更重要,因为知识是有限的,而想象力概括着世界上的一切,推动着进步,并且是知识进化的源泉。严格地说,想象力是科学研究中的实在因素。”[5]在2017年世界机器人大会8月24日的主论坛上,意大利比萨圣安娜大学生物机器人教授帕奥罗·达利欧(Paolo Dario)发表了《机器人伙伴:科幻如何变为现实》的主题演讲。特别提出了《我,机器人》的例子,和爱因斯坦一样,他也指出科幻电影里包含很有价值的观点,甚至是很现实的东西。[6]从这个意义上来说,技术、话语和电影之间体现出了双向互动的关系,而电影主要提供了一种对于技术和话语的可能性的路演。这种路演朝向不同的人工智能发展的向度,甚至是人工智能理论话语的向度。因此其可能是对这种技术的较为科学的延展,也可能是以话语为出发点的虚妄的想象。从实际的情况来看,越是早期的人工智能电影越倾向于“异想天开”,而越是晚近的,则越倾向于以科学技术为其原点展开想象。


一定程度上,我们的认知正是被影像、话语和技术所共同形塑而成。而影像对于大众文化的作用无论怎么强调都不过分,正如美国佛蒙特大学阿德里安·伊瓦克耶夫在他的《运动影像的生态学:电影、情动、自然》中所说的那样:“我们所生活和运动的世界是一个不断激荡着视听图像质料之流的漩涡。照片、电影和电视节目、录像和电脑游戏——这些以及其他的运动影像和来自于国内外一系列的全球化工具生产出来的影像搅拌、混合。”[7]这种搅拌和混合正是当前人工智能话语和艺术所使用的人工智能观念的主要特征。


但我们也应该注意到,类型电影根植于社会热点,因此人工智能电影与媒体和社会中的人工智能话语一定程度上是由人们所关注的话题而生发出来的“噱头”。但光有噱头难免沦为杂耍似的笑剧,这就需要在有了相关的话题之后还需要以情节、人物和美学建构来使得整个故事能够具有一以贯之的叙事逻辑,这就是某种类似于“高概念”(High Concept)的锻造过程,脑机接口就是其中之一。而人工智能电影不可能原封不动地展示人工智能技术,也不可能毫无选择地采纳人工智能话语。人工智能电影事实上是征用概念和话语,用来为故事服务。脑机接口正是一个人工智能电影下面一个典型的题材。



埃隆·马斯克(Elon Musk)

脑机接口题材除了拓展了人们的想象空间之外,一个重要的价值在于为正在转型中的人类提供了一个反思的意象和空间——在这样的时代人类应该如何自处?换言之,我们应以怎样的方式成为后人类(post-human)。关于这个问题,致力于Neural lace(神经织网)研究的埃隆·马斯克似乎给出了一种答案:人类与新技术笔立进化。惟其如此,人才能继续保持其主体性,从而不被扫入历史的垃圾堆。


本文原载于《文艺论坛》2019年第5期



注释:
[1] [印度] 拉杰什 P.N.拉奥 著,《脑机接口导论》,陈民铀 译,机械工业出版社,2016。
[2] 目前,人工智能电影已经有了一定的研究热度,但是全面地描述这一研究场域的论文还很少见。笔者在《人工智能电影概念:一个亟待厘清的元命题》(1.8万字)中尝试做了如上定义,仅供参考。本文将于近期发表于上海大学学报。
[3][法] 米歇尔·福柯,《词与物:人文科学考古学》,莫伟民译,上海三联出版社,2001。
[4] 本文使用这一德里达的术语,意在指出技术、话语和影像之间的混有时间维度的错综复杂的交互关系。
[5] Albert Einstein, On Cosmic Religion: With Other Opinions and Aphorisms, Covici-Friede, Inc., New York, 1931, p. 97.
[6] 笔者参加本次机器人大会的主论坛,现场聆听了该演讲,Paolo Dario是生物机器人领域专家。他认为互联网之后,将是机器人时代,正如《我,机器人》片头中的情景一样。医疗机器人“达芬奇”现在已经在西方被大量应用,而陪护机器人也将会在不久的将来成为现实。
[7] Adrian Ivakhiv,Ecologies of the Moving Image : Cinema, Affect, Nature, 2013, Wilfrid Laurier University Press Waterloo, Ontario, Canada. p.8.


原文链接:https://mp.weixin.qq.com/s/fhLWyN4mAKqvlEN-cK_5og



编辑:董莉

259#
 楼主| 发表于 2019-10-16 14:11:13 | 只看该作者
【案例】
智能边缘计算:计算模式的再次轮回

编者按:人工智能的蓬勃发展离不开云计算所带来的强大算力,然而随着物联网以及硬件的快速发展,边缘计算正受到越来越多的关注。未来,智能边缘计算将与智能云计算互为补充,创造一个崭新的智能新世界。本文中,微软亚洲研究院系统与网络研究组首席研究员刘云新将为大家介绍智能边缘计算的发展与最新研究方向。
智能边缘计算的兴起
近年来,边缘计算(Edge Computing)在学术界和工业界都成为了一个热门话题。事实上,边缘计算是相对于云计算(Cloud Computing)而言的。在云计算中,所有的计算和存储资源都集中在云上,也就是数据中心(Datacenter)里;在终端设备上产生的数据通过网络传输到云上,计算任务和数据处理都在云上进行。而在边缘计算中,计算和存储资源被部署到边缘上(边缘服务器或者终端设备),可以就近对本地的数据进行处理,无需把数据传输到远端的云上,从而避免网络传输带来的延迟

虽然边缘计算成为广受关注的热门话题的时间并不久,但边缘计算的概念并不新。早在2008年,微软研究院的 Victor Bahl 博士邀请了学术界和工业界的知名学者,包括卡内基·梅隆大学的 Mahadev Satyanarayanan 教授、AT&T 实验室的 Ramón Cáceres博士、兰卡斯特大学(Lancaster University, U.K.)的Nigel Davies教授、英特尔研究院(Intel Research)的 Roy Want 博士等,一起探讨云计算的未来时 [1],就提出了基于 Cloudlet 的边缘计算的概念;并于次年在 IEEE Pervasive Computing 期刊上发表了广为人知的名为 “The Case for VM-based Cloudlets in Mobile Computing”的文章 [2]。
此后,越来越多的研究人员开始关注边缘计算。值得一提的是,2016年,首届专注于边缘计算的学术会议 The First IEEE/ACM Symposium on Edge Computing 在美国华盛顿特区召开 [3]。目前,边缘计算已成为相关顶级学术会议(比如MobiCom)的重要专题之一。在工业界,2017年微软公司 CEO 萨提亚·纳德拉就将边缘计算和云计算并列成为全公司的战略之一。之后,各大云计算公司和运营商都纷纷推出了自己的边缘计算服务;边缘计算相关的创业公司更是不断涌现。
在人工智能时代,边缘计算不仅仅只是计算,更是智能+计算,我们称之为智能边缘计算(Intelligent Edge Computing)
计算模式的轮回:在集中式和分布式之间的摇摆
唯物辩证法指出,事物的发展总是曲折、循环往复,并在波浪中不断前进的。计算模式(Computing Paradigm)也不例外。如图1所示,如果我们回顾计算模式的发展历史,就会发现一个简单的规律:计算模式是在集中式计算和分布式计算之间不断摇摆,往复式发展前进的。
图1:计算模式的发展历史
在大型机(Mainframe)时代,计算资源稀缺,很多人共享一台主机,计算是集中式的;到了个人计算(Personal Computing)时代,硬件变得小型化,价格低廉,人们可以拥有自己的个人设备,计算成为了分布式的;在云计算时代,通过高速网络,人们可以共享云上的海量的计算和存储资源,计算模式又回到集中式的。此时,人工智能蓬勃发展,云上提供的众多智能服务带来了智能云计算。而随着边缘计算的出现,计算模式再一次成为分布式的。现在,我们不仅有智能云,还有智能边缘。
智能边缘计算的出现当然不仅仅是满足表面上的简单规律,背后有其必然性和强大的驱动力,是计算机软硬件和新应用新需求不断发展的必然结果。
首先,随着物联网特别是智能物联网(AIoT)的发展,各种新型智能设备不断涌现,产生了海量的数据。比如,监控摄像头已经无处不在(据统计,在伦敦每14个人就有一个监控摄像头 [4]),每天产生大量的视频数据。而每辆自动驾驶汽车每天更是会产生多达5TB的数据。把所有这些数据都传输到云上进行处理是今天的云和网络无法承受的。
其次,新的场景和应用需要对数据在本地进行处理。比如,自动驾驶和工业自动化对数据处理的实时性有很高的要求。数据传输带来的网络延迟往往无法满足实时性的要求,如果网络发生故障可能带来灾难性后果。再如,人们对个人隐私越来越关注,而很多数据(视频、图片、音频等)都包含大量的个人隐私。保护个人隐私的最好的方法就是在本地进行数据处理,不把个人数据传到网络上去。
另外,同样重要的是,硬件的快速发展使得智能边缘计算成为可能。随着 AI 算法的日益成熟,人们开始设计制造专用的 AI 芯片,特别是专门用于深度学习模型推理的 AI 芯片,这些 AI 芯片不仅数据处理能力强大,而且尺寸小、功耗低、价格便宜,可以应用到各种边缘设备上,为智能边缘计算提供了坚实的硬件基础。
需要指出的是,智能边缘计算并不是要取代云计算,而是和云计算互为补充,一起更好地为用户提供服务。云计算和边缘计算会不断融合;智能计算分布在不同的地方,但又相互连接,协同合作。
智能边缘计算中的关键问题研究
在微软亚洲研究院,我们致力于研究智能边缘计算中的关键问题,更好地将 AI 赋能于边缘设备(包括终端设备和边缘服务器)和应用,提高智能边缘计算的系统性能和用户体验。具体来说,目前我们主要关注以下几个研究方向:
针对不同设备的模型压缩和优化。高精度的深度学习模型通常都十分庞大,由数百万甚至以亿计的参数构成。运行这些模型需要耗费大量的计算和内存资源。虽然智能边缘设备的处理和存储能力大幅增长,但仍远远比不上云计算设备。因此,如何把深度学习模型在资源受限的边缘设备上运行起来是一个巨大的挑战。传统的模型压缩和优化(比如剪枝、量化等)主要关注的是在如何把模型变小的同时尽量少损失模型精度。然而,边缘设备的特点是类型多、差异性大,处理器类型性能和内存大小千差万别。我们认为,没有一个统一的模型能够适用于所有的边缘设备,而是应该结合硬件的特性,为不同的设备提供最适合的模型,不仅考虑模型大小和精度损失,更要考虑模型在设备上的执行性能,比如延迟和功耗等。
基于异构硬件资源的系统优化。即使有了一个可以运行的模型,如何提高模型的运行效率仍是一个值得深入研究的课题。我们需要一个高效的模型推理引擎,把系统性能提高到极致。这不仅需要软件层面的系统优化,更要有软件和硬件的协同设计,能够充分利用底层硬件的能力。边缘设备往往有着各种异构的硬件资源,比如智能手机拥有大小不同的 CPU 核(ARM big.Little)、DSP、GPU、甚至 NPU。而现有的系统往往只能利用其中一种计算资源(比如 CPU 或者 GPU),还不能充分发挥硬件的性能。我们的工作致力于研究如何充分利用同一设备上的异构硬件资源,深度优化系统性能,大大降低模型执行的延迟和能耗。
隐私保护和模型安全。如前所述,用户隐私数据保护是一个重要的课题。在边缘设备无法运行高精度模型的情况下(比如在低端的监控摄像头上),利用云计算或者边缘服务器来执行深度学习模型就不可避免。在这种情况下,我们就需要研究如何利用远程的计算资源的同时还能不泄露用户的隐私数据。另外,在边缘设备上运行模型还带来了一个新的问题——模型的安全。训练一个好的模型需要花费巨大的人力、物力。因此,模型是重要的数字资产。在云计算模式下,模型的存储和运行都在云上,终端用户无法直接接触模型数据。而在边缘计算中,模型是部署到本地设备上的,恶意用户可以破解终端系统,复制模型数据。所以,如何在智能边缘计算中保护模型的安全就是一个新的重要研究课题。
持续学习和合作学习。智能边缘计算还带来了新的改善模型的机会。目前的模型训练和模型使用通常是割裂的。一个模型在事先收集好的数据集上进行训练,然后被部署到设备上进行使用。然而,模型使用中的数据通常是和训练时的数据集不一样的。比如,每个智能摄像头由于其位置和光线的不同,它们看到的图像内容和特征都不尽相同,从而导致模型精度下降。我们认为,模型被部署到设备上以后,应该根据设备上的输入数据进行适配和优化,而且随着设备处理越来越多的新数据,它应该从中学习到新的知识,持续不断地提高它的模型,这就是持续学习(Continuous Learning)。此外,多个设备还应该把它们学习到的不同的新知识合并到起来,一起合作来改进完和善全局的模型,我们称之为合作学习(Collaborative Learning)。与主要关注如何利用多方数据集进行模型训练而不相互泄露数据的联邦学习(Federated Learning)不同,持续学习和合作学习的重点是如何在模型部署后从新获取的数据中学习新的知识。
此外,我们还关注智能边缘计算中的各种新场景和新应用,比如视频分析、VR/AR、自动驾驶、AIoT 等,特别是随着 5G 的到来,如何构建更好的智能边缘+智能云的系统,为这些场景和应用提供更好的支撑。
在过去两年,我们和国内外的高校紧密合作,在这些研究方向上取得了一系列的进展,也在相关学术会议上发表了多篇论文。其中,我们和北京大学和美国普渡大学关于如何利用缓存技术(Cache)提高卷积神经网络(CNN)执行效率的工作发表在 MobiCom 2018上 [5];和哈尔滨工业大学等学校合作的关于如何利用模型稀疏性(Sparsity)加速模型执行的工作发表在 FPGA 2019和 CVPR 2019上 [6] [7];和韩国 KAIST 等学校合作的关于如何利用 SGX 保护用户隐私的工作发表在 MobiCom 2019上 [8];和美国纽约大学和清华大学合作的关于合作学习的工作发表在 SEC 2019上 [9]。
未来展望
智能边缘计算之后是什么?计算模式会沿着既有历史路线继续轮回吗?未来会是怎样的?
我们无法准确预测未来,但我们相信世界一定会变得越来越数字化、智能化,一定会变得更加美好。在微软看来,整个世界正在成为一台巨大的计算机 [10]。不管你是在家里、在办公室、还是在路上,不管是在工厂、在商场、还是在各行各业,借助分布在各处的强大计算能力,我们可以利用人工智能处理由无处不在的传感器采集到的数据,创造出丰富多彩的工作和生活体验。未来的计算一定是以用户为中心的,智能环境和设备随时随地感知用户的状态和需求,将用户所需的数据和信息准确推送给用户,为人们提供更好的服务
这是一个技术创新的黄金时代,有无数令人兴奋的问题等待我们去解决。希望有志于计算机系统研究的同仁能够加入我们,一起为建设更加美好的未来贡献自己的一份力量。简历请投递至邮箱:[email protected]
来源:沈向洋博士在2018微软人工智能大会上的演讲 [10]
参考文献
[1] V. Bahl, "10 years is an eternity in the tech world, but we are just getting started," 19 10 2018. [Online]. https://www.microsoft.com/en-us/research/blog/10-years-is-an-eternity-in-the-tech-world-but-we-are-just-getting-started/
[2] M. Satyanarayanan, P. Bahl, R. Cáceres and N. Davies, "The Case for VM-Based Cloudlets in Mobile Computing," IEEE Pervasive Computing, vol. 8, no. 4, pp. 14-23, 2009.
[3] "The First IEEE/ACM Symposium on Edge Computing," 27-28 10 2016. [Online].http://acm-ieee-sec.org/2016/
[4] J. Ratcliffe, "How many CCTV Cameras are there in London 2019?," 29 5 2019. [Online]. https://www.cctv.co.uk/how-many-cctv-cameras-are-there-in-london/
[5] M. Xu, M. Zhu, Y. Liu, F. X. Lin and X. Liu, "DeepCache: Principled Cache for Mobile Deep Vision," in Proceedings of the 24th Annual International Conference on Mobile Computing and Networking, 2018.
[6] S. Cao, C. Zhang, Z. Yao, W. Xiao, L. Nie, D. Zhan, Y. Liu, M. Wu and L. Zhang, "Efficient and Effective Sparse LSTM on FPGA with Bank-Balanced Sparsity," in Proceedings of 27th ACM/SIGDA International Symposium on Field-Programmable Gate Arrays, 2019.
[7] S. Cao, L. Ma, W. Xiao, C. Zhang, Y. Liu, L. Zhang, L. Nie and Z. Yang, "SeerNet: Predicting Convolutional Neural Network Feature-Map Sparsity through Low-Bit Quantization," in Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2019.
[8] T. Lee, Z. Lin, S. Pushp, C. Li, Y. Liu, Y. Lee, F. Xu, C. Xu and L. Zhang, "Occlumency: Privacy-preserving Remote Deep-learning Inference Using SGX," in Proceedings of the 25th Annual International Conference on Mobile Computing and Networking, 2019.
[9] Y. Lu, Y. Shu, X. Tan, Y. Liu, M. Zhou, Q. Chen and D. Pei, "Collaborative Learning between Cloud and End Devices: An Empirical Study on Location Prediction," in Proceedings of the Fourth ACM/IEEE Symposium on Edge Computing, 2019.
[10] 沈向洋, "让云计算和人工智能帮助每一个人," 2018 微软人工智能大会. [Online].https://www.microsoft.com/china/events/ArtificialIntelligence2018.aspx




原文链接:https://mp.weixin.qq.com/s/U9vnEzumNgGlYFR-lEPfhw



编辑:董莉

260#
 楼主| 发表于 2019-10-16 14:14:20 | 只看该作者
【案例】
图灵测试还重要吗?

1
我们正在步入人工智能时代。随着人工智能程序越来越擅长像人类般行事,我们也越来越多地面临这样一个问题:人类的智能是否真有什么特别之处?还是说我们只是另一种类型的机器?有一天,我们所知道和所做的每件事,是否有可能被一个安装在足够复杂的机器人上的复杂计算机程序所复制?1950年,计算机先驱和战时密码破译者图灵(Alan Turing)做出了最有影响力的尝试来解决这个问题。在一篇具有里程碑意义的论文中,他提出,通过一个简单的测试,就可以消除人类和机器智能之间的模糊性。这个“图灵测试”评估计算机模仿人类的能力,由另一个看不见机器但可以问它书面问题的人来判断。在过去几年里,有几款人工智能软件宣称已经通过了图灵测试。这使得有些人认为,这个测试太过于容易,以至于无法用作为人工智能的有用判断。但我认为那些软件根本没有通过图灵测试,甚至在可预见的将来都不会通过。但是如果有一天,人工智能真的通过了一个设计恰当的图灵测试,那么我们就有理由开始担心我们的独特地位。图灵测试实际上一项是针对语言流利性的测试。如果理解得当,它可以揭示的是人类最独特的方面——我们不同的文化。文化的不同导致我们在信仰和行为上表现出巨大的差异,这种差异在动物或大多数机器身上是看不到的。事实上,我们可以在计算机程序中编写这种差异,这正是赋予了计算机模仿人类能力的潜力的程序。在判断模仿的流畅性时,图灵测试让我们可以通过了解计算机在社会环境中对语言的掌握,来判断它们在人类文化中的分享的能力。2.图灵测试的基础是“模仿游戏”。假定在游戏中有三个人(如下图):男A、女B,以及询问者C。C独自呆在一个房间中,C与A、B的交流只能通过两个连接A、B所在房间的传真机来完成。C需要通过和A 、B进行对话,判断他们哪个是男人、哪个是女人。A的目的是模仿女人,尽量扰乱C的判断;B的目的是尽量让C相信自己是个女人。

现在,如果我们将A换成一台机器,再按照如上规则重新进行游戏,那么C在进行判断时的准确率是否与当A是一个男人时一样?在1950年那个时期,图灵没能制定出可以让我们来评判今天人工智能软件的必要协议。首先,他建议测试可以在五分钟内完成。但他没有发现,判定者和人类玩家必须共享同一种文化,而计算机必须能试图模仿这种文化。这才导致了有的人声称已经通过了测试,而还有一些人则称测试过于简单,或者应该将物理能力的模拟包含在内。3
在随着计算机科学家Joseph Weizenbaum在近50年前创建了名为ELIZA的程序后,这一点变得很明显。ELIZA被用来模拟一种被称为罗杰斯式(或以人为中心)的心理治疗师。几个与这个程序接触过的病人都以为它是真实的,从而形成了最早的关于图灵测试已被通过的说法。但Weizenbaum很清楚,ELIZA实际上就是个笑话。这个设置甚至没有遵循图灵提供的协议,因为病人并不知道它们可能不是真的,也没有一个真正的心理治疗师同时做出反应。此外,在那项测试中并不涉及文化,因为罗杰斯治疗师需要说得尽可能少。而任何有价值的图灵测试都必须让判定者和玩家尽可能像人类一样行事。基于这是一个关于理解文本的测试,计算机需要根据前百分之几的文字编辑的能力来进行判断。如果提的问题正确,它们可以表明计算机是否理解了其他参与者的物质文化。4正确的问题类型可以基于1975年的“Winograd模式”,即两个句子之间的差别仅为一两个单词,但需要具备关于这个世界的知识才能理解。这样的人工智能测试被称为Winograd模式挑战,它于2012年首次提出,是对图灵测试的一种改进。举个简单的例子,想想下面这句有两个可能结尾的话:“这个奖杯放不进这个手提箱,因为它太小/大了。”如果最后的形容词是“小”,那么“它”指的就是手提箱;如果最后的形容词是“大”,那么“它”指的就是奖杯。若要能理解这一点,你必须了解奖杯和手提箱的文化和现实世界。你还必须了解奖杯和手提箱的物理世界,以及你是否真的触碰过这些事物。因此,采用了这种方法的图灵测试将会使那些包含了对人工智能模仿人类身体能力的评估的测试变得多余。这意味着一个基于Winograd模式的图灵测试比简单的五分钟对话更能评估计算机的语言和文化流利性。与此同时,它也设立了一个更高的标准。在2016年的一场相关比赛中,所有的计算机都惨败给了这个测试,没有任何来自大型人工智能公司的竞争者参与这场比赛,因为他们知道自己注定会失败。如果把图灵测试设置为一系列对人类创造和理解文化的独特能力的严峻考验的话,那么那些所谓的已经通过了图灵测试的说法都变得毫无意义。有了恰当的协议,测试才能达到要求。再一次,图灵又是对的。而且就我们目前的情况来看,并没有明显的途径可以创造出能够充分深入参与人类文化,并通过正确的语言测试的机器。
原文标题为“Turing Test: why it still matters”

原文链接:https://mp.weixin.qq.com/s/j2tz3NekBDUZL5TS9i9DBw




编辑:董莉


发表回复

您需要登录后才可以回帖 登录 | 实名注册

本版积分规则

掌上论坛|小黑屋|传媒教育网 ( 蜀ICP备16019560号-1

Copyright 2013 小马版权所有 All Rights Reserved.

Powered by Discuz! X3.2

© 2016-2022 Comsenz Inc.

快速回复 返回顶部 返回列表