传媒教育网

 找回密码
 实名注册

QQ登录

只需一步,快速开始

搜索
做个试验
楼主: 刘海明
打印 上一主题 下一主题

人工智能与新闻业案例集锦

[复制链接]
251#
 楼主| 发表于 2019-10-8 21:49:01 | 只看该作者
【案例】
王春晖教授在山大威海校区讲授新一代人工智能的伦理、法律与治理
930日上午,国际知名网络信息战略与法律专家、联合国丝路论坛数字经济研究院院长、南京邮电大学信息产业发展战略研究院首席专家王春晖教授应邀来到山东大学威海校区闻天楼报告厅做了题为“新一代人工智能可持续发展的伦理、法律与治理”的学术报告。报告会由文化传播学院和法学院共同举办,法学院副院长姜世波教授主持,法学院院长肖金明教授、副院长张乐教授、文化传播学院副院长张文祥教授以及两院200多名师生参加了报告会。报告会结束后,王春晖教授与两院教师进行了座谈,双方确定将在网络生态治理、人工智能法学等前沿交叉领域展开合作。
王春晖教授的学术报告从“孟晚舟事件”和“中美贸易战”切入,对事件涉及的相关法律问题进行了梳理与分析。王春晖教授围绕自己研究问题的“OAT”模式,着重探讨了新一代人工智能可持续发展的相关伦理、法律与治理的问题。“OAT”模式中的“O”代表“Observation”,即对事物的观察;“A”代表“Analysis”,即对事物的分析;“T”指“Thinking”,代表思考。他认为对一切事物的研究都要围绕这三个单词展开,都需要在进行充分的观察与分析基础之上进行深入思考。
在“Observation”部分,王春晖教授向大家展现了他对人工智能的大量观察。他认为,世界权威的韦伯词典对“Intelligence”的定义是对人工智能最好的解释。该词典对人工智能的定义为“Ability of learning or understanding things, or dealing with new ordifficult situations”。王春晖教授分析了AI60多年的演进中出现的“两次浪潮”和三大门派,以及AI的主要研究领域和分支。他认为,现在已经进入人工智能的第三次浪潮“新一代人工智能”时代,人工智能呈现出深度学习、跨界融合、人机协同等新特征。在对“可持续发展”的概念阐释中,王春晖教授认为“可持续发展”并不是一个事物发展的延续状态,而是在确保安全前提下事物发展的生态(健康)持续。
王春晖教授认为,AI的发展阶段可分为弱人工智能、强人工智能和超人工智能三个阶段,目前人工智能已经上升到了国家层面的激烈博弈。他对中美人工智能的发展与差异进行了详细分析。认为中美在顶层设计方面,对人工智能有着近乎相仿的重视程度,双方都建立了相对完整的研发促进机制。但是在基础算法和理论研究方面,中国与美国还存在相当大的差距。他认为,数据安全与算法安全是AI安全的核心。AI在发展进程中面临的最大问题不是技术本身,而是设计者的伦理价值取向。人工智能的伦理问题涉及两个方面:一是设计者的伦理,二是机器伦理。迄今为止最高的AI道德标准是AI必须为人类造福,AI永远不能成为伤害人类的敌人。但是这样的AI道德伦理水平永远只能作为一种简单工具的行为准则,而无法满足人类社会的一般行为道德规范。因此,我们应该讨论的AI伦理是一种机器伦理,这是随着计算机科学及其相关领域研究和应用的不断延伸而出现的一门新的学科,它与网络伦理、AI生命伦理等均属于计算机伦理问题研究的范围。王春晖教授认为,人工智能面临的伦理问题往往会直接转化为具体的法律挑战或引发复杂的连带法律问题,因此国家应当高度重视人工智能和自主系统(AI/AS)带来的许多复杂的伦理和法律交叉问题。
王春晖教授对AI中的伦理问题进行了梳理,并指出了将人类规范与道德价值嵌入AI系统的方法步骤。他认为,目前AI在应用过程中出现的缺乏透明性与监管、缺乏独立的审查机构、使用“黑箱”软件、以及AI的滥用等问题都增加了AI的伦理风险。在个人数据管理上,王春晖教授认为在算法时代,想要维持个体对其自身数据的控制权,就需要延伸身份保证范式,将算法工具作为个体在数字和现实世界中的代理人或者守护者。
王春晖教授通过对AI的观察、分析与思考,认为AI时代提供了网络与信息法学研究的新课题。技术加速得益于法律的滞后,因此不必过早制定规制人工智能的法律,国家有关部门或者行业组织应当从制定AI产品研发设计人员的道德规范和行为准则入手,加强对AI潜在危害与收益的评估,构建AI复杂场景下突发事件的解决方案。应加强人工智能相关法律、伦理和社会三位一体问题研究,建立保障人工智能健康发展的法律法规和伦理道德框架,确保人工智能在伦理规范和法律框架下健康发展。
最后,王春晖教授提出了AI治理的三大原则:一是AI的发展应当体现对人权的保护;二是应当优先考虑AI对法律、社会伦理和个人隐私的冲击;三是通过立法和强制性标准的制定及实施,削弱AI对人类的风险和负面的影响。王春晖教授呼吁,AI技术的应用一定要“善用其心”,人类文明因智慧的“善”用而进化,人类文明也会因智慧的“恶”用而毁灭。
学术报告最后,王春晖教授与现场师生进行了热烈互动,对老师和同学们提出的问题逐一进行了解答。
王春晖,教授,博士生导师,我国著名网络信息战略与法律专家。任联合国世界丝路论坛数字经济研究院院长、南京邮电大学信息产业发展战略研究院首席专家,兼任联合国世界丝路论坛网络空间国际合作委员会主席、工业和信息化部信息通信经济专家委员会委员、中国通信学会网络空间安全战略与法律委员会副主任委员、中国互联网协会应用创新工作委员会副主任委员、中国法学会网络与信息法研究会常务理事、中国云安全联盟常务理事、中国网络安全协会理事等。担任工信部《电信法》起草专家组成员,多次代表国家参加联合国国际电信联盟国际信息通信法律的审议,荣膺2016年“科学中国人”年度人物。
原文链接:https://mp.weixin.qq.com/s/GXEyAGoj0_8-k-sWGHQruQ
编辑:陈茗

252#
 楼主| 发表于 2019-10-9 19:42:09 | 只看该作者
【案例】
美国纪录片《I AM HUMAN》:神经科技正在颠覆“人类”的定义
过去两年,我所在的美国神经科技公司Kernel参与了一部纪录片的创作。今年五月初,这部名为《I AM HUMAN》的影片终于在纽约每年最重要的艺术盛事之一——翠贝卡电影节成功首映。
这部纪录片围绕的是神经科技的迅速发展以及它所推动的“人机结合”,此外,纪录片探讨了“人类”的定义正因技术的变革而发生何种改变,甚至触及了因此带来的科技伦理问题。如此有意义的话题,我当然不会错过它的首映。
我跑到了纽约,和其它对这个话题感兴趣的人聚集在电影院里观看。虽然我看了纪录片早期的版本,提出了几次反馈,但最新的版本我还没看到。室内的灯光暗下来,眼前黑色的背景上出现了大写的片名——“I AM HUMAN”。
这些字母有一种强烈的立体感,仿佛我是戴着3D眼镜在看银幕,也使得我在脑中重复思考着这句话:“我是人类。”恍惚间,我觉得自己对“人”的理解突然变得有些模糊。
过去,“人类”是天生拥有发达的大脑和灵活四肢的高级物种。但以后呢?随着科技的迅速发展,人类和机器之间的边界越来越模糊。当人类和机器以各种方式结合时,“人类”这个词的意义会随之改变吗?人类的属性是否会越发难以定义?
我思考这些问题时,电影就开始了。我继续一边沉思,一边盯着银幕。
神经科技第一批吃螃蟹的人
一个下雨的日子,比尔(Bill)正骑着单车参与一项慈善活动。突然,一辆邮政车急停在他身前。而比尔却没来得及刹车。这场车祸导致他胸部以下的部分全部瘫痪。他的自理能力,仅剩下用语音调节房间百叶窗的升降以及电动床的角度。其他的一切事务,他都得依靠全天候的人工护理。
安妮(Anne)患有帕金森综合症。由于双手持续的颤抖,她几乎无法自己化妆、烹饪,或者进行她最爱的活动——绘画。焦虑以及精神疲惫也让她很难像之前一样和家人朋友相处。
直到自己的世界变成一片苍白,斯蒂芬(Stephen)才知道他天生就患有疾病。失明后,他的世界崩溃了。现在,他独自居住,与外界接触的事情都需要妹妹的帮助。
当越来越多的人开始考虑接受实验性脑部治疗,比尔、安妮和斯蒂芬成为了其中的代表。这种治疗需要在他们的头盖骨内放进植入体。患者希望由此重获失去的东西——行动、身体控制、视力,以及他们独立生活的能力。
治疗人员询问比尔,他是否愿意植入一个大脑接口,来帮助他恢复一些行动能力。
安妮正在考虑进行大脑深层刺激,通过在大脑中植入电极来刺激身体的特定部位(例如稳定安妮的运动系统),缓和身体持续的震颤。
斯蒂芬则在考虑接受一项名为Argus的治疗——在眼睛底部植入芯片,连接到大脑中的电极,试图恢复他的一些视力。
以上三种治疗手段都隐藏着极高的风险。患者不仅要接受开颅手术,医生还要给他们的大脑连接上电极来控制个体神经元。治疗过程需要保证极其严格的精确性,一毫米的偏差就能决定治疗的成功或失败。
手术本身的风险之外,这种治疗还可能带来可能超乎预料的副作用。由于医生要切入患者的大脑,这是否会造成他们性格、动机和生活理念的改变?
比尔、安妮和斯蒂芬都进行过思想斗争,但是他们最终还是决定接受治疗。
解码大脑中的信号
纪录片跟踪了比尔、安妮和斯蒂芬各自脑机接口手术的全过程,也呈现了目前神经科学发展的现状。
世界上已经有数十万的人进行了脑机接口的植入。这项技术的研究可以追溯到20世纪70年代。有专家预测未来十年,脑机接口植入者的数量将达到100万。就像比尔,安娜和斯蒂芬一样,这些人头盖骨内的电极,从大脑中输出“数据”,并向目标的神经元输入电流,调整大脑的运作。
但是,尽管我们现在可以通过脑机接口来影响个体神经元,但是我们依旧对大脑知之甚少。
目前,人们估计大脑中含有1000亿个神经元。神经科学家米格尔·尼科莱利斯(Miguel Nicolelis)指出:“1000亿,这个数字是以前人们认为的宇宙中星系的数量。”即使数字如此庞大,它也无法准确传达人脑的复杂性。
另一位神经科学家大卫·伊格曼(David Eagleman)表示:“每个神经元都像洛杉矶这座城市一样复杂,它连接着1万个邻居,所以你实际上有500万亿个连接关系需要辨识,来帮助你理解人类大脑。”
计算机科学家拉米兹·纳姆(Ramez Naam)简单地概括:“人类大脑是我们在自然界中能接触到的最复杂的物体。”
大脑就像一个黑匣子。我们所做的每一个动作背后,都是众多神经元之间用未知语言进行的快速指令交换。研究人员动用一系列技术来“窃听”大脑内部的对话,例如脑电图,大脑深层电极以及核磁共振成像技术。但是,这些手段依然不能提供足够的数据,来帮我们解码神经元之间的交流用语。
Kernel的创始人布莱恩·约翰逊(BryanJohnson)将这个问题形容为:“神经科学领域的每一步突破都极其艰难。科学家正在试图攻克这些极度复杂的问题,挑战不可能完成的任务。这种挑战令人兴奋,同时也让人手足无措,因为通往成功的道路混沌不清。”
增强大脑的功能
I Am Human》是一部神经科学主题纪录片,但是影片探讨的问题的深度远远超越了科学本身。
人缘何为人?科技如何使人进化?如何帮助我们重获失去的能力,又给予我们抵达不可触及之境的能力?
如果科技能帮斯蒂夫重获光明,更能帮他提升视力,让他在黑暗中也能看得清,如果科技可以让比尔不仅能移动双手和胳膊,还能用大脑直接打字?那么,我们能否提升记忆力?能否提高学习能力?能否根治抑郁症?
影片的联合导演泰琳·萨顿(Taryn Southern)分享了她的观察:“我十分想探索如何去拓展我们的感知和处理能力。我们知道,大脑通过视觉、触觉、味觉、听觉等感应来获取数据。但是这些数据可能不能完全反映现实世界。其他生物的大脑可能通过不同的方式获取数据。例如,蝙蝠就具有回声定位能力,通过发出声波并分析回声来判断它们在空间中的位置。如果我们也具有那种能力会怎样?如果我们可以感受电磁波或者紫外线会怎样?这些能力可以让我们更接近物质世界的真相,这些真相是我们当前无法通过工具触及的。”
当提及神经科技对于每个人日常生活的影响时,她补充说:“有了这些能力,我就可以摆脱日常压力所带来的无意义的犹豫和恐慌。”
这些想法不仅存在于科幻小说的场景中。埃隆·马斯克(脑机接口创业公司Neuralink创始人)和马克·扎克伯格(Facebook创始人)都投资了脑机接口项目。Kernel也在研发另一种脑机接口,来实现高分辨率大脑活动的日常应用。
尽管将技术转化成现实成果困难重重,但是进步和突破正在发生,它们甚至有可能比想象得更快影响人们的日常生活。
但是在此之前,能够从脑机接口中获益的,是像比尔、安妮和斯蒂芬这样的人。
手术完成后,比尔可以自己用餐了;安妮又能拿起画笔绘画,和家人共度时光;斯蒂芬多年来第一次看到了他的妹妹。对于他们,脑机接口没有减少他们身上“人”的成分,反而重建了让他们更好“为人”的能力。
改变人类的定义
灯光又照亮了室内。我扫视了观众,不少人的眼睛是湿润的。他们还是注视着已经换回黑色的屏幕,没有人说话。我可以看出来,他们和我一样被比尔、安妮和斯蒂芬的故事触动了。
我思考着神经科技所能给人的帮助,也不由得想起Kernel正在研发的脑机接口。以后,人们会怎么看待更先进的神经科技的出现?我估计没有人会反对用脑机接口来恢复人失去的能力,但如果该科技增强了大脑的功能性,增添了新的认知能力,这些应用人们可以接受吗?
这时,我的脑海里浮现了纪录片中哲学和法学教授妮塔·法拉哈尼(Nita Farahany)提到的问题:“如果我们开始对大脑修修补补,如果我们开始改变大脑……我们就是在根本上改变人类的定义吗?如果答案为‘是’,我们能接受吗?”
未来的神经科技不只会有解码大脑信号的能力,更会有调整、改变大脑的功能。此外,随着人工智能和其它科技的发展,我们会有更多的机会用这些科技提高我们的认知和其它能力,和这些科技结合起来。20年、50年、100年后,我们人类会在本质上经历什么样的变化?
是的,我想这些疑问代表了我们这一代最重大的机会,也是最困惑的难题!
注:《I  AMHUMAN》的发行渠道正在确定,估计今年稍后会与全球观众见面。
原文链接:https://mp.weixin.qq.com/s/mCrG7JfvICqS585VTBDESw
编辑:陈茗

253#
 楼主| 发表于 2019-10-9 19:45:24 | 只看该作者
【案例】
走向人机协同:算法新闻时代的新闻伦理
【摘要】人工智能飞速发展的今天,新闻格局也在重构。算法新闻正在展现强大的发展势头。在算法新闻中,由于算法偏见、信息茧房等导致的新闻伦理失范问题,不但让我们重新呼唤新闻专业主义的回归,也让我们在算法新闻的大潮中寻找新的路径,来积极构建负责任的新闻生产。坚持工具理性与价值理性的统一,建立“人机协同”的模式,是我们重新构建新闻伦理的一条路径。
【关键词】新闻专业主义;算法偏见;信息茧房;人机协同
随着人工智能和互联网、大数据等科学技术的快速发展,新闻领域也正在发生着巨变。从印刷时代开始的传统新闻模式正在向“互联网+”时代更具有交互性和体验性的智媒体新型模式转向。人工智能算法作为一种技术,在新闻生产与推送的过程中,扮演着越来越重要的角色。对算法新闻的追求往往伴随着争议,尤其在新闻伦理层面的争论十分激烈。近年来,在算法新闻讨论中,我们常常可以看到各方不同的意见。算法新闻的发展趋势已经不可避免,新闻媒体如何能够借助这一场技术革命带来的红利,赋予新闻生产以新的价值和意义,这是所有新闻行业相关者所关心的问题。为此,笔者希望通过分析新闻伦理在新形势下所面临的挑战,来探讨如何让算法新闻实现更加良性的发展。
一、算法新闻的兴起
(一)何为算法新闻?
近年来学界对于算法新闻的概念讨论逐渐增多,使得这一概念逐渐成为具有专业性的术语。有关它的表述有机器人新闻、自动化新闻、数据驱动新闻、计算新闻和算法新闻。有观点认为采用“算法新闻”这一概念更为严谨。算法新闻是运用智能算法工具自动生产新闻并实现商业化运营的过程、方法或系统,它包括信息采集、储存、写作、编辑、展示、数据分析及营销等业务的自动化实现。该表述更准确地揭示了新一代新闻生产的本质特征及基本规律。[1]它具体包含了新闻编写、算法推荐、新闻平台的聚合分发等流程,它是有别于传统媒体的一种自动化新闻生产模式。其核心内容就是一套适用于新闻生产流程的算法机制,也就是技术在新闻生产中的比重被前所未有地强化。
自动写作技术先驱Narrative Science公司的联合创始人兼CTO哈蒙德在2011年就曾经预测,在未来的15年内,90%的新闻稿将由计算机算法写成。算法新闻近年来发展迅猛,显示了大数据和人工智能技术在新闻领域的巨大推动力,这也代表了未来新闻生产的趋势。
相较于以往,算法新闻的不同在于,它为新闻生产带来的变化是本质性的,其核心内容主要体现在两个方面:
一是传统新闻的编写主体是人,算法新闻中编写的主体则是机器。在传统媒体时代,新闻的采编和推送依靠的是记者编辑。而进入算法新闻时代后,在新闻的生产过程中包括了数据的抓取、信息处理和分析、新闻编写、新闻推送与分发。这一流程可以通过算法的自动化来进行。
二是新闻推送采用算法推荐。以前的纸质媒体和门户网站,主要通过人工编辑来进行新闻的分发和推送。而算法新闻时代,出现了更多的新闻聚合类平台。它们通过大数据的分析对用户群进行分类,利用推荐算法进行新闻的分类推送,为读者市场提供个性化的新闻服务。这无疑已经成为当前媒体生产模式的主要力量。
(二)算法新闻的实践与争议
算法新闻的技术应用近年来不断发展,从最初的机器人写作尝试开始,到现在的新闻推荐算法广泛的市场化应用,算法新闻给传统媒体带来了更多的挑战。在算法新闻最先开始应用的欧美国家中,对算法新闻利与弊的争论随着其在新闻生产领域的大步扩张越发激烈,甚至也带来更多矛盾与冲突。
一是机器人写作的推广应用。2006年,美国汤姆森金融公司开始使用电脑程序编写一些财经方面的新闻。这在当时引起了关注,质疑也随之而来。在随后的几年内,机器人写作发展迅速,一些自动化写作公司开始崛起,如Narrative Science公司、Automated InsightsYseop等。在传媒领域,美联社、《华盛顿邮报》《洛杉矶时报》等媒体竞相投入使用机器人写作,BlossomHeliografQuakebotWordsmith等新闻写作软件得到广泛应用。其快速、准确和高效的运作模式,确实给新闻生产带来了巨大的便利和好处。我国机器人写作步伐近年来也在加快。2015年,腾讯推出了由机器人写手Dream writer编写的第一篇新闻报道。新华社的“快笔小新”、“今日头条”的“张小明”陆续上岗。机器人写作是算法新闻最早也是最主要的形式。它一出现就展现了强大的优势。首先是它的高效。从率先在财经、体育新闻中大展身手,到扩展至更多领域,从最初的程序化写作,到开始尝试提供个性化新闻。其次是新闻生产自动化。它可以轻而易举地准确快速实现数据抓取和编写,把记者从重复性的琐碎劳动中解放出来。
但是,机器人新闻写作几乎在它投入新闻生产之初就受到了来自各方的质疑。其一,由于技术操作依靠软件和算法作为驱动,它被认为无法展现数据背后的深刻含义,也就是缺乏深度和个性。其二,同样为人所诟病的是,它缺乏人的言语的灵活性及情感表达,无法体现思想性与新闻信息的统一,也缺少与受访者直接的交流,尤其是情感上的沟通。因此,也有人将其称为没有温度的新闻。其三,机器人写作现在可以根据客户需求,制定个性化的写作模板。但是,在这个模板上输入信息的过程中同时也对某些信息进行了初步过滤。用户所看到的新闻可能只是事件的一个测写。算法新闻的实践证明,这一新兴模式的发展可能会面临更多的试错。
二是推荐算法设计下的新闻推送。当前,平台媒体已经成为新闻推送的主要场所。为了抢夺市场,FacebookTwitter等媒体平台借助推荐算法,开始实行个性化的新闻推送。机器算法代替了人工编辑。通过数据抓取分析,对用户的兴趣爱好进行测算,进而将分析测算的结果运用到新闻推送中,针对不同的目标群推送其感兴趣的新闻资讯。这些平台媒体往往主导着新闻产品的聚合和分发,支配着新闻传播的流向。
推荐算法新闻主要分为:热门推荐、根据用户的兴趣爱好进行推荐。通过协同过滤原则,算法推荐新闻确实更为高效和精准。但是,也存在令人担忧的问题。用户往往因为有选择地接受某一类信息,而被屏蔽了其他方面的信息。由此引发的“信息茧房”效应往往不利于受众对社会公共事件的全面客观了解。用户沉浸在算法推荐下的信息圈内,形成一个个封闭式环境,不同的社会群体之间的壁垒将被强化。另外,机器算法推荐替代人工编辑,也会导致导向错误和低级垃圾信息通过平台传播,造成不良的社会影响。
三是传统媒体与新型媒体的竞争。皮尤研究中心(Pew Research2016年的调查报告就显示,大多数美国人喜欢用手机看新闻,而在Facebook用户中,超过三分之二的人主要是为了看新闻而使用该服务。2016年有66%Facebook用户通过这个社交网络来阅读新闻或新闻标题,这一数据在2013年底时只有47%。该中心2018年的报告指出,大约三分之二(66%)的人认为机器人账户发布的新闻对美国人时事的了解程度有很大的负面影响,几乎没有人认为它会产生正向影响。公众认为新闻环境中机器人产生的新闻越多,人们了解事实真相的难度就越大。2019年,皮尤中心的报告中也显示,FacekookTwitter等媒体平台在政治、种族等方面的倾向性已经引起更多公众的担忧。
2017年,美国新闻媒体联盟(News MediaAlliance)发表声明,认为FacebookGoogle的数据演算法,单向决定了新闻的流量;另外利用众多媒体在网络上的新闻内容,又赚取高额网络广告收入。这种双头垄断让新闻媒体无力提供最优质的新闻,甚至用户经由算法将优先得到劣质的假新闻、吸收错误资讯。
在算法“主宰”新闻生产暴露出更多令人担忧的问题时,传统媒体人对新闻的专业性又重新被提及。可靠度最高的信源调查和事实核查机构StoryfulCEO Sharb Farjami2017腾讯网媒体+峰会指出,人工编辑仍是事实审核的核心,应该由技术与人工双重审核来守护新闻的真实性。
确实,算法新闻带来了新的问题,如新闻报道缺乏深度和思想性,监管难度加大,以及新闻推送对用户的“人以群分”等。要提高新闻产品的质量,仅仅依靠技术和算法显然不够,还需要加强新闻从业者的职业道德和责任意识。而在这方面,新闻伦理确实处于尴尬的境地。
二、算法对新闻伦理带来的挑战
由于算法新闻结合了新的技术,以人工智能为载体,借助算法的优势,让新闻生产和传播驶上了“高速公路”。在这个不断强化的过程中,人在新闻生产中的主体性已经不再如过去那样牢不可破。有关人工智能会取代人工,近年来写作机器人会取代记者的观点常常引发业界的关注和讨论。然而,如前所述,在算法新闻领域走在最前列的西方国家,受众对于算法新闻的评价也褒贬不一。对之的讨论和质疑主要集中在新闻职业规范和道德伦理方面。为此,考察算法新闻中的伦理问题是一个非常重要的课题。在算法时代,新闻伦理需要面对的课题如下:
(一)对新闻专业主义的挑战
算法新闻的快速发展,对传统新闻媒体带来了冲击。最先受到冲击的就是传统媒体的权威性。现代新闻业经过长期的发展和积累,自身形成了一个职业规范体系,这就是新闻专业主义。传统新闻专业主义的核心,是要求新闻从业者必须服务于社会公共利益,为社会和公众提供真实、全面、客观、公正的新闻报道。陆晔、潘忠党曾经对新闻专业主义做过专门的概括和论述,得到比较多的认可度。其对新闻专业主义的表述如下:“新闻工作是门职业(occupation),当称之为专业(profession)时,我们特指从事新闻工作必须特定的专业技能、行为规范和评判标准,而这些又必须通过专业的训练才能获取,并被新闻从业者所同意。‘专业主义’(professional)的概念则远远超出了上述职业特征。它还包括一套定义媒介社会功能的信念,一系列规范新闻工作的职业伦理,一种服从政治和经济权力之外的更高权威的精神,以及一种服务公众的自觉态度。”[2]
新闻专业主义提出了有关新闻伦理的普适性原则,要求新闻媒体为新闻报道的客观与真实性负责,对社会公共利益起到正面的引导作用,具有积极的社会意义。传统新闻媒体在新闻专业主义的标准指导下,也形成了自身的权威性。但是,自算法新闻出现以来,新闻人的主体地位开始动摇,为了追求利益最大化,互联网媒体充分利用人工智能算法抓取信息,并自动化生产新闻,然后通过算法推荐来实现新闻的推送,新闻媒体的角色被不断分散弱化,非专业者同样可以借助算法编写新闻信息,甚至在新闻推送的过程中,传统媒体新闻把关人的地位被算法所取代,根据受众的喜好进行分类推荐,带来的是更多传统新闻媒体权力被弱化,新闻媒体的权威性被瓦解。
(二)信息茧房
在算法新闻中,人们可以获取更海量的数据。但是通过大数据分析和协同过滤原则,新闻产品被分类发送给不同的目标人群。这种新闻推送的方式,在一开始可能由于其精准投放受到不少平台媒体的青睐,认为它大大提高了受众选择性阅读的效率,为客户提供更便捷快速的信息消费。然而,这也带来了更进一步的问题,那就是信息茧房效应。
美国哈佛大学法学学者凯斯·桑斯坦在其《信息乌托邦——众人如何生产知识》一书中提出了“信息茧房”概念。在信息传播中,公众自身的信息需求并非全方位的,公众因只注意自己选择的东西和使自己愉悦的通信领域,久而久之,会将自身桎梏于像蚕茧一般的“茧房”中。一方面,信息茧房造成了“人以群分”的局面,阻碍了人对社会的全面认知,阻碍了公共信息的流通,也阻碍了公共利益话题的推广,对于更多人来说,犹如陷入精心分类挑选的井中,人成为“井底之蛙”。另一方面,信息茧房可能会造成更多的偏见和误解。用户在选择信息的时候,会过滤掉一些信息,并固守在自己的圈子里。“过滤气泡”“回声室”效应等概念,也都是从不同角度对算法机制下的用户接受信息的局限性做出的描述。
(三)算法偏见
算法偏见是指程序的设计者自身所带有的偏见,被带入到算法程序设计中,从而使算法在应用中出现了某种偏见。算法偏见带来的问题往往一开始具有隐蔽性,但是对受众差别化地进行区分,尤其涉及种族、宗教、性别、年龄时,可能会造成新闻传播的不公正不对称,从而使一部分人群受益而另一部分人群利益受到损害。比如Facebook的“偏见门”事件即为算法偏见导致的典型案例:Facebook被指责热门话题榜(trending topics)受到人为操纵,新闻筛查存在政治偏见。该事件引起了轩然大波。
人工智能发展速度在不断加快,新的算法优势下,新闻的生产取得了突飞猛进的发展,而相应的行业规范尚未来得及适应这一变化。面对人工智能算法的速度和强度,新闻记者和编辑难以做出快速应对。市场已经先行一步,为了在市场上抢占先机,不少媒体不得不加快自动化新闻生产步伐。在技术一骑绝尘的路上,职业伦理和行业规范被甩在了后面。这也使不少媒体人和新闻受众对算法新闻产生了信任危机。
三、新闻伦理缺失的深层原因
以上这些问题都反映出了算法新闻在职业道德层面面临的挑战,如何让媒体合理规范地利用算法来生产新闻产品?对自动化新闻生产流程如何监控?这促使我们必须认真思考人与技术之间的关系。笔者认为,算法新闻时代我们所面对的新闻伦理困境,其实质在于人与技术之间关系的失衡,具体表现为人对工具和技术的过度依赖导致价值理性的引导缺位。
(一)从工具理性和价值理性角度的切入
算法新闻带给新闻业最大的变化就是先进技术的使用,技术合理规范的使用可以避免新闻失范行为的发生。新闻从业人员对技术和算法运用得当,可以生产出好的新闻,起到良性的社会引导作用;反之,如果技术在新闻生产和传播中被滥用,将给社会公共利益带来威胁。因此,新闻生产和传播中,我们需要认真考察人与技术之间的关系。作为20世纪后期兴起的技术伦理学,在这方面做出过深入的研究。其目的在于研究探讨如何规范技术发展并解决技术发展所带来的社会问题。这些讨论对于新闻伦理的讨论也同样具有借鉴意义。早在20世纪初,著名的社会学者马克斯·韦伯的著述中就已经关注并进行了相关的论述。马克斯·韦伯对“工具理性”和“价值理性”的经典阐释,可以用来指导今天我们对算法新闻领域中的伦理问题的探讨。
马克斯·韦伯在其著作《经济与社会》(第一卷)中,提出了“工具理性”和“价值理性”的概念。他认为,“完全理性地考虑并权衡目的、手段和附带后果,这样的行动就是工具理性的”。价值理性总是“将价值观念一以贯之地体现在具体的行动进程中”。“完全是为了理性地达到目的而与基本的价值观无涉,这样的行动取向实际上也并不多见”。[3]
马克斯·韦伯对于这两个“理性”概念的讨论,是极具理论价值的。首先,他看到了工具理性对西方经济社会发展所产生的重要作用。其次,工具理性和价值理性,两者之间本就相互关联,不可分割。再次,他认识到价值观念对工具理性具有引导和推动作用。如果工具理性和价值理性达成内在的统一,将为社会进步和人的发展带来更大的推动作用。
(二)技术与道德的关系
在中国古代哲学中,尤为重视对于价值、道德的阐释。对于物的认识,也反映了中国古代对于工具和技术的思考。儒家提倡“义利观”,要成就“君子不器”的美德,道家提倡“物物而不物于物”,宋明理学强调“格物致知”,从中我们可以找到古人关于人与工具之间关系的思想根源。
当代新儒家的代表人物牟宗三先生认为,人具有“智的直觉”,认为德行是优先于知识的。他对道德与科学知识的关系问题的思考受到了后来者的关注。他认为道德是本,科学知识是末。道德比科学知识更高一层。没有道德的根本,科学会带来罪恶的物欲,但是没有科学知识,道德理性也难以实现。“从这个意义上讲,科学知识与道德是一个有机和谐的统一体,二者合则共存,分则两亡”。[4]科学与道德关系的思考,就是思考人如何对待科学技术、如何利用科学技术的问题。这也是人与技术之间关系的问题。处理好人与技术之间的关系,人工智能驱动下的社会各行业各领域的生产活动才可以合理有序地进行,包括新闻活动也是如此。
(三)伦理困境的实质是人机关系失衡
新闻报道本身就是以人为核心而展开的,技术介入新闻报道中,如果没有得到合理规范的制约,将会产生诸多失范问题,因此道德与伦理在新闻活动中不能缺位。可以说,算法新闻所引发的新闻伦理困境的实质根源是人机关系的失衡。对算法的依赖和技术在新闻生产中的不合理、不规范使用,导致了诸行业失范行为的发生,这也在考验着传统新闻伦理的底线。要破解新闻伦理规范的困境,就要改变人机关系在新闻生产与传播中的失衡状态。
四、人机协同——新闻伦理构建的新路径
由于技术在实践应用中没有得到相适宜的引导和规范,导致新的新闻失范问题出现。要化解这些问题,使新闻媒体得以保全自身的生存与发展,就需要从伦理层面对算法新闻的生产和传播进行分析与探讨,进而建构起新的新闻伦理规范和职业道德。通过反思人与工具、技术之间的关系,有助于我们探讨如何在新闻活动中正确看待算法以及合理规范地运用算法,使之服务于新闻传播的需要。在算法新闻中,人机之间的关系得到合理的设计,将有益于积极的新闻产品的生产和传播。当前,已经形成这样一种认识,“人机协同”将会是未来新闻生产的重要模式。同样,它也应该是算法新闻伦理构建中最重要的内容。
(一)人机协同体现价值的统一
马歇尔·麦克卢汉认为:“任何发明或技术都是人体的延伸或自我截除。这样一种延伸还要求其他的器官和其他的延伸产生新的比率、谋求新的平衡。”[5]近年来,业界对“人机协同”理论的讨论就是在谋求这种“新的平衡”。
“人机协同”,就是人与智能机器的交互协作。在人机协同中,人是智能的总开关,人居于统摄地位。从伦理层面来看,“人机协同”是对人与技术之间和谐统一和平衡状态的表述,人能够遵循人类道德规范的标准,合理、规范地利用技术来为人类社会服务,体现了工具理性与价值理性的统一。
未来新闻生产的方向,是人机协同的模式。首先,新闻算法的设计体现并符合新闻专业主义的价值观。不论是在传统新闻模式下还是在算法新闻模式下,新闻专业主义始终不可缺位,真实、全面、客观、公正的新闻依然是新闻生产的目的。在新闻专业主义的权威下,新闻媒体才能突破算法偏见,为社会和受众提供符合新闻媒体“良知”的报道。其次,机器人写作解放了新闻记者和编辑,使之从大量低端的、重复性的工作中解脱出来,转向更能够体现记者主观创造性的深度报道分析等新闻写作。再次,新闻从业者的“把关人”角色将更加突出强化。面对海量信息和大量机器人新闻产品,需要新闻专业人员进行专业判断、筛选和编辑,从社会公共利益出发,向受众进行推送。这才能让个体挣脱“信息茧房”的桎梏,塑造社会公共价值,构建一个良性的舆论环境。
(二)实现人机协同的策略
算法新闻的作用和未来不可限量。对此,我们必须从不同的层面来加强新闻伦理的构建。
第一,明确人在人机协同中占据主体地位,算法服务于人的需求。人不能迷失在信息与算法的迷阵中,而应该坚持人在新闻生产中的主导作用。在算法新闻中,记者和编辑的地位不可取代。在算法新闻时代,记者和编辑应该转向更能够发挥主观性的深度报道和访谈上来,通过人工智能技术提供的工具和信息,进行分析解读,为受众提供正确导向。在新闻内容审核中,也需要专业的编辑团队来进行把关。
第二,为算法植入价值观,坚持以社会主义核心价值观和传统文化为指导思想。“我们应该拥抱人工智能所引发的算法革命,构筑以人为本的人工智能型算法发展的战略,强调智能型算法的价值观,为沉浸式产品植入必要的干预机制,确保其朝着有益于个人和社会的方向发展”。[6]在算法设计和使用中,要以传统文化和社会主义核心价值观作为思想指导,防止在算法设计中带入设计者的偏见。
第三,完善行业规范中对算法使用规范的标准和要求。美联社在2017年推出了《人工智能工作手册》,对采编人员的技术素养提出了更高的要求,为避免人工智能可能引发的风险提出了应对策略,比如掌握一定的算法知识,定期更新机器输入范本,避免被人工智能牵着鼻子走。第一,在算法新闻生产全过程中加强算法设计和使用的透明原则,实行数据抓取、源代码、程序设计以及协同过滤结合人工审查的全公开,做到每个环节都有据可查,堵住算法演绎中可能出现的人为失误和偏见。第二,算法新闻时代需要复合型人才,新闻专业人员也必须具备人工智能方面的专业素养。未来要加强这方面的人才队伍建设。为此,要建立相应的培训、考察和考核标准,让从业者持证上岗。第三,加强新闻生产和传播全过程的监管。在全自动化新闻生产过程中,必须加强对新闻选题、选材和导向方面的人工审核;在新闻发布之后,对用户反馈和舆论走向进行监控,一旦出现问题,可以及时采取措施,防止问题新闻影响扩大化。第四,完善法律法规,尤其是机器人写作出现后,著作权、隐私权等问题将会更加突出,对此需要从法律上进一步细化;对于恶意和欺诈性的新闻报道行为,造成了恶劣的社会影响的,要建立全过程的追责机制;同时,也要普及和提高新闻从业者和受众在人工智能算法方面的知识产权意识。
五、结语
算法为新闻业插上了翅膀,算法新闻为新闻业带来了革命,也为用户带来了更快捷、更精准的信息服务。但我们也需要警惕算法背后隐藏的某些“陷阱”。“今天,新闻专业主义需要走出工业生产情境下的职业意识形态的范畴,成为浓缩并彰显民主的公共生活的‘元传播范本’之一部分,成为表达全社会文化价值体系、规范所有参与公共传播的人及其实践活动的范本。”[7]工业时代的印刷革命催生了新闻业的大发展,而进入强人工智能时代后,新闻业面临着又一个重要机遇。新闻专业主义的理想即便在人工智能成为大势所趋的时候依然具有人文主义的魅力。相信在“人机协同”这一模式的构建下,新闻伦理能够产生更大的约束力和规范力量,从而推动更加成熟的算法新闻时代的来临。
参考文献:
[1]吴锋.发达国家“算法新闻”的理论缘起、最新进展及行业影响[J].编辑之友,20185):57.
[2]陆晔,潘忠党.成名的想象:中国社会转型过程中新闻从业者的专业主义话语建构[J].新闻学研究,20024):46.
[3]马克斯·韦伯.经济与社会(第一卷)[M].上海:上海世纪出版集团,2010114-116.
[4]颜炳罡.整合与重铸[M].北京:北京大学出版社,2012196-198.
[5]马歇尔·麦克卢汉.理解媒介:论人的延伸[M].何道宽,译.北京:商务印书馆,200978.
[6]喻国明.为算法植入价值观[N].光明日报,2018-09-21.
[7]潘忠党,陆晔.走向公共:新闻专业主义再出发[J].国际新闻界,201710):6.
原文链接:https://mp.weixin.qq.com/s/8-taRLjiWfiBuovcItxXmw
编辑:陈茗

254#
 楼主| 发表于 2019-10-9 22:42:21 | 只看该作者
【案例】
超级智能的定义,一个已经诞生并不断深刻影响人类的新智能
在人工智能领域,有一个不成熟的观点,认为当人工智能发展成为“在几乎所有领域都大大超过人类认知表现的任何智力”时,这时人工智能可以被视作超级人工智能或超级智能。但这种从人工智能延伸的超级智能因为在理论和实践上没有实现的路径。并不被科学研究者认可。
于此同时,互联网通过50年的发展,链接的智能设备从几台到今天的数百亿台,链接的人口从数十人到今天的数十亿人,结构也从网状结构发展成为大脑模型,由此一种新的智能形式产生了。
数十亿人类群体智慧与数百亿机器群体智能通过互联网大脑架构形成一种自然界前所未有的智能形式,这种智能形式可以称之为(一种真正的)超级智能。
这种超级智能不是虚幻的,空想的。而是已经产生的,不断成长,不断深入影响人类社会的智能形式。
未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。
未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。
原文链接:https://mp.weixin.qq.com/s/uKSqC0jiMUhTz6TVp8-uPw
编辑:陈茗

255#
 楼主| 发表于 2019-10-10 22:35:38 | 只看该作者
【案例】
人工智能伦理学:监视资本主义与杀手机器人
编辑:陈茗

256#
 楼主| 发表于 2019-10-10 22:39:30 | 只看该作者
【案例】
经济学人:人工智能正颠覆传统战争,一场新军备竞赛或将开启
今年阅兵的两个大杀器——DF-17DF-41被广泛关注,然而文摘菌却从三个无人作战方队中,看到了一丝不寻常。
无人作战与人工智能的发展密不可分。据《经济学人》报道,美国国防部在2月份的第一份AI战略文档中宣布:“人工智能即将改变未来战场”,2018年夏季,五角大楼成立了联合人工智能中心(JAIC),今年3月,国家人工智能安全委员会首次会议开幕。
2020年度预算中,五角大楼在人工智能上投入了近10亿美元,而涉及无人驾驶和自主能力的预算更是高出了四倍。
在越南,美军初试用“算法”打仗
1970年的Igloo White行动被认为是未来战争的预演。
海军战机在丛林中低空俯冲,将一些设备丢入下方树冠中。
这些设备,有些是用来监听游击队的脚步声或卡车的点火声的麦克风,另有一些是记录地面微小振动的地震探测器,这其中最新奇的是嗅觉传感器,它可以嗅出人类尿液中的氨。
这些成千上万的电子器件及时地将捕获的数据回传到无人机和电脑上。数分钟之内,战机就将地毯式轰炸由算法指定的网格区域。
美国试图以上面这些方式来切断从老挝到越南的胡志明小道,然而并未取得成功,据说越南人训练猴子将这些传感器全部破坏了。在这些行动中,美军每年花费约10亿美元(约合今天的73亿美元),每摧毁越方一辆卡车需花费10万美元(约合今天的73万美元),然而这些并未有效阻止越北势力的渗透。
但是将“算法”用于战争的魅力并未因此褪色。用传感器收集数据,再用比以往处理能力更强的算法进行处理,并根据处理结果比敌人更快地采取行动这一战略,成为世界各大国家的军事思想核心。如今,人工智能(AI)的发展让这种观念更加深入人心。
机器的崛起
类似的事情也在中国发生:中国希望在2030年之前在人工智能方面领先世界;而俄罗斯的总统弗拉基米尔·普京则有一句名言“谁成为这一领域(人工智能)的领导者,谁就会成为世界的统治者”。
AI是一个广义且模糊的术语,涵盖了从1950年代最初的规则遵循系统到现代的基于概率的机器学习(计算机通过自学来解决任务)的各种技术。矛盾的是,如果任由人工智能技术以当前的速度和形势发展下去,那么很可能因为人工智能自身的不透明性而使得现代战争的局势扑朔迷离。
深度学习是一种特别流行且有效的机器学习方法,涉及多层模仿大脑的神经网络,其目前已被证明非常擅长处理各种任务,例如翻译、图像识别和游戏(参见图表)。
宾夕法尼亚大学的MichaelHorowitzAI比作内燃机或电力,来说明其用途的广泛。他将人工智能在军事的应用分为三类:一种是允许机器在无人监督的情况下运行,另一种是处理和解释大量数据,第三种是协助甚至直接指挥和控制战争。
就战场而言,自动化的吸引力是显而易见的——机器人比人类更便宜、更坚强且更易进行扩展。但是,一台能够在战场上运动甚至战斗的机器必须拥有足够的智能来执行任务,不够智能的无人机无法在战斗中长期存活;更糟糕的是,一个无知的持枪机器人很可能酿成一场事故。
所有的这些都要求人工智能赋予机器必要的技能,包括一些简单技能——感知和导航,以及其它更高级的技能,例如与其他军事人员进行合作。
结合了这些能力的智能机器可以完成个人无法完成的任务。伦敦国王学院的Kenneth Payne介绍说:“在模拟空战中,人工智能系统已经胜过了经验丰富的军事飞行员。”
今年二月,美国国防部高级研究计划局(DARPA)的“蓝天思维”部门(blue-sky-thinkingbranch)对能够在“高威胁”环境下协作的最强大的六个无人机群进行了最新测试,这其中甚至包括无人引导的情形。
尽管如此,大多数此类系统的智能都表现出了狭窄而脆弱的特性——在定义明确的环境中能很好地执行一项任务,但在不熟悉的环境中很容易失败。
因此,现有的自动武器要么是可攻击雷达的巡航导弹,要么是用于防御舰船和基地的速射炮。这些武器都很有用,但不是革命性的,也没有用到近年来出现的高级机器学习技术。
需要不断提高的“智能”武器
不要认为AI只能做一些战场上的苦力活,机器人,杀手亦或者是任何事物,都必须对它们“看到”的东西作出反应。
但是对于许多诸如间谍飞机和卫星这样的军事平台,关键是要发回原始数据,这些原始数据只有经过处理才可能变成有用的情报。现在,这种情报比以往任何时候都多,仅在2011年,美国的大约11,000架的无人机就发回了超过327,000个小时(约合37年)的影像。
其中大部分的数据都还来得及进行处理。所以说,人工智能在军事中的第二个主要应用就是处理数据。斯坦福大学的年度AI进步指数显示,在基于实验室的测试中,截止2015年,算法在图像分类中的性能已经超过了人类,并且在2015年至2018年之间,算法在一项更艰巨的任务——图像分割(从单个图像中挑选出多个对象)中的性能更是几乎翻了一番。
计算机视觉远非完美但也可以为人所运用。人类的视觉系统对一些细微变化并不敏感,而计算机视觉则不然。比如在一项研究中,改变熊猫图像中0.04%的像素(人类无法察觉),系统就会误判为长臂猿。
尽管存在种种弱点,但五角大楼在20172月得出的结论是,深度学习算法“可以以接近人类的水平执行”。据此,其成立了“Algorithmic Warfare(算法战争)团队,代号Project Maven(专家项目),通过使用深度学习和其它技术来识别物体和可疑行动。该项目最初是用来处理在针对伊斯兰国的战争中拍摄到的影像,现在的应用则更为广泛。这样操作的目的是产生“可操作的”情报,常以导弹轰炸或特种部队破门而入而告终。
一位了解Project Maven的内部人士说,就节省时间和提供新见解而言,目前该项目对分析师的好处仍然微不足道。例如,可以看到整个城市的广角相机会发送大量误报。他说:“这些系统的本质是高度迭代的。” AI进展迅速,Project Maven只是冰山一角。
退役的英国皇家空军少将、现任职于英国Earth-i公司的SeanCorbett表示,该公司通过应用一系列卫星的机器学习算法,可以在数十个基地识别不同型号的军用飞机,其准确率超过98%(参见主图)。他说:“接下来的明智之举就是开发出一种可以自动判别物体是否正常的算法。”随着对那些基地的不断观察,该软件可以将常规部署和非正常行动区分开来,并提醒分析师注意其重大变化。
当然,算法是“杂食动物”,你可以喂给它任何类型的数据,而不仅仅是图像。去年12月,英国情报机构军情六处(MI6)负责人Alex Younger爵士表示:“大量数据与现代分析技术的结合,将使现代世界变得透明。” 2012年,美国信号情报机构-美国国家安全局(NSA)泄露的一份文件描述了这样一个项目(可放心地称之为“天网”):将机器学习应用于巴基斯坦的移动手机的数据上,从而挑选出可能是恐怖组织信使的人。例如,谁在过去的一个月里从拉合尔去过边境城镇白沙瓦,并且比平时更频繁地关闭或更换手机?2016年之前指挥英国联合部队,现已退役的Richard Barrons爵士说到:“以前,通常是指挥官提出问题,情报机构收集实体资料来寻找答案,而现在答案就在云端。”
实际上,所讨论的数据并不总是针对敌人。JAIC的第一个项目既不是武器也不是间谍工具,而是与特种部队合作,以预测其“黑鹰”直升机的发动机故障。该算法的第一版已于4月交付。空军在指挥控制机和运输机上进行的测试表明,这种预测性维护可以将计划外的工作减少近三分之一,可能会让五角大楼目前用于维护的780亿美元经费有大幅度的削减。
AI如何影响战争决策
然而,获取情报只是前提条件,关键是根据情报做出的决策。因此,AI改变传统战争的第三种方式是入主决策层。
小到排级决策,大到国家首脑决策,AI都可以参与。“北方之箭”(NorthernArrow)是以色列一家AI公司UNIQAI的产品,它可以通过处理大量数据来帮助战争指挥官部署战斗,这些数据通常包含敌方位置、武器类型、地理位置和天气状况等信息。
在传统的战争中,通常需要花费半天或一天的时间查看相关的地图和图表来处理这些数据。算法所需要的数据既来自于书本或手册,如坦克在不同海拔高度的行驶速度,也包括对经验丰富的指挥官的采访。然后算法会为那些忙碌的决策者提供选项,并附上理由。
像“北方之箭”以及美国的CADET这样的“专家系统”平台,其远快于人类的思维速度。在一次测试中,人类需花费16个小时,而CADET只需要两分钟。但是,它们倾向于采用算法上简单明了的规则遵循技术。从历史标准来看,这就是AI,但大多数专家系统采用的是确定性算法,也就是说输入相同的话,输出也相同。这种感觉,对于那些用过世界上第一台通用电子计算机ENIAC所生成的炮兵射击表的士兵来说,是再熟悉不过的了。
现实世界里,随机性常常会妨碍人们做出正确的决策,因此许多现代人工智能系统将规则遵循系统和随机性结合起来,从而应对更加复杂的决策情形。DARPA的实时对抗智能和决策软件RAID可以用来预测未来5小时内敌军的位置、动向甚至可能的情感状况。该系统基于一种博弈论思想,将问题简化为更小的游戏,从而降低了对计算能力的要求。
0408年间的早期测试中,RAID表现出比专业人员更准确且快速的执行力。在巴格达(注:伊拉克首都)两个小时的战斗演练中,一支队伍要与RAID或其他人为敌,而RAID不到一个小时就准确地分辨出了敌友。该软件的设计者之一Boris Stilman指出,为了模拟伊拉克叛乱分子而参与其中的退役上校们“非常害怕”这个软件,以至于“他们不再互相交谈,而是用手势来代替”。RAID正在不断改进以供军队使用。
最新的深度学习系统神秘莫测。20163月,由DeepMind开发的深度学习算法AlphaGo击败了围棋界最好的棋手之一李世石。比赛过程中AlphaGo几步极富创造性的走棋令专家团队感到困惑不已。次月,中国军事科学院就这场比赛举办了研讨会。军事创新专家Elsa Kania谈到:“对中国的军事战略家而言,AlphaGo胜利的启示是:在围棋这种类似于战争博弈的游戏中,人工智能的谋略较之于人类可能更胜一筹。”
AI游戏技能中学习战争
201812月,由DeepMind构建的另一算法AlphaStar击败了《星际争霸Ⅱ》的顶级人类选手MaNaTLO。不同于围棋,《星际争霸Ⅱ》是一款即时战略而非回合制的游戏,玩家的信息隐蔽性和移动自由性较围棋更高。许多军官希望AI玩游戏的天分可以移植到军事上来,从而在军事史上书下浓墨重彩的一笔。五角大楼中负责开发商业技术的国防创新部主任Michael Brown表示,利用AI实现“战略推理”是他们的重点研究方向之一。
然而,若算法聪明到人类无法理解的地步,势必会引起法律、伦理和信任方面的问题。人类的战争法则要求人们对相称性(如平民伤亡和军事利益之间)和必要性等概念作出一系列判断。而不能解释目标被选择的原因的算法很可能并不遵守这些法则。就算它遵守战争法则,人类也不可能相信这一看起来就像是魔力8号球所做出的决策。(注:魔力8号球(Magic 8-Ball)是一个随机出答案的玩具,通常有20种答案,摇一摇就随机出现一种。)
英国皇家空军指挥官Keith Dear说道:“当人工智能应用于军事战略,并计算出多种相互作用的概率推论,然后给出一个我们并不理解的行动方案时,我们该怎么做呢?”他举了这样一个例子:AI可能会建议资助Baku的一场歌剧以应对俄罗斯对摩尔多瓦的军事入侵—这是一种超现实的策略,很容易迷惑己方军队,更不要说敌人了。然而,这可能是AI掌握了一系列政治事件的结果,而这些事件不会立即被指挥官所察觉。
即便如此,他预测人们还是会接受可信性和效率之间的权衡。“即使在当今技术的限制下,AI也可能通过‘大规模近实时模拟’支持甚至取代现实世界的战争决策”。
这并不像听起来那么牵强附会。RichardBarrons爵士指出,英国国防部购买了一个模拟复杂军事环境的仿真软件,而它其实是全球超人气竞技网游《堡垒之夜》的军事版本。这款软件是由一家游戏公司Improbable和以飞行模拟器闻名于世的加拿大航空电子设备公司CAE联手打造的,其所使用的开放标准使得从实时天气数据到秘密情报的信息都可以加载到软件中。Richard爵士表示:“只要有充足的数据、移动数据的网络和处理数据的云计算,它就将彻底改变指挥和控制的方式。这将成为从国家安全委员会到战术指挥官的单一集成命令工具。”
战争最终会无人化吗?
西方国家的政府坚持认为,人类将“参与所有循环”,监督事物,但就连他们自己的官员也不相信这一说法。
指挥官Dear表示:“目前来看,从战术制定到战略决策,人类都正在逐渐跳出这一循环圈子。Kania女士表示:“中国也认为未来的战争会超出人们的认知能力。”未来出现的已不仅仅是自动化武器,而且会是自动化的战场。战争一经打响,纵横交错的AI系统会迅速锁定从导弹发射器到航空母舰等不同目标,然后设计出快速而精确的打击方式,以最有效的顺序摧毁它们。
这种规模的战争会带来怎样的后果还未可知。ZacharyDavis 在最近为美国劳伦斯•利弗莫尔国家实验室(the Lawrence Livermore National Laboratory)所写的一篇文章中指出,精准快速的打击“可能会增加突然袭击的风险,从而破坏稳定。”同样地,AI也可以用来检测突然袭击的信号进而帮助防御者抵挡此类攻击。或者,就像美国在20世纪60年代在越南丛林中大肆散布传感器一样,这样的计划可能会以昂贵而欠考虑的失败告终。然而,没有哪个大国敢冒落后于对手的风险,从这个层面上讲,是政治而不仅仅是技术在起作用。
2016年,美国的大型科技公司在AI上投资了200亿到300亿美元,而五角大楼在AI方面的支出只是其中的一小部分。虽然许多美国公司乐于和军方谈合同,如当前亚马逊和微软正在竞争国防部的100亿美元云计算合同,但其他公司则对此十分谨慎。(注:美国国防部在2018年推出了名为“联合企业国防基建”(简称JEDI)的100亿美元的云服务合同)而在20186月,谷歌顶着4000名员工反对卷入“用于战争的技术”的压力表示要于年底退出饱受争议的军事项目Maven,尽管这个项目足足价值900万美元。
中国具有人口优势,人口优势带来了数据优势,美国前国防部副部长罗伯特•沃克(Robert Work)今年6月警告称,如果数据是人工智能的燃料,那么中国可能拥有相对于世界其它地区的结构性优势。JAIC总干事Jack Shanahan830日表达了他的担忧:我不希望看到的未来是,我们的潜在对手拥有完全由人工智能支持的力量,而我们没有。
原文链接:https://mp.weixin.qq.com/s/QMLhJ3DTcGSNnkpVlnbgpA
编辑:陈茗

257#
 楼主| 发表于 2019-10-10 22:43:36 | 只看该作者
【案例】
Nature发文:深度学习系统为什么这么好骗
几张贴纸就能「改变」交通标志识别结果,转个方向就看不出图中的动物种类,今天的人工智能系统经常会出现莫名其妙的 bug。最新一期《自然》杂志上的这篇文章向我们介绍了深度学习为什么如此容易出错,以及解决这些问题的研究方向。
一辆自动驾驶汽车在接近停止标志时非但没有停车,反而加速驶入了繁忙的十字路口。一份事故调查报告显示,该汽车之所以做出这种决策,是因为停止标志的表面贴了四个小矩形。这样一来,自动驾驶汽车就把停止标志识别为了「限速 45」。
这种事件其实还没有在实际中发生,但蓄意破坏 AI 系统的可能却是真实存在的。在停止路牌上贴标签、在帽子和眼镜上贴贴纸都有可能成功欺骗自动驾驶系统和人脸识别系统,还有研究者用白噪音来欺骗语音识别系统。
这些案例都说明欺骗一个领先的 AI 模式识别系统(即深度神经网络)有多么容易。这些系统已经在我们生活中无处不在,但只要对这些系统的输入做一些微小的改动,最好的神经网络也会受到欺骗。
在寻找问题的过程中,研究人员发现了 DNN 失效的很多原因。「深度神经网络本质的脆弱性是无法修复的,」谷歌 AI 工程师 François Chollet 指出。Chollet 及其他研究者认为,为了克服这些缺陷,研究者需要借助其他力量来巩固模式匹配 DNN:例如,让 AI 能够自己探索世界、自己写代码并保留记忆。一些专家认为,这类系统将成为未来十年 AI 研究的主题。
接受现实的检验
2011 年,谷歌推出了一个能识别猫的系统,从此掀起了 DNN 分类系统的研究高潮。人们惊呼:计算机终于可以理解世界了!
AI 研究者知道,DNN 其实并不理解这个世界。它们粗略地模仿大脑结构,其实是一种由分布在很多层上的数字神经元组成的软件结构。每个神经元与其相邻层的神经元相连接。
其基本思想是,原始输入(如图像的像素)的特征进入底层,触发一些神经元,然后根据简单的数学规则将信号传到上层的神经元。训练一个 DNN 网络需要将其暴露在大量样本中,然后每次调整神经元的连接方式,最终由上层得出想要的答案,比如把某头狮子的图像识别为狮子,尽管 DNN 从未见过这一头狮子的照片。
DNN 进行的首次重大检验发生在 2013 年。当时,谷歌的研究者 Christian Szegedy 及其同事发表了一篇名为「『Intriguing properties of neural networks」的预印版论文。该团队表明,通过修改几个像素就能误导 DNN 将狮子识别为图书馆等其他物体。他们将修改后的图像称之为「对抗样本」(adversarial example)。
一年之后,Clune 等人组成的团队表明,让 DNN 看到不存在的物体也是可能的,如在波浪形线条中看到企鹅。「任何从事过机器学习研究的人都知道,这些系统经常会犯一些低级错误,」Yoshua Bengio 说道,「但这种错误令人惊讶,而且出人意料。」
新型错误层出不穷。去年,Nguyen 证明,简单地旋转物体就能淘汰一波当前最好的图像分类器。今年,Hendrycks 等人报告称,即使是未经篡改的自然图片也能骗到当前最好的分类器,使其将蘑菇识别为饼干。
这个问题不止在目标识别中出现:任何使用 DNN 对输入进行分类的 AI 都能被骗到,如使用强化学习的游戏 AI,在屏幕上随机添加几个像素就能让智能体输掉比赛。
DNN 的弱点会给黑客接管 AI 系统提供可乘之机。去年,谷歌的一个团队表明,使用对抗样本不仅可以迫使 DNN 做出某种错误决策,也可能彻底改变程序,从而有效地将一个训练好的 AI 系统用于另一项任务。
许多神经网络理论上都能用来编码任何其他计算机程序。「理论上来说,你可以将一个聊天机器人转化为任何你想要的程序,」Clune 表示。在他的设想中,不远的将来,黑客就能够劫持云中的神经网络,运行他们自己的垃圾邮件躲避算法。
加州大学伯克利分校的计算机科学家 Dawn Song 认为,DNN 很容易受到攻击,但防守却非常困难。
能力越大越脆弱
DNN 非常强大,因为它们有很多层,也就意味着它们可以识别出输入的不同特征模式。经过训练,用于识别飞行器的 AI 算法有可能会找到诸如色块、纹理、背景等因素与预测目标具有关联性。但这也意味着输入内容的很小变化就可以让 AI 的识别结果出现明显的变化。
解决方法之一就是简单地给 AI 投喂更多数据,特别是多训练出错的情况以纠正错误。在这种「对抗性训练」的情况下,一个网络学会识别目标,另一个网络尝试修改第一个网络的输出,并制造错误。通过这种方法,对抗样本成为了 DNN 训练数据的一部分。
Hendrycks 等研究者建议测试 DNN 在各种对抗样本的性能,从而量化 DNN 对犯错的鲁棒性。他们表明,训练能抵御一种攻击的神经网络可能会削弱它对其他攻击的抵抗力,而鲁棒性的 DNN 不应该因其输入的微小扰动而改变其输出。这种因扰动而改变最终结果的属性,很可能是在数学层面上引入神经网络的,它限制了 DNN 学习的方式。
然而在当时,没有人可以解决所有 AI 都很脆弱这一问题。问题的根源,根据 Bengio 的说法,深度神经网络中没有一个很好的可以选择什么是重要的模型。当 AI 观察一个将狮子篡改为图书馆的图片,人类依然可以看到狮子,因为他们有一个思维模型,能够将动物视为更高级的特征——如耳朵、尾巴、鬃毛等。而其他低级别的细节则会被忽略掉。「我们知道从先验知识中学习什么特征是重要的,」Bengio 说,「而这来自于对结构化的世界的深度理解。」
解决此问题的一种尝试是将 DNN 与符号 AI 结合起来。符号 AI 也是机器学习之前,人工智能的主要方法。借助符号 AI,机器可以使用关于世界如何运作的硬编码规则进行推理,例如它包含离散的对象,之间以各种方式相互关联。一些研究人员,例如纽约大学的心理学家 Gary Marcus 说,混合 AI 模型是前进的方向。「深度学习在短期内非常有用,以至于人们对长期发展视而不见,」一直以来对当前深度学习方法持批评态度的马库斯说。
今年 5 月,他在加利福尼亚州帕洛阿尔托联合创立了一家名为 Robust AI 的初创公司,该公司旨在将深度学习与基于规则的 AI 技术相结合,以开发可以与人一起安全操作的机器人。公司正在做工作仍处于保密状态。
即使可以将规则嵌入到 DNN 中,这些规则的效果也只是能与学习一样好。Bengio 说,AI 智能体需要在更丰富的可探索环境中学习。例如,大多数计算机视觉系统无法识别一罐啤酒是圆柱形的,因为它们只在 2D 图像数据集上进行训练。这就是 Nguyen 等研究者发现我们可以通过不同角度的对象来愚弄 DNN 的原因。
但是,AI 的学习方式也需要改变。Bengio 说:「了解因果关系必须在现实世界做一些任务,智能体可以实验并探索现实世界。」另一位深度学习的先驱,Jürgen Schmidhuber 说,模式识别非常强大,足以使阿里巴巴、腾讯、亚马逊、Facebook Google 等企业成为世界上最有价值的公司。他说:「但是将会有更大的浪潮,其涉及智能体操纵真实世界并通过自己的行动创建自己的数据。」
从某种意义上来讲,使用强化学习在人工环境中搞定计算机游戏的方式已经是这样了:通过反复试错,智能体以规则允许的方式操纵屏幕上的像素点,直到达成目标为止。然而,真实世界要比当今大多数 DNN 训练所依据的模拟环境或数据集要复杂得多。
即兴表演的机器人
如下图所示,在加州大学伯克利分校 (University of California, Berkeley) 的一个实验室里,一只机器人手臂在杂物中翻找。它拿起一个红色的碗,然后用它把一只蓝色的烤箱手套向右推几厘米。它放下碗,拿起一个空的塑料喷射器,然后估量着平装书的重量和形状。经过连续几天的筛选,机器人开始对这些陌生的物体有了感觉,知道它们各自用来做些什么。
机器人手臂正在使用深度学习来教自己使用工具。给定一盘物体,它依次捡起并观察每一个物体,观察当它移动它们并将一个物体撞向另一个物体时会发生什么。
当研究人员给予机器人一个目标,例如向它展示一张几乎空的托盘图像,并指定机器人安排物体来匹配状态。这样,机器人可以与其之前未见过的物体交互并即兴做出行动,例如用海绵将桌子上的物体抹干净。机器人还能意识到,用塑料水壶清理掉挡道的物体要比直接拿起它们要快。
伯克利实验室的研究员 Chelsea Finn 认为,一般而言,这种学习可以使得 AI 更深入地了解物体和世界。如果你曾经只在照片上见过水壶或海绵,则或许能够在其他图像中识别出它们。但是,你不会真正地理解它们是什么或它们用来做什么。因此,Finn 表示,只有你真正地与它们接触才可以更深入地了解它们。
但是,这种学习过程很慢。在模拟环境中,AI 可以非常快速地浏览示例。例如,2017 年,DeepMind AlphaZero 自学习游戏软件接受训练在围棋、国际象棋和日本象棋领域大杀四方。那时,AlphaZero 针对每场赛事进行了 2000 多万场训练游戏。
AI 机器人学习这种能力很慢。AI 和机器人公司Ambidextrous 联合创始人 Jeff Mahler 表示,在深度学习领域,几乎所有的结果都极度依赖大量数据。他说道:「在单个机器人上收集数以千万计的数据点将需要连续数年的执行时间。」此外,数据或许不可靠,因为传感器校准会随时间出现变化,硬件也会退化。
因此,大多数涉及深度学习的机器人工作仍然使用模拟环境来加速训练。亚特兰大佐治亚理工学院机器人专业的博士生 David Kent 认为,你能学到什么取决于模拟器有多好。模拟器一直在改进,研究人员也正在把从虚拟世界学到的经验更好地转移到现实世界。然而,这样的模拟仍然无法应对现实世界的复杂性。
Finn 认为,使用机器人学习最终要比使用人工数据学习更容易扩展。她制作的会使用工具的机器人花了几天时间学会了一项相对简单的任务,但不需要大量的监控。她说:「你只要运行这个机器人,每隔一段时间就需要检查一下。」她想象着有一天,世界上有很多机器人可以使用自己的设备,昼夜不停地学习。这应该是可能的——毕竟,这是人们理解世界的方式。「小孩不能通过从 Facebook 下载数据来学习,」Schmidhuber 说。
从较少的数据中学习
需要指出的一点是,一个小孩也可以通过一些数据点识别出新的物体:即使他们之前从来没有见过长颈鹿,但依然可以在看过它们一两次后识别出来。识别如此之快的部分原因是,这个小孩已经看过很多除长颈鹿之外的其他生物,所以熟悉了这些生物的显著特征。
将这些能力赋予 AI 的一个统称术语是迁移学习:即将之前通过训练获得的知识迁移到其他任务上。实现迁移的一种方法是在新任务训练时将所有或部分预训练任务再次用作起点(starting point)。例如,再次使用已经被训练用来识别一种动物(如识别基本体型的层)的部分 DNN 可以在学习识别长颈鹿时为新网络带来优势。
一种极端形式的迁移学习旨在通过向新网络展示少量示例(有时甚至只有一个示例)来训练它。此类已知的 one-shot few-shot 学习极度依赖预训练的 DNN。举例而言,如果你想要构建一个能够识别出犯罪数据库中人的人脸识别系统,则利用包含数以百万计人脸(并不一定是数据库中的那些人)的 DNN 可以帮助该识别系统了解主要特征,如鼻子和下巴的形状。
所以,拥有此类预训练记忆可以帮助 AI 在未见过大量模式的情况下识别出新示例,这样可以加速机器人的学习速度。但是,如果面临一些它们经验范围外的任务,此类 DNN 或许依然表现不佳。这些网络能够实现多大程度的泛化也依然不清楚。
例如,DeepMind AlphaZero 等最成功的 AI 系统所拥有的专业知识也极其有限。AlphaZero 虽然可以接受训练来下围棋和国际象棋,但无法同时进行。
学会如何学习
AlphaZero 在游戏领域的成功不仅仅归功于有效的强化学习,还要得益于一种算法(用到了蒙特卡洛树搜索技术的一种变体),这种算法可以帮助 AlphaZero 缩小下一步的选择范围。换言之,AI 学习如何以最好的方式从环境中学习。Chollet 认为,AI 的下一步重大进展将是赋予 DNN 编写各自算法的能力,而不仅仅是使用人类提供的代码。
Chollet 还说道,为基础的模式匹配补充推理能力将使得AI 能够在它们的舒适区(comfort zone)外更好地处理输入。计算机科学家们多年来一直都在研究程序合成(program synthesis),让一台计算机自动生成代码。所以,在他看来,将这一领域与深度学习相结合可以生成更接近人类所使用的抽象心智模型的 DNN 系统。
例如,在机器人领域,Facebook AI 研究所(FAIR)的计算机科学家 Kristen Grauman 正在教机器人自身如何最有效地探索新环境。
该领域的研究人员表示他们在修复深度学习缺陷方面取得了一些进展,但他们也在探索一些新技术来使得 DNN 不那么脆弱。Song 认为,深度学习背后没有太多的理论可遵循。如果出了故障,则很难找出原因。整个领域依然以实证为主,所以研究人员必须亲自尝试着解决。
目前,尽管科学家们意识到了 DNN 的脆弱性以及他们对数据的过度依赖,但大多数人认为 DNN 技术将继续存在和发展。需要承认的一点是,近十年来,与大量计算资源相结合的神经网络可以在接受训练的情况下很好地识别模式。但遗憾的是,Clune 认为,没有人真正知道如何改进 DNN 技术。
原文链接:https://mp.weixin.qq.com/s/7emoVh1yjiEqFtCezBgSmg
编辑:陈茗

258#
 楼主| 发表于 2019-10-10 23:15:38 | 只看该作者
主题:重大科学问题《智能生成机理》研讨会
时间:2019年9月29日上午
地点:北邮科技大厦
内容:受中国科协委托,中国人工智能学会邀请院士专家对人工智能领域重大科学问题《智能生成机理》的研究进展、存在问题、政策建议进行集体研讨
   
主持人王国胤教授(中国人工智能学会副理事长)
各位专家,今天早上的重大科学问题“智能生成机理”研讨会现在开始。我是中国人工智能学会副理事长王国胤,李院士委托我来主持这个研讨会。在此感谢大家对重大科学问题研讨会的支持。
人工智能经过60多年的发展,现在已经在深刻影响整个社会。我们国家在《新一代人工智能发展规划》颁布以来,也在从智能大国往智能强国建设。我个人理解,如果没有对人工智能重大科学问题的探索,建设智能强国几乎是不可能的。所以,这样一个重大科学问题研讨对我们走向智能强国之路是很重要的。那么,作为重大科学问题,人工智能是根据什么样的机理生成的?必须把这个问题搞清楚。否则,我们就会像瞎子摸象一样找不到根本。因此,这个问题的讨论相信对引领我们中国人工智能的研究具有里程碑意义。
今天参加会议的各个方面的代表,有科协的代表,基金委的代表,我们也请到了几位院士、专家,金智新院士、陆汝钤院士、李衍达院士、郭桂蓉院士也亲自到场或者委派了代表,很重视这个会议。我们各个方面的专家,特别是像汪老师,也是我们在人工智能领域里面杰出的老前辈,还有不少中青年人工智能的专家。今天早上咱们这个会议要展开《智能生成机理》的研讨,然后还要给科协提交本次研讨会的正式报告。
    按照会议安排,首先有请中国科协重大科学问题工程技术难题征集评选项目组的代表,中国科学院文献情报中心业务主管谭一泓发言。
   
谭一泓研究员(科协代表)
各位专家,我叫谭一泓,来自中国科学院文献情报中心。我们从2018年开始承办这个项目,叫重大科学问题和工程技术难题工程评选,为什么要做这个事情呢?从2017年年底,科协就有一个想法,觉得目前社会上热点都很多,但是很多都是新闻媒体层面来评的,没有咱们科学界的人,而且没有广大科技工作者从下往上提出的问题。科协觉得要发挥科协的优势,科协毕竟是科技工作者之家,代表广大科技工作者,充分发挥广大科技工作者的力量,从下到上推出来评选重大问题,会更准确,更有意义。
    这个项目的目的和宗旨,是为了研判科技发展趋势,支撑咱们国家科技强国的建设。2018年开始第一届,评选了60个重大科学问题和工程技术难题,2018年5月份在中国科协的年会上发布,人工智能学会去年有两个入选了。今年从众多推荐的问题和难题中逐层遴选出了75个,但是最终评出和发布的是20个,在6月底哈尔滨的年会上发布的。咱们做这个项目,发布肯定不是目的,不是说一发就了事了。发布的过程,很多媒体跟进,也有很多科技界的大家引发一些讨论,发布的过程也是促进大家来讨论、加强这些问题的研讨认识、推进这些问题的解决,但这还不是主要目的。为什么要召开今天的座谈会?科协也一直在讨论,我们花那么大力气评完,金院士、钟院士好多方面都有参与,咱们那么多专家投入那么多精力做这个工作,肯定不能评完就了事了,还是想通过适当的机制推荐给中央、给国家各个部委的层面。所以今天开这个座谈会的目的,是希望在座各位专家发挥各位专家的智慧讨论一下。首先,“智能生成机理”这么一个题目,目前发展的状况、“卡脖子”难点在哪里、为了下一步发展,国家应该从哪些方面发力,比如推荐给哪些部委、或者在国家哪些专项里体现。召开今天会议的目的就是这样。希望大家广泛讨论,为下一步科技发展贡献自己的智慧。
    再次感谢学会一直以来对这个项目的支持,感谢北邮王校长、钟老师这边积极的参与,感谢大家今天参加我们的座谈会,希望今天的讨论有成果,我是来学习的,我代表项目组就讲这些。
   
主持人(王国胤教授):
谢谢谭一泓老师的支持,确实这样一个事情组织难度也很大,咱们要高质量的完成。钟教授,在北邮把人工智能这个领域的研究、教学带动起来了,作出了杰出的贡献,不仅仅在北邮,为中国人工智能的发展乃至国际人工智能的发展作出了杰出的贡献。北邮在这个领域有很大的贡献,包括人工智能学会就是挂靠在北邮,学校很支持我们的发展,今天这个会在北邮召开,北邮的王文博副校长亲自参加这个会议来支持和指导研讨会,下面有请王文博副校长致辞。
   
王文博教授(北邮副校长)
非常感谢!各位专家,各位领导,大家知道,马上就要国庆了,我也知道大家非常忙,今天大家来到学校探讨这个重大问题“智能生成机理”,意义非常重大。刚刚谭处长介绍了重大科学问题的背景以及我们今天研讨会的目的。
    对于北邮来讲,是信息科技领域的学校,是有行业特色的学校,人工智能是整个信息领域发展非常重大的推动力,近几年AlphaGo的成功,人工智能在各个行业的应用表明,人工智能需要包括通信、网络、计算处理的支持。北邮正是这样一个学校:我们信息通信工程是信息领域第一大学科,国内我们排名第一,是A+这样的学科,计算机学科排名A,当然还有电子科学技术是A-。从北邮的发展来讲,主要是在信息科技领域里。过去北邮主要专注在信息通信科技领域,它属于邮电部,过去是邮电部的学校主要解决邮电通信网络服务问题、设备制造问题。随着信息科技的发展,特别是人工智能的出现,以及现在大家炒的比较热的5G的发展,对国民经济各个领域的推动力、带动意义非常大。我们学校也在大力推进人工智能领域的发展,从科学研究到人才培养,刚才王理事长介绍了人工智能学会挂靠在北邮。学校对于人工智能整个领域非常重视,我们成立了人工智能研究院,过了“十一”以后准备成立人工学院。从科学研究到人才培养,都希望在智能科学这个领域能够发挥北邮的作用。长期以来北邮也得到了在座各位的关心和支持,在此表示感谢。未来我们希望能够跟大家一起,在人工智能领域,特别是人工智能的基础理论,包括今天我们这个主题“智能生成机理”,能够发挥更大作用,在未来研究中能够获取更多的成果。
    我自己主要做无线通信的,过去无线通信跟人工智能曾经是不搭界的,通信就是通信、智能就是智能,现在无线通信领域跟人工智能的结合也在深入展开,而且还是非常有效的,所以人工智能跟科研各个领域的结合也是未来发展非常重要的方向。通信领域的未来网络,也是重大科学问题,网络未来的发展也是我们信息领域非常关注的问题,包括空天一体化、包括未来的6G。网络往哪方面发展,过去的网络电信网、因特网都是大一统的网络,大家都可以挂上。未来的网络如果是不是大一统的网络?一周前在南京举办的网络发展的研讨会上,一些院士也提出,未来网络的发展智能化将是一个方向。但是怎么来理解智能?当时研讨会上大家提出这个问题,什么样的决策算智能,跟智慧有没有区别?今天我觉得探讨智能生成机理到底是不是有一个共性的机理,对我们未来智能领域的发展,以及支撑我们各个科学领域、国民经济各个应用领域的发展,我觉得有非常重要的意义。
    再次感谢各位专家的到来,也预祝今天的研讨会圆满成功。谢谢大家!
   
主持人(王国胤教授):
感谢王校长的致辞,我们科学研究开展离不开学校的支撑。下面按照会议安排,有请钟义信老师做报告,“关于智能生成机理研究的进展、问题、建议”。
   
钟义信教授(科学问题《智能生成机理》提出者)
尊敬的各位领导、院士、专家,中青年同行:非常高兴向各位汇报一下关于“智能生成机理”这个重大科学问题的四个方面:进展、意义、问题和政策建议。

    第一部分:《智能生成机理》的研究进展

经过数十年的艰辛探索,“智能生成机理”这个重大科学问题的研究已经取得重大的突破和实质的进展。突破,集中表现在颠覆了现行人工智能所沿用的“科学范式”;进展,主要表现在揭开了“普适性智能生成机理”的奥秘,并在此基础上创建了《通用人工智能基础理论》。

    进展(一)阐明了“智能生成机理”的基本概念及其在人工智能研究领域的极端重要性
我们认识到,“机理研究”是人工智能研究的核心问题。必须把它理解准确、解决到位。否则,就会像刚才王理事长所讲的那样,人工智能的研究就会变成“盲人摸象”,摸不到要害、摸不到全局、摸不到本质。
“机理”是一个理科术语,工科则称为“机制”,它们共同的外来语是Mechanism。所以,这两个词可以互相换用。
什么是机理?它是指一个系统运行的基本规则、基本原理和全局规律,而不是单纯的指系统结构、功能、或系统表现出来的行为。机理远比结构、功能、行为更具本质的意义。
例如,飞机跟飞鸟在结构上各不相同,它们共同的机理则是“空气动力学原理”。只有掌握了空气动力学原理,飞机的设计才能成功。智能也是这样,只有找到了统管智能系统全局的规律- 它的工作机理,对人工智能(包括人类的智能和生物智能)的研究才能获得真正的成功。
    显然,“智能生成机理”就是指智能系统为了生成智能所必须遵循的运行规则、工作原理和全局规律,而不是单纯的系统结构、功能或行为。
所谓“普适性智能生成机理”,就是普遍适用于一切智能系统生成智能所需要遵循的规则、原理和全局规律。它是通用人工智能系统的理论基础。
由此可见,“普适性智能生成机理”是整个智能科学研究的重大科学问题。只有掌握了普适性智能生成机理,才有可能建立“通用的人工智能理论”,建立通用的人工智能系统。
实事求是地看,国内外大多数人工智能研究的同行们都在热心于研究各种具体的人工智能系统,如棋类博弈、模式识别、机器人等等,都在做一些“个案性”的人工智能系统,没有高度重视各种人工智能系统共有的生成机理的研究。尽管那些研究都有一定的用处,但是,只研究“个案性”的人工智能系统而不研究“普适性智能生成机理”,就很难实现通用人工智能理论的重大突破。
所以,深刻理解“普适性智能生成机理”的学术涵义及其在整个人工智能研究领域的极端重要性,这实在是一个首要的前提。如果没有这个进展,就不会有后续的各种进展。

    进展(二):剖析了现有人工智能研究之所以未能高度重视“智能生成机理”,根本原因是忽视了“科学范式”的最高指导作用,因而导致“范式失配”的大忌
人们对于现有人工智能研究之所以不满意,主要是因为人工智能的研究一直处于“个案化”和“碎片化”的状态,没有通用性的人工智能系统:会“下棋”的系统,却不会“看病”,能“识别人脸”的系统却不会“开车”,如此等等。
现有的人工智能研究做不出“通用的人工智能系统”,直接的原因是没有掌握“普适性的智能生成机理”;而没有掌握“普适性的智能生成机理”的原因,则在于现有的人工智能研究没有重视“科学范式”的指导作用。
以下,我们就来解释这个重要结论。
所谓“科学范式”,是“科学观和方法论”的统称。
众所周知,人们的“世界观和方法论”是人们一切有意识行为的最高指南。同样的道理,在科学研究领域,“科学观和方法论”是一切科学研究活动的最高指南。
然而,不无遗憾的是,由于“分而治之”方法论的影响,人们却把“科学观和方法论指导下的科学研究活动”这个整体划分为“哲学”和“科学研究”两个互不相关的活动领域。因此,从事具体科学研究的人们,往往就不再关注“科学观和方法录(哲学)”对科学研究的指导作用。
问题是,“不再关注科学观和方法论指导作用”的结果,并不等于真的就“没有了科学观和方法论的指导作用”。恰恰相反,各种科学观和方法论对科学研究的指导作用是一种不以人们意志为转移的客观存在。不是接受这种科学观和方法论的指导,就是接受那种科学观和方法论的指导。由于不再关注科学观和方法论的指导,往往却导致了“误用”科学观和方法论的后果,导致科学研究走上曲折的道路。几十年来的人工智能研究,正是这样走上了曲折的发展道路。
我们的研究发现,迄今存在两类科学范式(科学观和方法论):一类是物质科学的科学范式,一类是信息科学的科学范式,两类科学范式的科学观和方法论特征如表1所示。
                表1 科学范式的对比
  
  
科学观
方法论
  
传统
  
物质
  
科学
  
物质观
还原论
对象是“与主体无关的客体”,
  
只关注客体的结构与功能形式。
采用纯粹的“形式化”方法作为描述和分析对象的方法。
对象是稳定不变的,因此
  
可以对它进行分解和合成。
对于复杂的研究对象,应当采取
  
“分而治之”的方法加以处置。
  
现有
  
人工
  
智能
  
事实上的物质观
事实上的还原论
脑是与主体无关的特殊物质,
  
关注它的结构与功能形式。
采用纯粹的“形式化”方法作为描述和分析对象的方法。
承认对象存在不确定性,
  
但接受“分解合成”的合理性
实行了“分而治之”的方法,
  
因而分出了“三大学派”。
  
现代
  
信息
  
科学
  
信息观
信息生态方法论
对象是“主客互动的信息过程”,
  
关注主体的目标是否达成。
采用“形式、内容、价值三位一体”的方法描述目标达成状况。
信息过程终存在不确定性,
  
不能对它实行分解合成。
对于主客互动的信息过程,应当采取“整体寻优生长”的方法。
不难理解,无论研究工作多么艰深,只要遵循了正确的科学观和方法论,研究工作就能够朝着正确的方向不断前进。反之,如果研究工作沿用了不恰当的科学观和方法论,研究工作就会走上弯路,最多只能做出一些局部性的成果,而不可能掌握全局规律,不可能做出源头性的创新贡献。
    人工智能是复杂的信息系统,因此应当遵循信息科学的科学范式。但是,从上面的表1可以清楚看出,现有人工智能研究所沿用的,却不是信息科学的科学范式,而是物质科学的科学范式。这就是科学观和方法论的“误用”,即“范式失配”,犯了“张冠李戴”的大忌。
正是由于现有人工智能研究犯了“张冠李戴”的大忌,沿用了传统物质科学的科学观和方法论,它就按照“分而治之和纯形式化”的方法,把自己分解成了三大学派(结构主义的人工神经网络研究、功能主义的专家系统研究、行为主义的感知动作系统研究),互不认可、互不相容,导致个案化、碎片化、局域化、孤立化、形式化、互不沟通地摸索,从而无法掌握“普适性智能生成机理”这样的全局规律,无法形成统一的人工智能理论。这就是“不再关注哲学指导”的人工智能研究造成的后果。
换言之,现有人工智能研究存在的根本问题就是它不假思索地沿用了物质科学的科学范式,而没有认真地去思考、总结和贯彻信息科学的科学范式,致使现有人工智能的研究性质与它沿用的科学范式严重失配!
以上的剖析,揭示了现有人工智能研究的病根。找准了病根,就为根治疾病提供了办法。这是《智能生成机理》研究的重要进展,也是整个人工智能理论研究的重要进展。
    那么,什么是信息科学的研究范式呢?
    从上面的表1可以看到:信息科学研究范式的科学观,认为人工智能的研究对象不是纯粹的客体、不应该不允许主体介入;而是完全相反,信息科学的科学观强调“研究对象是主体与客体相互作用的信息过程”。具体地说,信息科学的科学观认为:人工智能的研究对象是主体客体互动的整体,关注“在这样相互作用的过程中主体所追求的目的是否达到”。显然,“目的”是不能够纯粹用形式来描述的,“目的”包含形式、内容、价值的要素,而且价值是最重要的因素。所谓达到了目的,一定是实现了对主体最有价值的那种结果。所以在科学范式的科学观层面上,物质科学与信息科学秉持几乎完全不一样的观念。
另外,信息科学的科学观认为:研究对象是一个整体,不能允许“分而治之”,因为,分解以后,这个复杂的主客互动整体分出来的那些子系统之间的信息联系就丢掉了,而信息联系是看不见、摸不着的,丢了就找不回来。而这些信息联系是整体系统的生命线,是它的命脉,把命脉丢了、把生命线丢了,把那些失去了信息联系的各个子系统合起来,就不再是一个真正的活的复杂的信息系统了,不再是智能系统了。所以,信息科学的科学范式不允许“分而治之”。由此导出的信息科学方法论叫“信息生态方法论”。“生态”就意味着是整体,意味着要向优化的方向生长。
可见,物质科学与信息科学的范式差得太大,范式失配了就出大问题了。实际上,直到今天为止,人工智能研究都没有走上信息科学范式得轨道,以至现在的人工智能研究只有局部的个案性的成果,没有关注更没有掌握“普适性智能生成机理”,没有通用性的整体性的人工智能的成果。
可见,“科学范式”在科学研究中确实具有至高无上的极端重要性。

进展(三)论证了只有下定决心“变革范式”,才能引领“智能生成机理”的研究走上正确轨道
通过上面的剖析可以理解:只有变革现有人工智能研究所沿用的科学范式,才能引领智能生成机理的研究走上正确的轨道。如果人工智能的研究还是遵循物质科学的范式,那就永远都不可能认识和掌握“普适性的智能生成机理”。而掌握不了普适性的智能生成机理,人工智能的通用理论就永远都不可能够获得成功。
既然现有人工智能所遵循的科学范式已经“张冠李戴”,那么,只有通过“正冠”行动,把自己的帽子(信息科学的科学范式)戴在自己的头上(引领人工智能的研究),做到“李冠李戴”,才可能解决人工智能研究的根本问题。
表1说明,信息科学范式的科学观认为:人工智能的研究对象是主客互动演进的整体,关注的是主体目的的达成状况;它的方法论是“整体寻优生长,是形式、内容、价值三位一体的描述和分析方法”。
于是,我们就可以按照信息科学的科学范式去探索,看看智能生成的机理到底是什么?这样就导致第四个进展。

进展(四):揭开了“普适性智能生成机理”的奥秘
第四个进展就是揭示了智能生成机理的生成办法,弄懂了怎样才能够生成“普适性的智能”。这是《普适性智能生成机理》研究的核心进展。
按照上述信息科学的科学观和方法论,可以构造出图1所示的《普适性智能生成机理》的宏观模型。

file:///C:/Users/cming/AppData/Local/Temp/msohtmlclip1/01/clip_image002.jpg
     图1 普适性智能生成机理的宏观模型
    既然人工智能的研究对象是“主体与客体之间相互作用的信息过程”,那么,模型中就一定既应当有主体也应当有客体,后者就是环境中的问题。一般而言,主体会有两个基本的特征,第一,任何主体都有目的(总的目的就是要生存要发展)。第二,主体必定积累了一定知识(可以是规范性知识、经验性知识、常识性知识、或本能性知识)。
那么,模型中的主体与客体之间怎样相互作用呢?
通常,环境中的客体总会呈现自己的状态和状态变化的方式,这就是信息,叫做客体的信息。这个客体信息会作用到它能够作用到的那个主体,包括人类的主体(用人类来做代表,也可以是任何生物)。客体信息作用于主体,这是交互作用的一个方面。人类主体受到这个刺激以后,为了达到生存发展的目的,主体就要产生一个行为反作用于客体。但是,这个行为必须是智能的行为,如果不智能:第一,目的一定达不到。第二,如果这个行为不智能,可能会破坏环境的运行规律,客观的规律受到破坏反过来又会威胁到主体的生存发展。所以,主体的行为必须是“智能”的行为。这就完成了“主体与客体相互作用的一个回合”。
图1模型表明:主体必须产生“智能行为”。由此可见,“智能”生成的机理一定就隐藏在这个模型里。换句话说,这个模型虽然看似简单,却能揭示“普适性的智能生成机理”。或者说,图1的模型是探讨“普适性智能生成机理”的根本模型,一切与此相关的问题都包含在这个模型之中。因此,深入分析这个模型,就可以揭示出“普适性智能生成机理”的深层奥秘。
这个奥秘,可用以下8个要素来具体刻画。
    (1)“动力”:生成智能的动力是什么?
这个动力一定是:在主体与客体相互作用过程当中主体要不断地追求生存与发展。如果没有这个动力,什么“追求”都没有,什么刺激来了都不理睬,就不会生长智能。
(2)“启动”:怎样启动生成智能的具体过程?
模型1表明,一定要有客体信息来给主体一个刺激。没有外来客体信息的刺激,这个过程不会启动。
(3)“路径”:主体生成智能的路径是什么?
模型表明,面对客体信息的刺激,主体要寻求一种跟刺激相应的智能行为。从“客体信息刺激”的发生,到“智能行为”的生成,就是这条路径的起点和终点。
(4)“牵引”:这个路径的牵引力是什么?
没有牵引力,就可能失去方向。模型表明,“主体追求的生存与发展目标”,就是生成智能这个过程的牵引力。
(5)“约束”:怎样约束智能生成的过程?
模型表明,这个约束力量就是要遵守与该问题相关的各种知识。虽然有目的的宏观牵引,如果没有相应知识的约束,生成智能的过程也可能偏离最佳的正确路径。
(6)“准则”:判断生成智能过程终止的准则是什么?
这里有一个准则,就是“主体满意的行为实效”。满意不满意?就看智能生成过程中所产生的实际状态跟目标状态之间相差有多远,相差很远就不满意,相差如果差不多了,甚至完全重合了,主体就满意了,智能行为就生成了。
(7)“优化”:如果主体对智能水平不够满意,怎么办?
由于整个过程存在很多不确定性,所以往往会存在一定误差,就要把误差作为一种新的信息,反馈到主体系统的输入端,根据误差信息学习更多的知识,从而优化智能策略,最终改善智能行为,这就是反馈、学习和优化的过程。
(8)“进化”:如果智能水平优化不了,又该怎么办?
如果无论怎么优化都不能满意,这就表明主体当初预设的目标不尽合理。这时,就要提升主体的认知,把目标设置得更合理。这样,主体在这个过程中自己也进步了。
综上可见,上述八大要素(动力,启动,路径,牵引,约束,准则,优化,进化)确实可以充分刻画:面对环境中客体信息的刺激(主体所面对的问题),主体怎样通过分析和学习生成满意解决这个问题的智能策略和智能行为。
这既是“普适性智能生成机理”的奥秘,也是一切人工智能系统工作的共性过程。在信息科学的科学范式引领下揭开了“普适性智能生成机理”的奥秘,这是本课题研究的里程碑式的进展。

进展(五):根据上述“普适性智能生成机理”的揭秘,成功构筑了“普适性智能生成机理”的基本模型
    由图1模型所导出的刻画普适性智能生成机理的“八大要素”(八个工作步骤),其实就是“生成智能”的基本过程,也是“智能生成机理”的奥秘。这是“智能生成机理”研究的重大成果和进展。
把上述“普适性智能生成机理”的奥秘具体化,就可以构筑实现智能生成机理的基本模型,实际上就是一个人工智能系统工作的标准模型,如图2所示。

file:///C:/Users/cming/AppData/Local/Temp/msohtmlclip1/01/clip_image004.jpg

         图2 实现智能生成机理的基本模型

图2的模型表明,主体跟客体相互作用,首先是客体信息作用于主体,如果这个客体信息跟主体的目的有关系,主体就会产生感知信息(也叫做语义信息)。它是主体对问题的认识。然后,把感知信息提炼成为知识。进一步,在目的牵引下和在知识支持下产生智能策略。再通过执行机构把智能策略变成智能行为,完成了主客相互作用的一个基本回合。
但是主体对客体反作用的效果怎么样呢?必须评估,如果评估满意,就成功了;如果不满意,就把这个误差信息再反馈给主体,以便补充新的知识,改善智能策略,从而改进智能行为。这样不断地优化。如果怎么优化都不满意,就要重新设定目标,主体本身就得到了提升。所以这个模型就是通过分析和学习实现智能生成机理的模型。
图2的模型表示的智能生成机理是普适性的。所谓“普适性的机理”是指:这个模型与具体的对象内容无关,什么对象都是这套规则、都是这套原理、都是这套规律;无论对于什么不同的问题,那只是信息的具体内容不同、知识的具体内容不同,策略和行为的具体内容不同而已,而生成智能的这整个机制不会改变。

进展(六):总结了智能生成机理的“知行学原理”和“信息转换与智能创生原理”
若把图2基本模型表达为更简明的文字描述,就可显示出普适性智能生成机理实质乃是“知行学原理”:

file:///C:/Users/cming/AppData/Local/Temp/msohtmlclip1/01/clip_image005.pngfile:///C:/Users/cming/AppData/Local/Temp/msohtmlclip1/01/clip_image006.pngfile:///C:/Users/cming/AppData/Local/Temp/msohtmlclip1/01/clip_image007.png                    优行
    感知      认知  知行      执行
客体信息→感知信息→知识→智能策略→智能行为→误差
    这个“知行学原理”含义就是:客体信息作为于主体,通过“感知”产生感知信息,感知信息通过“认知”生成了知识(以上就是“知”的过程,以下则进入了“行”的过程);知识在目的牵引下通过“知行(知道应当怎样行动)”生成智能策略;智能策略通过“执行”生成智能行为;如果存在误差,就把它反馈到主体的输入端,学习新的知识,优化智能策略和智能行为,称为“优行(即优化行为)”。
所以整个智能生成机制就是一个“知行”的过程。
当然从科学角度,可以把这个“知行学原理”(普适性的智能生成机理)归纳成为“信息转换与智能创生原理”,即通过信息转换(课题信息转换为感知信息,感知信息转换为知识并进而转换为智能策略和智能行为)而创生智能。所以,这个普适性的智能生成机理有两个名字,一个叫知行学原理,一个叫信息转换与智能创生原理,两个都是正确的称谓,是互相等效的称谓。
由此可以得到一个结论:信息,才是智能生成机制的真正源头。所以,人工智能的研究必须高度认识信息的源头作用。换言之,研究信息转换原理的信息科学才是人工智能的根本。不仅如此,信息,还是一切智能系统理解能力的基础和源泉。不过,这个信息不是“信息论”里面所讲的只有形式因素的信息,而是主体产生的具有“形式、内容、价值三位一体”的感知信息,后者可以用“语义信息”来代表(见本人学术专著《信息科学原理》,1988年福建教育出版社第一版,2013年北京邮电大学出版社第二至第五版)。
现有的人工智能研究只注意了纯形式的信息,完全忽视了具有形式、内容、价值三位一体的感知信息,所以不可能具有真正的“理解能力”。而且,现有人工智能的研究强调了数据,忽视了信息;事实上,数据只是信息的载体和外壳,只有携带了信息的数据才有意义,没有携带信息的数据其实就式垃圾。因此,现有人工智能系统的理解能力都很差,差就是差在对“信息”的认识没有到位。

进展(七):在“普适性的智能生成机理”这一成果基础上,在国内外首创了“通用的人工智能基础理论”
在揭秘和理解“普适性的智能生成机理”的基础上,我们首先创建了“通用的人工智能理论”。这就是由“智能生成机理”这个核心研究成果上升到了一个完整的通用的人工智能理论成果,这是一个重大的进展。
这可在本人正式发表的一系列学术论文、特别是本人的学术专著中找到详细的介绍和解释:《机器知行学原理:信息、知识、智能的转换与统一理论》(2007年科学出版社出版),《高等人工智能原理:观念、方法、模型、理论》(2014年科学出版社出版)。
    进一步的成果和进展是,以基于机制主义的“通用人工智能理论”与何华灿教授的“泛逻辑理论”和汪培庄教授的“因素空间理论”三者深度融合,形成了“智能理论-逻辑基础-数学基础”的三结合,形成了“通用人工智能的基础理论”。这个重要进展可以参看《智能系统学报》2018年第一期发表的头三篇论文及其编者按。
基于普适性智能生成机理的《通用人工智能基础理论》在国际学术界是首创,它有几个重要的创新标志:
    ①全新的科学范式:是信息科学的科学观和方法论,而不再是物质科学的科学观和方法论;
②全新的智能模型:是主体客体相互作用的信息过程,而不再仅仅是大脑的结构、大脑的功能或人的行为;
③全新的研究途径:是基于普适性的智能生成机理,而不再是基于对大脑的结构、功能或人的行为的模拟;
④全新的信息理论:是形式、内容、价值三位一体的信息理论,而不再是只有形式因素的信息理论;
⑤全新的数学基础:是“因数空间理论”,而不仅仅是概率论和集合论;
⑥全新的逻辑基础,就是“泛逻辑理论”,而不再是形式化的数理逻辑理论。
正是凭借以上这些重大的创新优势,基于普适性智能生成机理的《通用人工智能基础理论》消除了现有人工智能理论存在的几乎所有弊病,比如:
    ①现有人工智能理论最大的问题是“三驾马车”(基于结构模拟的人工神经网络、基于功能模拟的专家系统、基于行为模拟的感知动作系统)统一不起来,而基于普适性智能生长机理的《通用人工智能理论》则把它们无缝和谐地统一了;
②现有人工智能理论最不能令人满意的问题是所有系统的“理解能力”都很差,而基于普适性智能生长机理的《通用人工智能基础理论》因为解决了语义信息的生成问题,使理解能力得到了根本的解决;
③现有人工智能系统最不可接受的问题是“结果的不可解释性”,而基于普适性智能生成机理的《通用人工智能基础理论》因为有了“语义信息理论”和“泛逻辑理论”就得到了满意的解决;
④现有人工智能理论总是需要“大量的样本”才能够得到一个结论,而基于普适性智能生成机理的《通用人工智能理论》因为具有强大的理解能力就只需要小样本就可以解决问题。
⑤现有人工智能理论最大的忌讳和最大的禁区是不敢问津“人工意识”的问题,而《通用人工智能基础理论》因为解决了“普适性智能生成机理”而成功解决了基础的人工意识、人工情感和人工理智的统一生成理论。
总而言之,由于获得了“普适性智能生成机理”这个前所未有的重大创新成果,在此基础上创建的《通用人工智能基础理论》已经全面超越、大大领先于现有的人工智能理论。可以认为,“普适性智能生成机理”以及基于这个智能生成机理的《通用人工智能基础理论》的研究成果已经深深进入了世界人工智能科技前沿“无人区”的腹地。

进展(八):基于普适性智能生成机理的《通用人工智能基础理论》开始走向应用
除了上述各项理论研究的重大进展以外,“普适性智能生成机理”连同《通用人工智能基础理论》的研究也已经开始走向实际应用。
我们把“普适性智能生成机理”和《通用人工智能基础理论》的一些部分成果(如语义信息理论、信息生态方法论、泛逻辑理论、因素空间理论等)在国际学术大会上与国外同行交流,结果在西方学者中间引起很大的震动,比如,德国的学者居然把报告人钟义信尊称为“钟子”,美国俄亥俄大学的教授向报告人钟义信连连鞠了两个躬,表示从报告中得到了巨大的启发。还有像泛逻辑理论,何老师的很多学生和同事得到了许多很好的应用成果,都是普通的数理形式逻辑所不能达到的结果。汪老师的许多学生和同事在因素空间理论方面也在许多场合得到很好的应用成果,特别是在范鹏的金融系统得到了成功的应用。范鹏金融公司的业务技术负责人郑宏杰总结说:虽然只是初步的应用,就不但已经可以解放(替换)原来金融运行系统当中那些操作性人员,而且可以解放(替换)那些决策层的专家,效果非常显著。
最近我们还在努力,希望跟中商联合能源集团能够形成全面的合作,一方面是在网络上实现《通用人工智能系统》的能力,同时通过“类人机器人”来代替人类处理各种具有智商和情商的工作。
以上,就是我们在探索“普适性智能生成机理”、以及基于“普适性智能生成机理”所首创的《通用人工智能基础理论》方面所取得的主要(归纳为八个方面)进展。
总结起看来,所有这些进展都具有以下共同特点:在国际学术界“独辟蹊径、遥遥领先、意义重大”。
   
    第二部分进展的意义
   
如上所说,上述“八大进展”在国际学术界独一无二、遥遥领先、意义重大。为什么这样说呢?

意义一,在国际学术界首次解决了“智能生成机理”的普适性问题。
所谓“智能生成机理”的普适性问题,是指:所要解决的问题尽管可以各种各样,但是,生成智能的“机理不变”。这就是说,我们所发现的“智能生成机理”可以适应各种各样的问题。这就是人工智能研究中的“不变性”。
从人工智能理论的内部关系来看,现有人工智能理论所遵循的“结构主义方法”、“功能主义方法”、“行为主义模拟”所关注的都是系统能力的某个侧面,只有“机制主义”关注的是系统全局的能力。事实上,系统的结构、功能都是为系统的工作机制服务的,系统的行为则是系统机制的一个外部表现而已,所以“机制主义”方法可以和谐的、无缝的统一现有人工智能的三大流派。
这样,长期困扰人们的现有人工智能研究中的那些“个案性”、“局部性”、“孤立性”、“互不相容性”等问题就在理论上得到了满意的解决。

意义二,破解了意识、情感、理智统一生成的机理
长期以来,人工智能研究都不敢触碰人工意识的问题。但是,有了“普适性智能生成机理”的成果,我们就把人工意识的研究与人工情感和人工理智的研究统一起来了,这是因为,从最广泛的意义来说,“意识就是人类大脑对外界的反应”,包含了感知、认知、思维、理智等各种心理现象。因此,基础意识、情感、理智,都是在客体信息的作用下,在目的的牵引下,运用不同的知识所做出的反应。
具体来说,客体信息经过感知变成语义信息;在语义信息的驱动下,在目的的牵引下,基于本能知识和常识知识就可以产生基础意识的反应;基于本能常识、常识知识和经验知识就可以产生情感的反应。基于本能、常识、经验、规范知识就可以产生理智的反应。所以情感也好、理智也好、基础意识也好,生成的机理是一样的。

意义三,发现了“信息转换与智能创生定律”
物质科学有一个“质量转换与物质不灭定律”,能量科学有一个“能量转换与能量守恒定律”。我们通过智能生成机理的研究发现了“信息转换与智能创生定律”。
这样一来,物质、能量、信息三个领域的基本定律就形成了完备的体系。这在科学上的意义非常深远。
   

编辑:陈茗
259#
 楼主| 发表于 2019-10-10 23:17:03 | 只看该作者
重大科学问题《智能生成机理》研讨会

第三部分:存在问题
存在的问题很多,由于时间有限,这里只谈一点。
要把我们的理论转化成应用,面临着许许多多的困难,我们课题组还有何华灿教授、汪培庄教授,都是80岁以上的人,都是退休教授。因此,我们的学生都毕业了,没有人手了,办公场地没有了、连办公桌也没有了,经费没有了,退休以后申请项目的资格也没有了。这就是我们面临的困难。
校内的师生,因为这个课题不是“国家级”的项目,也没有经费,所以老师和学生都不敢涉足,因为老师和学生们做这个课题算不了“工分”,提职称、授学位都不能算数,所以没有人敢来做。所以,真是很难办。
校外的企业关注短期效益(这可以理解),而基础性理论成果的转化肯定需要时间做原型开发系统,这样就需要一定的时间。这样就很少有企业对此感兴趣。
政府部门也不愿意过问这种“民间项目”。我们曾经先后向教育部、科技部、工信部、发改委、基金委都做过汇报,但是因为国家没有相应的政策,哪个部门都说“很好”,但是都没有办法给以实际的支持。
所以,这么好的一个范式变革、顶层突破、全面超越、大大领先的“普适性智能生成机理”和基于这个机理的《通用人工智能基础理论》成果转化,却是寸步难行,毫无办法!
幸好这次中国科协要征集十大重大科学问题,我是因为最后一个机会,作为终审的一名评委,发现居然十大科学问题中竟然没有人工智能题目,才把这个重要科学问题提出来了,结果得到学界代表们的高度认可。所以,特别感谢科协提供了这个机会。
同时,也感谢基金委,授权我们撰写一个基金委重大项目的立项建议书“人工智能基础理论及关键技术”。要是没有科协和基金委这两个出口,这个重大科学问题就肯定被埋没了,甚至是闷死了。

    第四部分:政策建议

基于以上所汇报的重大科学问题的研究进展、重要意义和存在困难,为了更好地推进这一重大科学问题的进一步研究,使我国人工智能的研究能够兑现国务院在《新一代人工智能发展规划》的庄严承诺- “到2025年,人工智能的基础理论研究实现重大突破”,我们提出三点重要建议。

第一,自然科学基础研究要高度重视“范式变革”
智能生成机理,特别是普适性的智能生成机理,属于人工智能(和人类智能)的核心基础研究,只能在信息科学的科学范式(科学观和方法论)引领下才能成功。然而,由于历史的原因,迄今的人工智能研究一直都沿用着传统物质科学的科学范式,处在“张冠李戴”的状态。如果不在科学范式上实施变革,我相信人们再聪明、再能干,也不可能真正攻克“普适性智能生成机理”。
科学范式的变革,不是个人的好恶,而是物质科学为主导的科学体系向信息科学主导的新的科学体系转变、特别是信息科学的研究从以一般信息技术(如通信技术、计算机技术等)为标志的初级阶段向以人工智能为标志的高级阶段转变所必然要催生的变革,使历史性的变革。
建议我国政府科技主管部门高度重视,尽快出台相应的政策,引导学术界自觉地认识与实施科学范式的变革。否则,我们就很难占领信息科学高级阶段的制高点,很难掌握信息领域这个“国之重器”,就还得继续在别人后面跟踪,继续受制于人。
特别需要强调的是,由于信息科学的科学范式正好与中华文明思想精髓“整体观”(科学观)和“辩证论”(方法论)高度吻合,这就意味着,在21世纪的科学发展中,中华文明将处于驾驭的地位、引领的地位,而不是跟踪的地位。这是几百年来难得的历史性机遇。
建议国家要做出清醒的反应,制定出高瞻远瞩的科技发展政策,促使中华文明思想能够真正站在引领世界科学研究的舞台上。习主席曾经多次强调“要增强民族文化自信”,现在“科学范式变革”- 把“只顾客体,排除主体”的科学观和“分而治之,纯粹形式”的方法论,变革为“整体论”的科学观和“辨证论”的方法论 - 的历史性机遇真的已经到来了。我们的科学政策应当对此作出积极的反应。

第二,把基于“普适性智能生成机理”的《通用人工智能基础理论和关键技术》及其在国民经济各领域的应用列入国家“十四五”规划
人工智能是现代科学技术的“领头雁”,是引领当代科技革命和产业变革的战略性力量。因此,应当高度重视和扎实推进人工智能研究的发展。
在此,一方面应当把现有人工智能的成果尽快转化为现实生产力,为实体经济的发展服务。另一方面,更要有长远的眼光,高度重视人工智能研究的“科学范式变革”,积极支持人工智能的基础理论研究,并通过“范式变革”实现我国人工智能基础理论的重大突破,并在此基础上,引领世界人工智能科学技术及其应用的发展。
为了全面实现上述目标,建议把“普适性智能生成机理”列入国家自然科学基金委的重大研究计划,把基于普适性智能生成机理的《通用人工智能基础理论及其在各个领域的应用》列入到正在研究制定的国家“十四五”规划。

第三,改善“退休人员”的科技政策
建议国家高度重视“收获那些仍然活跃在学术前沿的退休人员毕其终身智慧所爆发出来的最美贡献”。
那些仍然活跃在科技前沿的退休人员,是国家最宝贵的财富:他们积累了毕生的知识和能力,在退休的条件下,能够自觉地根据国家和社会的需要,最充分地发挥自己的兴趣与特长,在科学技术前沿的无人区、在基础理论研究的最深处、在国家最希望占领的制高点,心无旁骛地做出最艰深最基础最有意义的贡献。这是一般在岗人员很难企及的。如果国家不去收获这些成果,国家就太亏了!
试想,国家把一个人培养大、把他教育出来,到他退休之前都在相当浮躁的环境之下匆匆忙忙去完成各种事务,难以沉下心来去做那些艰深冷清而又极其重要的研究,可是,等到退休以后真的做出了最精彩成果,国家却不要了。国家是不是太亏了,所以这个政策要调整、要完善。

最后,关于参考文献的简要说明
   
这里列出的参考文献肯定很不完全。这个文献简表只是想请大家了解:我们关于“智能生成机理”和“通用人工智能基础理论”的研究大体是从1978年全国科学大会前后就开始了,而不是即兴之作。
何华灿老师从计算机逻辑理论进入人工智能逻辑理论、汪培庄老师从模糊数学进入人工智能数学理论、我从信息论进入人工智能基本理论,差不多都有40多年的历史了。
非常难得的是,我们进入人工智能的研究领域之初,很快就发现了人工智能研究存在方法论的问题:信息论只研究了信息的形式,忽视了信息的内容和价值,这是“分而治之”和“纯粹形式化”的方法论导致的表面化毛病;人工智能研究分裂为人工神经网络、物理符号系统/专家系统、感知动作系统/智能机器人三个互不相容的学派,更是“分而治之”方法论造成的结果;逻辑理论局限于形式推理而且各种逻辑理论支离破碎,是“分而治之”方法论导致的结果;与人工智能相关的数学理论之间互不相关,同样是“分而治之”方法论遗留下来的结果。所以,我们从不同的背景、不同的角度却发现了同样的问题- 方法论有问题,而且追求同样的目标 - 在中华文明思想精髓“整体观和辨证论”的引领下建立通用的人工智能基础理论。这就使我们从不同的学科、不同的工作单位走到一起来了,互相默契合作,形成了现在呈现给大家的“普适性的智能生成机理”及在此基础上的《通用人工智能基础理论》。
有不对的地方特别希望大家提出各种各样的批评和问题。谢谢大家!
   
主持人(王国胤教授):
感谢钟老师精彩的报告,这个报告对智能生成机理的研究有很精深的意义。按照会议安排,下面请何华灿教授发言。
   
何华灿教授:
我主要谈为什么要推荐人工智能系统的智能生成机理。钟老师谈的很详细了,我主要讲两点,这样美好的东西有没有存在的必要性,能不能够在计算机上实现这些思想,我从自己的感受来谈谈。
    大家知道,我们整个学科的发展背景是这样的,一方面,人工智能是引导现在科技革命和产业革命战略性力量,国家非常重视,国际上也非常中重视。我国在新一代人工智能发展规划里面提到,2025年要在人工智能基础理论方面形成重大突破,这是引领世界潮流的点睛之笔,非常重要,如果我们国家不能在基础理论方面实现重大突破的话,一切所谓引领世界潮流的思想是没有基础的,因为你跟踪不可能去引领。但是眼前确实人工智能基础理论研究现状是一个最弱项,国际上主要是美国有人想搞通用基础理论,他们有这个设想,但是限于分而治之的这种方法论,他们做不到,能做到的就是拼盘,有的是用行为主义、有的是用联结主义,三大学派的东西拼在一起,互相去交流、去协调,这个实际上是没有抓住问题。而机制主义,抓住了最本质的特征,就是演化,它的智能是在演化中形成和完善的。以前的机械工具、动力工具,他们的用途、工作环境都是终身不变的,刀就是刀、茅就是茅、钟表就是钟表、发动机就是发动机,都是不变的。而智能工具不是,智能工具不仅在它生命周期里贯穿着不确定性要去验证,而且它本身的能力是在工作中不断提高、不断完善的,这是前所未有的,这样的工具是演化的,而现在分而治之丢掉的就是这个。所以说我们国家在这方面能够有重大的突破,而且是一批80岁的退休老人集他们几十年的经验,在退休的二三十年时间里他们集中精力在中华文化整体观认识的影响下,形成了这么一套理论,这套理论我们看在世界范围里是领先的,但西方学者他们走到这个里面的时候无路可走的时候,看到机制主义思想他们非常激动,激动的要给他鞠躬,因为他们看到了发展的希望,走出全局的可能性,所以这个意义是非常重大的。
    可不可以实现呢?我谈几点可实现性:
    第一,演化为核心的机制主义的普适性有没有依据怎么来实现,可以说很多理由,我说一个无可辩驳的理由,生物原形是最清楚的,当男女两个、父母两个决定造一个下一代的时候,他们是怎么开始的,是规划我这个孩子将来在哪个领域里生存,他要作为什么样的专家,我来特殊的设计,还是造一个通用的宝宝呢,做的都是通用的宝宝,这个宝宝出生以后就有一套人类自身的演化生存机制在里面,生物本身去生存去发展的本性,会使他的成长过程学习很多的生活经验、生活知识,然后学习专业知识,之后到某一个领域,然后再某一个领域里工作几十年成为这方面的专家。所以通用机制在自然界是存在的,而我们的人工智能研究到目前为止基本上忘记了这个事实,而是抓住一些具体的功能去接受专业化的设计,初期探索是可以的,但是经验积累到一定程度,我们要建立这个学科通用的理论的时候,我们不能叫每个父母去特制一个婴儿。
    另外,人和机器最大的差别,人是以算计为主、计算为辅,人更多的是在这种不确定性博弈斗争里为了求生存他要算计,那就是说毛泽东这种算计就是不按规则出牌,按小概率事件去驾驭大概率事件,而机器我们让它做的是什么呢,它有了一定的目的以后、有了一定规律以后,他去快速的计算,所以他是以计算为主、算计为辅。所以智能工具出来以后,必须人机结合,由人来驾驭,把计算的艰巨任务交给机器来完成,机器他快速进行计算,计算出来的结果看符不符合我们这个算计的需要。所以实际上人机关系是算计来加以计算。现在人工智能走反了,是以算力算法为主,以计算为主,用计算去改变我们人的算计,这个不行的。毛主席打败美国最主要的,就是算计,用小概率事件去驾驭大概率事件。
    而现在我们大数据、云计算所有的都是统计大概率事件,用大概率来牵着我们的鼻子,这个走下去是非常危险的,如果我们的对手会制造大量的假数据,形成我们一种错误的大概率的计算,会使我们陷入它的陷阱,因为现实社会不是下围棋,他的规则、输赢所有的标准都是定死,谁能够算的层次越深就能制胜,没有你算计的可能性,所谓的算计就是多看几步或者少看几步。可是现实的博弈场景是棋盘不定、规则不定,算计在这里面起了非常重要的作用。而机制主义包括因素空间,他是以一种前所未有的,就是能够模拟人或者认识主体的主观能动性,能够用主观的目的去牵引信息处理的方向,然后形成因果关系,用因果链去指导我们整个推理的序列,形成认识主体的目标、主体的需求,牵引这么一个信息处理过程,这是以前的任何数学包括概率论统计是没有这个能力的,完全是用客观牵着鼻子走。这个泛逻辑理论是我们已经把所有的逻辑它的生成规律找到了,这个泛逻辑是可以按照你的应用需要去生成你的逻辑计算,那就是我们基于这个机制提供了逻辑保证,现有的是,不同的应用用不同的逻辑,不同的逻辑计算规则不一样,你换一个应用环境,不可能建立普适的,而泛逻辑从逻辑层面保证了各种各样的需求,我给你都生成下来。
    我觉得整个机制主义的东西,从生物原型看,是客观存在的,从我们目前的理论技术准备包括数学准备、包括逻辑准备,提供了可能性,这样我们大规模的处理就能把相关的关键基础都开发出来,能够应用逻辑,形成大规模应用人工智能的这么一个情形,就像我们现在生一个孩子一样,而不是为了某一个应用去定义某一个人工智能系统,也不是完全靠不需要智能或者知识的大数据、云计算去进行无目的的数理统计,统计完了让这个大概率牵着鼻子走,让我们人类算计的谋略大大的萎缩,而计算的能力拼命的提高,确实变成一个机器的社会、机器的人,很容易被敌人所攻击,你没有任何洞察力,这个是危险的。我觉得,机制主义确实抓住了牛鼻子,而且这个是可以实现的。
    钟老师提的需求我很感动,就是说咱们国家大量的退休人员,由于条件不一样,有的只能在家养着,但是有些人精力还旺盛,我们都感觉到年轻人是职务管着我们,我们没有办法,很多感兴趣的事先放在旁边,等有空再说。我在进入到搞这个的时候没有钱,我的好多朋友和学生说你能不能把这个放下,先去搞工程争取到钱然后再来搞这个,我是正好相反,我是前面搞了大量的工程,也挣了不少钱,但是我没有精力思考这个问题只能放着。现在我可以招博士生,好多人可以利用。我想干一点这个东西的时候,但是面临着没有钱,因为我们那个时候节约的经费都要上交的,所以我的工程一结束、经费一上交就变成穷光蛋了,我现在再要回去的话,可能我这套思想的火苗就熄灭了,以后不知道谁来搞,所以那个时候很艰苦。但是退休了以后就可以来做,做的这些事情现在看来确实很有价值,因为一套逻辑系统,是逻辑生存系统需要的,包括你的云计算,空间逻辑、氛围逻辑,所有这些都可以用这个机制来生成。
   
主持人(王国胤教授):
咱们这个研讨会按照安排进入到集体讨论。
   
韩力群教授:
刚才,听了钟义信教授“智能生成机理”这个理论,我的一个体会就是,他对人工智能的研究主要意义是指导性,不像一般技术发明就是很具体这些对象,所以他是提供了一种指导思想,我觉得:第一个,是从科学观来看,智能生成机理这个理论能知道我们对整个人工智能学科的宏观认识。第二个,从方法论来看,这个智能生成机理这个理论能知道人工智能领域的研究者在研究工作中能采用真正的研究方法。第三个,从研究模型来看,智能生成机理为我们展开了一幅在正确的科学观和正确方法论指导下全局的蓝图,体现了多学科交叉,体现了整体论的思想。所以我想它最大意义在于对我们人工智能领域的研究人员提供了一个新的指导思想,对我们的作用是一种开导启迪的作用,有助于研究者修炼内功,会潜移默化的提高在科研工作当中的基本素质。所以我觉得他的这种作用恐怕很难用多少引文来考量它,主要是对思想上的启发我觉得不同的人可能学习了这样的理论之后起的作用是不一样的,因为它的感悟不一样,靠他自己去悟,这种东西很难说我在论文上直接引用哪项技术或者哪一篇论文,所以我觉得不大好用多少引文去考虑。
    智能生成机制机理亟待创建良好的生态圈。这个理论是中国人提出的人工智能的原创性的理论,充满了东方文明的智慧,再好的良种也需要肥沃的土壤、充足的阳光和雨露滋润才能壮大成长,这个土壤、阳光、雨露不是创建者自己去提供,刚刚钟教授也说了,退休以后面临很多很多问题的困惑,所以我觉得这种生态环境需要大家去创建。刚才我们也看到,智能生成机理它的蓝图当中实际上还有很多的基本概念和基本原理是需要落地的,他提出了各种基本要素之间的相互关系也需要研究相应的算法和技术去实现。这是刚才钟教授给出的一张图,我觉得这个图里每个方框给出的内容,需要具体的实践技术和方法,方框前后的入和出是怎么实现、怎么转化的,应该有大量的人来参与。刚才我看到了这张图,我觉得这里边,在这个框架下需要填补很多关键技术,这些关键技术除了刚才提到的几位老先生,像因素空间、泛逻辑学,我觉得还不足以把它支撑起来,所以这些关键技术需要人工智能领域的研究者,特别是中青年研究者尽快的加入到研究队伍当中来,就是基于智能生成机制这个理论指导的研究队伍,大家要众人拾柴,共同创建一个智能生成机理这样一个学术生态圈,大家一起发展壮大,一起培育它,我觉得这是我们现在面临的一个问题。比如说牛顿发现了三大力学定律,但是他并没有去发明各种各样的工具,因为他不是技术专家、他也不是工程师,是哪些人做的工作,但是他提出了这样的理论指导思想,所以我觉得一个好的理论要有大量的实现技术去支撑。好的技术也需要有大量的应用场景去形成这样的应用生态,像前段大家都知道华为在开发一个鸿蒙操作系统,我想技术不一定落后,但是最主要问题不像安卓和苹果那样这么多年的发展已经建立起强大的生态圈,我觉得我们人工智能领域的中青年、科技工作者有这种责任心去呵护这样的理论,共同建造这样的生态圈。
    具体建议,刚才钟教授和何教授提到的也是我想说的,我就不重复了,我觉得我们中国人特别习惯跟踪外国人创造的国际前沿,因为只要一说国际前沿,有“国际”两个字,就一定是外国人创造的,实际智能生成机制理论也是国际前沿,只是它是中国人创造的,我们总是跟在外国人创造的国际前沿修修补补、跟踪,这个已经成了一种思维定式,往往轻视或者忽略我们本国的原始创新,我觉得这里面除了崇洋思想以外,可能政策导向应该负主要责任,因为我们各个大的课题资助的时候特别强调国际如何如何,所以我们建议,也是一种强烈的呼吁,就是国家科技政策要向中国原创倾斜,给予充分的呵护。当然我们可能离国家科技政策制定层、决策层比较远,我们没有通天的渠道,但是我想我们要从自己能做的一点一滴做起,比如说智能生成机制这个理论,应该是代表中国人工智能学会或者中国人工智能学术圈提出来的这样一个理论,进入了重大理论问题。中国人工智能学会现在有两个奖,一个是吴文俊人工智能科学技术奖,还有一个是优博,副理事长王老师也在这儿,我们自己可以不可以在这两个奖当中,明确的理直气壮的为智能生成机理领域倾斜或者为它单独设奖,这是我们自己就可以做的。
    另外我也建议,中国科协有没有可能开设通用人工智能基础理论培训班或者高级研修班之类,来推介智能生成机制理论,这也是我们这个层面做应该可以做到的。
   
郭嗣宗教授:
刚才听了钟老师的报告,接到钟老师邀请来参加这个会议,这里面也思考了一下,我想简单的谈一谈对于智能生成机理研究的重大意义,以及目前面临的一些问题。
    第一个问题,我们应该从人类工业发展史上来认识人工智能技术的重要意义。我们知道,从18世纪到21世纪,整个工业的发展经历了三次重大的技术革命,一次就是瓦特的蒸汽机,一定要记住“英国”这个词,当时在英国首先掀起了“蒸汽机+”,因此英国一跃成为世界第一强国。19世纪,德国的西门子公司创造了电动技术,因此德国率先开展了电动,德国立即成为当时世界第一强国。进入到20世纪,美国为了导弹的弹道计算,设计了计算机,这个计算机很快把我们整个工业带到了智能化时代,我们整个工业由于蒸汽机把我们带到了机械化时代、电动机把人类带到了电气化时代、计算机把人类带入了智能化时代,三次工业革命之后现在第四次全世界各国都在考虑,一致认为人工智能,人工智能将把我们整个工业社会引入到智能化时代,恰恰是为了这个,我们国家政府做了很多很多的步骤,但是我们很多人没有意识到,比如说最有名的“中国制造2025”,这个国策是干什么?就是提高中国的制造水平,主要是智能制造,紧接着人工智能发展规划,还有一系列的规划,同时我们国家想利用人工智能这个技术的改革,使得我们国家也成为强国,因为那三个贡献使三个贡献者都成为世界强国,中国成为世界强国就要抓住这么一个机遇,但是我们大家也知道,这个机遇不是白给你的,特朗普首先带着来的,中美贸易战是干什么的,实际背景在哪儿?美国跟中国谈判的时候最后一句话,立即叫停“中国制造2025”,很明显的,因此这个是中国强国的必由之路。我们认为应该加强人工智能基础理论的研究,它的重大意义是什么?为了中国2025顺利实现,为了中国人工智能规划顺利实现,同时还有为了解决人工智能的瓶颈问题,后面我还要简单谈一下。
    下面我谈一下目前人工智能发展的现状和存在的问题是什么。我们知道人工智能是从1956年在美国的一个学院的会议上提出的概念,而且当时是非常兴奋,觉得类人的东西要出现了,但是经过了整整40年,到1996年的时候,经过两次一个高潮、低谷、兴奋、又衰落,今天我们是人工智能的第三次,又出来一个高潮,大家又很兴奋,因为看到很多成果很兴奋,但是我很忧虑,第三次低谷一定会出现,为什么说第三次低谷一定会出现呢?恰恰因为我们对前两次高潮低谷的总结,他认为人工智能发展瓶颈是什么,为什么不像一开始我们那么兴奋,我们的期待主要是两件事。第一,硬件。就是由于计算机的计算速度和它存储能力达不到对人工智能的描述,这是核心。第二,算法,软件达不到。恰好是这些年来,到1996年,到90年代末、20世纪初,我们恰好在计算机的运算能力和性能上得到了极大的提高,甚至我们包括了云中心、云计算和计算机的速度,因此,我们发展的速度复苏,这种复苏同时还包括深度学习算法,出现很多的成果,大家都知道AlphaGo、索非亚、刷脸技术、科大讯飞的云翻译、云汽车,大家都很兴奋,觉得类人的技术离我们并不远了。我认为将来第三次人工智能如果进入低潮的话,因为人工智能是需要成本和效率的,将来我就是为了提高机器的效率不断的提高计算机的成本,让计算机如何如何的提高速度,但是计算机的速度现在已经快到瓶颈了,怎么办?大型的、并行的云中心,一个云中心需要多少,金院士也来了,原来在他们中心搞云存,几亿、几十亿的投入,非常大,靠这么大的投入去做人工智能值得不值得,不如一个月在我们地区给1500元就能干活了,为什么去做这个?我想提问这件事,按现在的人工智能发展路线,难道不能出现第三次低谷吗?第二,现今天的路线能实现真正的类人吗、就是智能吗?
    我们可以预见到,未来人工智能的瓶颈一定是成本和效率问题,今天的计算机很难实现真正的人工智能。
    第三个问题,人工智能的发展瓶颈是怎么去破的。我记得我看过汪老师1988年搞的推理机制的时候,钱学森先生接见你们的时候有个讲话,我们50年代抓两弹是为了抓住我们的国力,他说21世纪不是两弹的竞争,他说叫机器智能,机器智能就是人工智能,他说这个是国际上的竞争,然后他紧接着有那么一句话,他说50年代我们搞两弹,是先有理论、后有实践,我们现在最头疼的是,未来的机器智能我们没有理论,钱老已经看到了,很多已经意识到人工智能的最大问题,没有理论。人工智能所取得的这么多成绩都是人工智能的技术发展,而这种技术发展就继承原来我们处理物理问题和其他问题的数学方法和数学逻辑所完成的。目前人工智能研究,尽管我们出现了这么多的成绩,但是我觉得一个问题,重技术、轻理论。
    二,现在所用的技术和方法论来说,只不过是工程学方法为主,即使在学习算法上我也看,因为我是搞数学的,也看,比如我们今天提出的深度学习对于我们人工智能的确发展起了很大作用,但是深度学习,不说别的,我来识别一个东西卷积神经网络,我一直在想,我脑子里有网络,但是没有这个卷积,就是说我们现在所做的只是工程的模拟,而已跟人的智能差距很大,根本不是那么回事。未来要解决人工智能的成本问题、效率问题,唯一的一个办法是要深入的去研究智能行为究竟怎么产生的,我就很感兴趣钟老师这个人工智能的生成机理。刚才那位老师谈到,说我们这个是什么指导的,我不同意这个意见,工具,你总不能说微积分是对物理科学的指导和启发,不是,就一个工具。现在为什么说是工具呢?因为根据三个老先生,一,我们需要基于信息论的知识的生成过程,它的原理要搞清楚,知识最原本的东西是推理,推理需要逻辑,整个逻辑还有数学基础,恰好是三种放在一起,不是说给人一个启发,我们重点是三位老先生还是人工智能创造全新的途径,我认为是这么一个工作。
    我还想谈这样一件事,今天我们利用计算机来实现了人工智能,未来的人工智能利用今天的计算机能实现吗?我的结论是不可能,为什么我的结论不可能?因为谈到今天的计算机,很多人都认为计算机的两个最大贡献,一个是图灵、一个是冯诺伊曼,但是我认为图灵、冯诺伊曼主要在计算机技术上,而计算机的生成基础原理应该是莱布尼茨,莱布尼茨应该是数学逻辑的创始人,还有一个很重要的康德,近代集合论的创始人,集合论是什么?他并不简简单单是数学方法,是最重要的思维方法,而恰好就在这个出现了毛病,因为基础知识是莱布尼茨的数理逻辑和康德的集合论,因而才产生了布尔代数,才有了后来的图灵的工作,康德的集合论创造之初就受到了很多人的攻击,特别是维尔斯特拉斯对他也产生了攻击,还有罗素的理论,后来我们发现的确是集合论的思想,而且他的这种思想是今天计算机所依赖的理论。现在有什么问题呢?我们说当时罗素提出来的悖论,实际根本推翻了两件事,一个是证明过程可以用反正法吗?不能,二证明的过程可以用数学归纳法吗?不能,他说这是人真正认识,人的认识问题不能用反证法,也不能用纯粹的数学归纳法,这恰好就是康德集合论出现的东西,我们回避了,但是人的思维是不能回避这些东西的,就是在今天的计算机基础上实现所谓类人是不可能的,这里都需要我们的基础理论要重建,要重构基础理论,我很赞成三位先生的工具,要重构这个理论。
    下面我想提这么几个建议,时间关系简单说:
    一,要提高对基础研究的认识,把它纳入到国家战略。
    二,一定要走中国的道路,为什么走中国的道路?因为刚才何老师说了,人工智能主要不是计算,而是算计,计算是物理科学重点是计算,人是算计,但是他俩对象不一样,计算的对象是数,算计的对象是概念,一定要创出中国全新的东西。一定要多学科联合,除了我们搞信息科学的、数学的、逻辑的,还需要思维科学的、脑神经科学的、化学的、行为学的,一定要多学科进行联合。另一个,一定要走老中青相结合的道路,为什么?因为我们今天要构建、重构人工智能的基础理论,要运用到更高、更深的智慧的结合。最后,理论与实践一定要并行发展,为什么?因为一定要按照毛主席说的实践—认识—再实践—再认识,要符合这个规律。
   
陆汝钤院士(张松懋研究员宣读):
我是中科院数学所的,我是代表陆院士来发言的,陆老师专门写了发言稿,他做了这个PPT,所以我来给大家念一下陆老师的发言。
    为了考察智能生成机理,陆老师写这个是泛泛的题目,并不是针对钟老师的这个机理专门来讲的,他是从这个词源深说的。首先,要明确什么是智能,这个问题现在好像还没有一个为专家们普遍接受的说法。这是首先要明确的,什么叫智能。
    第二个要明确的,说的是人的智能还是机器的智能,甚至有可能是人类以外的生命体的智能。我们先从人的智能说起。
    人生来就是有智能的吗?我们想到的第一个回答可能是否定的,试想如果我们把新生婴儿封闭起来,只是给吃给喝,没有语言交流、没有声光电各种外界刺激,婴儿长大以后可能是一个白痴。我们说人有智能的意思是正常人天生具有通过学习获取智能和应用智能的器官,如果大脑受到严重伤害,或者负没有任何信息来训练大脑,大脑就不会体现智能,根据这个思路我们可以认为,每个人类生命个体的只能是该个体在后天通过不断学习得来的。
    只有人类才能有智能吗?我们的观点是否定的,可以从两个方面来考察。首先从人的定义来说,恩格斯曾经把制造工具作为从猿到人的关键一步,现代的人类学家经过研究后认为,如果要画一条界限的话,真正的人类出现的应该是从直立人开始的,因为之前已经会制造工具了,因为是直立,所以脑容量迅速扩大,一般1千毫升以上,给智能的产生发展提供了物质基础。另外,我们从动物的观察中也可以看出许多动物是有智能的,比如像狮虎狼等等猛兽,在捕食过程中的潜伏、围猎等行为都可以体现智能。
    智能是在过程当中某一点突然爆发的吗?根据情况研究不是这样的,智能和大脑的结构、容量是密切相关的,但从容量来说,从脑容量约500毫升、经过直立人1000毫升,到现在的1500毫升,几乎可以刻画人类发展的过程,所以我们可以认为人类获取和应用智能的能力是通过不断进化逐步提高的。
    大脑是产生智能的唯一器官吗?好像不是,文献中报道的著名仿声大狗,能够在复杂地形上负重快跑,对身体平衡的掌控模拟了人类小脑的功能,在更广的意义上人类的脑是复杂的结构,各个部门各司其职,例如脑干要负起维持人所在生命多种重要责任,还有许多条件反射和无条件反射,如果用人工智能技术构造一个人工生命,对于脑干功能的模拟是必不可少的,这里我们想起了布鲁克斯主张的没有表示的智能,他凭次获得了国际人工智能大会的国际思维奖,这个观念看不仅大脑,而且整个脑子都能产生并体现人类的智能,可能包含一些高等动物的智能。
    现在这个问题就来了,一个生物的生命活动中有许多自调节的现象,如果把这些生命现象都说成是智能的话,是不是把智能的范围不适当的扩大了。例如,当有细菌或者病毒入侵人体时,我们的免疫系统会动员起来抵抗入侵者,难道这样的生命机制也算智能吗,我们认为是不算的,因为这些完全是人的机体的自发行为。
    总结以上讨论,我们把脑子,无论脑子哪一部分控制和调节生命体的行为看作是高级生命系统的智能行为。
    是上我们对人类的智能发生机制的讨论。
    关于计算机的智能,计算智能、机器智能,我们认为可以有两个层次的含义。最能为大家接受的一种说法是凡是需要计算机来模拟人的大脑思维去做的事情就是智能,比如说计算机做计算、做文学的解读、做推理写文章、作曲、绘画等等都属于这个范畴,图灵1950年提出著名的图灵测试也属于这个范畴,从窄一点来说,可以认为计算机能够进行创造性思维才是智能的,计算机做一些固定的有规律的计算,并不需要聪明才智,比如说求解一个线性方程组,我们对创造性思维的理解是,在不完全信息和没有先验支持的条件下,计算机还能适当运用已有的知识和有限的信息,以应付不分明环境和新的问题,这样才算是智能。
    至于前面提到的人类大脑以外的脑部件体现的功能,一般是不能仅仅通过计算机来实现的,例如对于物理力的测量,声音和光电信号的接收和转换等,必须另加设备,严格地讲,他们就不是计算机智能的一部分了,尽管大家常常把各种外部设备提供的功能也算成是机器智能,但是我们觉得它不应该属于今天讨论的范围。
    当然这个机器智能的发生机理还可以细分,老一辈的智能生成机理大师认为这个智能产生于逻辑推理,比较典型的代表包括Newell和Simon物理符号的假设,这个学派的学者也被称为符号的智能学派。还有一些大师认为机器智能产生于计算,这里里程碑的工作包括神经网络、遗传算法、软计算,以及近些年来崛起的深度计算,这一派是计算智能学派。第三种观点来自于Feigenbaum的知识工程,他曾经宣称足够多的知识就可以形成智能。他的具体设想是,用10年的时间构建海量的知识库,使他能够回答涉及人类知识的一大部分的问题,先用10年时间建立,然后再用10年来扩大海量知识库,使他能够回答他所不知道的问题,再用第三个10年来改进海量知识库,使它能够自己创造知识,从而达到智能化的程度。我们觉得这些主张都是有道理的,但是都不够全面,可以看作是互补的。还有第四种观点,全名为钟老师这边提出来的,以信息观、系统观、机制观三位一体的机制主义的人工智能。信息观体现了只能是从信息转换而来的,系统观体现了信息转换的全面性和系统性,而机制观体现了智能生成机制的重要性,还有一些其他智能发生的观点,我们是主张通过大家熟知的百家争鸣、百花齐放这样的机制来辨明真理,我们相信实践是检验真理的唯一标准。
    谢谢大家,这是陆老师的发言。
   
金智新院士:
首先向钟老师、何老师、汪老师致敬,也向三位老先生学习,听了今天的报告,报告的内容非常精彩,也很受启发。报告的视角非常独特,从普适的这样一个概念出发,普适的一些东西一定为人类做贡献,最后钟老师的这些建议我想也都非常实在、非常中肯,今后有这样的机会一定会把我们国家的这些老先生他们所从事的专业面临的一些困境、一些问题有机会反映。
    我本人是学煤炭采矿的,非常有幸两年参加了中国科协重大科学问题和工程难题的终审会议,当然我搞矿业的,因为对矿业了解,所以就为矿业两年争取了两个项目,一个是矿山的重大安全问题,一个是千米竖井施工装备的一些难题,千米竖井大家都知道,多少川藏铁路目前已经开工了一部分,但是有很多生态脆弱地区施工条件连工业场地都没有,如果工业场地太大,要打很多的山路上去,应该说对生态脆弱地区环境破坏非常大。
    人工智能确实我说不了太多的东西,但是我想从我这个行业说说我们人工智能现在的发展。煤炭行业大家都知道,是我们国家的主要能源,就是这几年大家对它的责难也好,大家觉得它对环境带来很大影响,这也都是现实,但是它无论如何目前在中国一次能源消费中的比例还占到了59%,当然和世界的27%比重确实是很高了,这几年新能源发展很快,我们煤炭企业的数量由改革开放最高潮的时候8万多煤矿,到现在只有6千座,这6千座当前正在干什么呢?智能采矿,这个可以说是我们整个煤炭行业目前非常火的一个东西。但是怎么智能?怎么弄?很模糊,包括5G在煤矿用,大家也可能赶这个时髦,因为在地面上还没有用,在煤炭上要用,特别马上由于井下使用防爆的要求都提出了更新的一些挑战。在智能方面大家都是这样一个具体的问题来说,我觉得今天听了钟老师的讲话,对煤炭的智能发展非常有帮助,今后我还得好好的把它消化消化。
    作为高校里边可能这些思想、这些理念应该很有意义,特别是当前的高校在紧锣密鼓的学科建设当中,无论是中期的评估,还是下一步验收,我觉得作为把老学科进行一些调整,这个新的学科智能方面应该说各行各业确实都非常需要,能把这些理念、想法融入多具体的应用当中的,将极大的促进生产力的发展,例如有人巡检、无人操作,这是我们对智能提出了要求,因为他这个矿业类的,如果把智能上去,经验的学习非常重要,同时又不允许失误,他这个一失误可能涉及到人命关天的事。同时,也应该在这个学科当中的学习当中我想是有一个贯通的学习,可能光光本科大概学这些有些费劲,因为很多思想还要和哲学的一些东西结合起来,这个就提出了更高的一个要求,我想这个难度应该说也比较大。
    这是我的一点体会。谢谢大家!
   
吴国政处长(基金委信息科学部三处):
受张主任委托参加这个会,学习了很多东西,今天早上看到以钟老师为首做的报告,很受启发。基金委也收到了钟老师的建议,我们还是非常关注这块的,特别是人工智能这块,做这个概括也是希望突出这块,希望在这个上面有大的创新,今天的报告提到通用人工智能,也关注到,但是现在整体感觉到难度很大,不管从基础理论的突破、从范式的概括,我们现在还没有找到着重点解决通用人工智能,您刚刚提到的方向我觉得还是很好的。
    第二,我代表我们处针对钟老师这个题目说说,不一定对,我不是搞人工智能应用的,现在整个人工智能基础研究方面,我们当时也分了一下类,应用基础研究,真正的通用或者原始基础性的人工智能技术很少,现在我们也希望在这方面做出贡献。我不太懂,所以还是请教几个问题:
    第一个,刚才钟老师在报告当中提到的物质信息,我现在有点困惑在哪儿呢,我觉得物质科学、信息科学,实际上也是包含着物质,很难说这两个学科有一种对立的关系,因为信息里面还有很多物质,包括电子、通信流、信号,我确实是外行,不一定对,基础来说我觉得把这两个分开来讲,通过这个达到信息科学这块,但是物质科学我觉得信息科学绝大部分是有重合的。
    第二个,知行合一和我们这个是有异曲同工之妙的,如果在重大项目申请,如果提出这个观点的话需要更进一步对它内涵和外延进行科学的解释,因为我们现在还达不到基金资助这个层面,更多的是在数学原理这块,把这块内涵外延钟老师再解释解释。
    第三个,我还是觉得咱们这个研究,刚刚听也提到了困难,但是再困难我估计最后如果他作为一个项目立项需要有验证,这个验证再困难都得做,我特别感兴趣的您刚刚说的,我也查了一下,这块怎么把智能生成机理应用的工业大数据,我觉得再难需要有一些延伸性的东西。
    最后,您的立项我们也看到了,可能最大的是咱们三位老师的年龄,如果三位这个项目真的能立住,真的去申报,一个是以单位,第二,从我们现在的创新群体限制是55岁,不光我们基金委,整个科技的用人和和团队来说,政策又得改变,我们可以慢慢在来,第一步我们也是进入这个过程当中,我们现在整个评审是透明的,咱们随时交流。
    刚刚提的建议很幼稚,因为我不是搞这个的,不是特别懂,仅供参考。
   
钟义信教授:
吴处长刚刚提的几个问题带有普遍性,不光是您个人的看法。物质科学跟信息科学的关系,所有信息系统都要有物质、都要有能量,没有物质连形体都没有,信息科学系统就不存在,没有能量,信息的过程不可能进行,所以物质科学跟信息科学并不是一刀两断谁也不管谁,但是在所有的信息系统中它的物质、它的能量都是为了支持信息科学系统的信息过程,而不是关注它的物质过程,物质是支持信息过程的,所以信息科学跟物质科学有关系。但是当我们研究理论的时候,信息科学问题会把信息作为它的基本研究对象,这并不意味着信息科学不要物质、不要能量了,科学界都有共识,没有问题,不存在这两个东西你没有我、我没有你,只是说研究信息科学的时候不能只是关注物质,而不关注它的信息过程,信息过程是命脉、是它的主导,也就是说信息流来指挥物质流和能量流,物质流和能量流是支持信息流的,所以一定要把信息作为主要研究对象。所以,他们之间有联系,但是又有重大区别。
    第二,我们也经常碰到这么一个问题:研究自然科学为什么要把哲学问题拿进来?这个就是“分而治之”的方法论造成的世界性的影响,把哲学和自然科学截然分开,自然科学的发展就会受到影响。如果总在下面这些层次去做,就永远也达不到整体的把握。为什么近年提倡交叉科学?就是因为“分而治之”方法论把原来的科学分成很多很多分支,把他们之间的联系割断,现在“交叉科学”就要恢复这些学科之间的联系,包括哲学和自然科学的联系,没有这个联系就会陷入局部,因为哲学和自然科学并不是一刀两断没有关系的,科学最深刻的东西就在哲学,哲学要应用的东西都在科学,这两个是不可分割的,但是以前为了研究的方便把它分成门门类类,这个正是现在提倡交叉科学的原因,为了减少这样一种副作用,恢复学术问题的内在联系,所以自然科学一定要有科学观、方法论的问题,不能够把它们去掉。我注意到有一个报道,不知道是基金委整体的方针还是能源科学部的方针,它说:评价科学基本成就的时候,一定要看它有没有涉及方法论。我认为这个方针很好,所以我给陆建华副主任写了一封信,我说这是巨大的进步,不是小进步。很多人都因为自然科学和哲学一定要分清,所以都不涉及科学观、方法论的问题,于是思考的层次都比较低,这样很难从根本上实现突破。所以刚才吴处长提到的问题特别重要,而且也有特别的普遍性,所以我想说说我们的的观点,供大家批评。
最后一点,老年人对国家科学贡献的问题。目前,国家执行的退休人员政策有毛病。国家已很大的投入把人们从小学、中学、大学,一步步成长起来,这个过程当中他都在成长,当然也再作贡献。但是,到退休了,国家就不管他们的贡献了。国家在这里很吃亏。有人问:钟义信为什么你最近有那么多成果?我说很简单,因为我退休了,所以我能有重大成果,如果我没退休,为了应付那些管理要求,我就没时间去做很基础的研究。所以,现行的年龄政策太形而上学,而且国家的损失真正是太大了。那些仍然很活跃的这样一些人,他有非常精彩的成果,国家没有政策去支持他们,这些成果就丢掉了、埋没了,跟这些人一起进入棺材里了,这些如果不改变,国家的损失巨大的。尤其是基础理论自然科学基金,基础理论这个领域青年人、中年人要应付这些管理的要求,哪里能够坐得下来、沉下来去研究这些最基础的东西,研究科学观、研究方法论、研究生成机理,基本上不可能。而能够研究这些的人都退休了,退休了的人研究出来的这些精彩结果,国家又都不要了,这个国家的政策不改善真的损失太大!

何华灿教授:
关于自然科学和哲学的关系,我们可能受到一些思维定式的影响,实际是不对的。我举个例子,我们讨论一个家庭两个小孩之间的关系的时候,就不牵扯到家庭与家庭的关系,但是要讨论孩子婚姻的时候,就牵扯到两个家庭之间的关系,我们在讨论中国公民的管理的时候会牵扯到外国,但是也有外宾来了,在我们国家认祖或者跨国婚姻的时候,自然科学和社会科学都是跟哲学有关的,但是一般的讨论自然科学问题不涉及到这些,但是我们涉及到科学观、方法论要转变的时候,虽然都是研究自然科学,必须从哲学的高度来。所以说,管住我们的高层。不涉及到高层我们就上不去。我跟我的博士生,遇到大量的脱离传统的思维,找新的方法的时候,或者我们大家都有一个共同的感受,首先要从哲学,从观点上突破,一旦突破了以后就好做了。我们在辩证的层面思考问题的时候,任何问题都是对立统一的,这样才能实现,所以从哲学的角度看辩证思维的时候,离不开真假同体、对立统一,这个思想一打开,别人该怎么骂骂去、我们该怎么做做去,所以才有今天泛逻辑大一统,把所有逻辑规律包含在一个统一的体系里边去。我觉得真正到了原始创新,必须涉及到科学观和方法论的层面。

钟义信教授
对,不考虑科学观、方法论的创新都不是真正根本上的原创,都是局部的创新。
   
王万森教授:
第一个,刚刚吴处长提到的,包括钟老师的研究,是不是结合找些数据来验证验证,我觉得作为基金的资助应该分两个方面,一个就是原创性基础的这种研究未必一定能去找到数据去验证。我觉得这个观念是错误的,我觉得是不对的,就是在基金方面我自己也吃过这个苦头,我曾经报过泛逻辑方面的课题,包括国家基金和北京市基金,后来有人给我透露,我觉得这是咱们国家基金资助方面的一个悲剧,不应该这么做,要容忍创新、要鼓励创新、要容忍失败,这是基金最基本的原则,如果任何基础和原创性的研究都得拿数据去验证的话,我认为这个不是真正的原创,不是真正的创新方面的研究。
    第二个,钟老师提出的国家创新人员如何提出他的应用为国家科技进步做点贡献,这是非常有道理的。年轻人正在创新活力时期,不容忽视,应该是国家在科技创新方面的一个主力军。一个退休的人,在没有工作压力的情况下去思考一些基础性的问题,我觉得对国家是更有益处的。大家都忙于工作、忙于完成任务、忙于完成指标,谁有精力做太多的创新的原始方面的研究,我至少我觉得我见到很少有,就是为了完成指标,我多少SCI、我多少项目、我多少经费,考核的就是这个东西,如果没有这些东西我就没法生存,我饭碗就没有了。我觉得钟老师这个想法非常重要,确实值得我们国家在研究方面、政策方面引起一些关注。
    我自己就有一个很简单的例子,当然我这个不算什么,现在人工智能教育这么热,做人工智能教育的有多少?可能千千万万,真正思考人工智能教育的有多少?最近科技日报对我有一个采访,问答式的,我把我的观点谈了以后,4月4日他们在科技日报登了,登了以后当天就有转载,我是一个退休人员退了几年了,但是我对这个问题的思考,我觉得至少他转载了我觉得他是认可的,我觉得对退休人员的这种余热的发挥或者研究方面的政策,确实是需要认真思考的一个问题。
   
李衍达院士(胡涛转达):
大家好!我叫胡涛,我目前还是清华大学自动化系的博士生,但是我今天是作为李衍达院士的代表人,因为李衍达在学校有一个报告,他今天委托我过来传达一下他对于智能生成机理的思考。
    作为我个人来说,我个人来到这儿更多的是抱着学习的态度过来的,确实听完钟教授精彩的报告我也学习到了很多东西。对于我来说最感动的有两点。第一个,钟老师再度向我们表达了方法论对于科学研究的重要性。在我的博士前几年中间我可能更加关注如何解决一个具体问题,比如通过编程、通过算法这样一些具体的措施去解决某一个具体的问题,但是往往就会忽略了方法论上面的重视,这个对于我来说也是一个警醒。第二个,钟老师在他这个年龄还具有这种不服老的精彩,能够身体力行、知行合一奋斗在科研前沿第一线对我是很好的鞭策。
    接下来我就简单的传达李衍达原始关于智能生成机理的两个简单的思考。
    虽然李老师跟钟老师的研究方向可能不太一样,但是我们会发现,大师们对一个问题思考的时候,他们在本质上都能够挖掘到本质上最重要的东西,从而能够找到一致的内容,李老师讲的这两点东西其实跟钟老师今天跟我们讲的很多东西本质上都是相同的,但是李老师在他准备这个稿子之前肯定是并不太清楚知道钟老师今天要讲什么内容的,但是我们会发现,他们内部具有惊人的一致性。
    首先,李老师第一个观点认为,智能中间智能生成的机制很重要。李老师认为人的智能最大的特点是具备概念,概念能够让人认识到各种各样的事物,并且在事物中形成迁移,这种迁移辅助人们认识新的事物,对于智能系统而言我们如何产生这种概念,李老师的观点是要把智能系统和复杂系统联系理解,复杂的根本特征是涌现,一个复杂系统拥有多个单元组成,当这些基本单元存在相互作用的时候就可能产生新的结构或者是新的属性,比如说在礼堂中每个人鼓掌可能不会产生很大的效果,但是如果我们有很多杂乱的掌声汇聚在一起,就可能形成共鸣,这种共鸣就可能产生一种非常巨大的后果,比如说对建筑造成破坏等等,这就是复杂系统涌现的体现。
    对于人的智能而言,我们的概念就可能产生于涌现,而涌现可能由人对事物的分布式认知而产生的,比如说我们认识马的时候就是由各种各样的概念形成的,各种概念共同作用的时候就能够让我们分辨这个是马而非其他动物,同时这种分布式的概念还具有一定的关联性,正是所有有关联的部分同时进行发射脉冲,从而产生系统的共频,形了一种涌现,这种涌现是新出现的,反映出了各个部分脉冲的某种共性,但又与组成部分的分布式脉冲不同,就像是某个主体各种分布式感知的一个整合,这个整合是所有感知联合起来形成一个整体,这个整体是我们概念产生的一种机制。这是李老师的一个观点,这种观点在今年我们自动化系在Nature上发布的文章,就是利用分布式的刺激模拟人的类脑进行无人的自行车的控制,当时没有明确的工作,其实这个也是验证了李老师在智能系统上的一个思考。
    李老师认为,人的智能本身就是复杂程度极其高、自组织特性非常高的复杂系统,所以我们要研究人工智能还需要回到复杂系统中间去寻找一个思路。李老师提出这样一个观点也是基于李老师本身的研究方向,因为李老师本身是基于信息科学以及控制科学,所以我们可能平时更关注的是复杂系统中间是怎么样进行优化和控制的。
    第二个,李老师认为,智能应当具备自主决策的能力。我们一直期望人工智能能够具有人一样的能力,人最大的能力就是具有意识,从而能够进行自主决策,我们之前做了很多工作,让机器已经初步具备了学习的能力,现在的人工智能系统已经能够基于已有的数据或者已有的知识进行学习,并初步具有决策的能力,但是目前人工智能系统只是对已有的刺激进行学习,这样产生的是被动的条件性的系统,我们脱离与训练时相同的环境或者面临与之相同工具、不同统计规律的数据的时候,这个时候就不能很好的工作了。对于人的智能来说学习能力之上,我们最大的特点之一就是进行不断的进化,我们基于学习的只是在新的场景同样具备决策能力,所以未来的智能生成系统应当具备自主决策能力,从而在环境的不断刺激下,为适应环境的变化开发出自主决策的机制进行自主决策,李老师提到的闭环跟之前钟老师报告中研究成果中讲到的闭环本质上是一致的。
    我要转达的主要就是这些内容。谢谢大家!
   
魏英杰编审:
各位领导专家好!我来自科学出版社,非常荣幸参加今天的会议。在我们日常生活中平时遇到的都是国际最顶尖的专家和学术著作,我明显的感觉这些著作都缺乏战略的高度,算法的优化、模型的展现非常多,缺少大师之作。今天收获很多,钟老师、何老师是从战略高度去思考了方法论和解决的措施,这是非常艰巨的一个问题。刚开始听的时候我的感觉就是,怎么从一个定性的问题找定量,这可能是一个跨越,但是后面听到了一些实践和应用,我觉得非常非常的惊奇,期望将来可以和咱们的专家一同把人工智能往下推动,出版社也在这方面做了很多工作,今年5月份我们在清华大学召开了编委会,邀请了李衍达院士、钟老师、何老师、陆院士等十多位院士、二十多位国内的著名学家,拟计划共同组织出版一套人工智能理论和应用的丛书,目标服务于国家战略规划,促进我们国家原创性的和国家急需要的重大成果的出版,也希望将来可以和各位专家一同促进我们国家人工智能的发展。
    谢谢大家!
   
陈月辉教授:
各位领导,各位专家好!我来自济南大学人工智能研究院,我本身是学控制论的,钟老师是搞信息论的,人工智能目前世界范围非常热,但是真正理论突破在世界上是没有的,但是我想钟老师、汪老师、何老师他们三位老先生提的这个东西绝对是一个原始性的创新。
大家知道,智能很复杂,涉及到我们大脑的方方面面,比如说我们讲神经科学、大脑科学,大脑科学在宏观层面上我们了解的比较多,比如说我们大脑的区域指挥哪一部分的活动,在微观层面上,也了解的相对比较清楚了,从神经元、神经细胞这个角度,但是在中观层面我们不清楚,不清楚的主要原因是因为我们的一些重要的仪器设备还没有。比如说我们在做事、我们在解一个数学问题的时候,大脑是如何活动的,各个神经元是怎么连接的,这个层面没有观察手段,所以这块我们是不清楚的。比如生物科学,生物科学现在是按照西方的做法,就是还原论的方法,不停的把大的东西看的越来越细,我们现在研究的,从分子细胞这个角度研究了很多很多,包括基因测序,这些都有了,来了很多的数据,有了这些数据之后这个生命的机制是怎么产生的,到现在搞不清楚。所以说21世纪两个最大的世界难题,一个大脑的运行机制问题,一个是生命的产生机制问题,这些机制按照西方的那种还原主义的做法我认为是行不通的,所以必须用一个系统科学论的观点、一个整体论的观点来做,而三位老先生做的事情正是走了系统论的方法去做了我们人工智能创新,这个我觉得是非常重要的,所以应该是咱们的科技部也好、基金委也好、中国科协一定要大力支持咱们项目。我们在济南大学成立了一个人工智能研究院,钟院士给了我们很多的指导,我们在山东这个地盘上这套东西能得到山东省政府、济南市政府的支持,包括给房子、给经费我们做到了,另外还需要国家重点推动。这套理论非常好,但是下一步我们把这套理论要具体化,做验证系统,要在各行各业进行推广,这块我们一定要组织人力去做,理论、算法、技术怎么去突破、怎么去创新,这块我们有一个团队,准备下一步大力去推进这个事,有当地政府的支持,我想我们能在这方面做出重要的成绩。
   
董奇校长(李小俚代表)
非常感谢钟老师提供这个学习的机会,汪老师,我硕士生的时候就是做模糊数学的,因为董奇校长刚刚出国学习回来没有时间来,委托我来,但是我们北师大就在我们隔壁,我们脑科学里边有一个重要的的任务要去找智能生成机制是什么,我们找的方法比较传统,用动物试验、用人的试验。因为我也不是特别懂这个东西,我们提两个同意的观点、给两个建议。
    两个同意:
    第一个,我觉得智能的研究还处于试飞的阶段,像莱特兄弟试飞机的阶段,真正的空气动力学理论是不是存在,也是我们在脑科学理论里面描述现象困惑的一点。
    第二个,你提出很重要的观点 -范式,范式对于我们搞信息科学和脑科学非常重要,因为在什么样的认知,范式对我们来说就是认知任务,在什么样的认知任务的条件下大脑是怎么去处理这个信息、怎么样的行为,包括它的注意力,包括它的记忆力,包括它的情绪的应急的反应等等一系列问题,所以我觉得范式的观点还是非常重要的,作为一个系统,如果你没有一个刺激的源头,你很难看到后面的通路,这个也是不能说老是静态的观点。
    两个建议:
    第一个,要研究智能科学的话肯定离不开脑科学的,我们脑科学目前的困惑,我们只能提供一些局部的数据和局部的规律,仅仅是局部的数据我觉得对我们理解智能也是非常重要的支撑点,因为只能是人说的智能,而不是外星人说的智能,还要回到我们人身上来。
    第二个,我们在研究智能的时候,尤其在我们实验室时常会碰到一个现象,就是两组打起来了,一组是研究人脑的,有一组是研究猴脑的,这样就带来一个问题,人脑跟猴脑智能本质上的差异在哪里、有多大的差异,从基因上来讲,从神经元的动力学的个性上来讲,神经网络描述的现象来讲,好像很接近,但是猴脑对于人脑智能的差异性也就不用去争论了,这是没有什么可争论的,所以智能上描述的一个是质和量上的考量,怎么样把质上的东西和量上的东西,我们现在强调更多的是量,但是智能里面有一个最重要的问题没解决掉,就是我们也是脑科学计划里面提出的很重要的观点就是说,像物理学里面讲力,有牛顿的一个量化的标准,光有频率、波长,热有温度,我们智能现在没有一个单位,我们单位是所谓的标准,在这样的范式下猜1000个人统计出来这么一个数据,总是相对的,没有一个绝对的物理量,所以每次报告像精神科大夫看病一样,也会看错,为什么看错,说给他一个行为量表的东西变了,可能就把不是疯的看成疯的,也可能把疯的看成不疯的,它总是在变。我们最终的一个问题就是说,如果我们没有理论的体系做支撑,形成我们一个大家都认可的相对绝对的一个物理量,就是相对一个量的东西去描述这些智能的时候,我们后面就很难走。
    这是我的两个建议。
   
陈志成博士:
我概括讲第几点:
    第一点,大家在座的所有老师都应该知道国务院人工智能发展规划的文件,里面有很多内容,但是第一个大的内容,就是讲人工智能基础理论,基础理论当中也列了七八条,我们下来仔细学习、研究分析列了七八条,到底是些什么内容,人工智能基础理论到底是个什么基础理论,我学习了很长时间、看了很多遍,我们认为它在领域当中,各个领域当中它是基础的,但是是不是人工智能通用的基础理论?这个我们现在不好说。人工智能通用基础理论应该是具备一些特性的,就是说统一性、普适性或者是奠基性的工作,我们讲计算机二进制是我们的基础,数理逻辑是我们计算机里面最基础的,我们人工智能现在有没有从二进制、三进制或者泛逻辑这些角度考虑,我想我们国家战略当中从这方面是要多关注,包括知识表示、数据分析,这点上我们今天钟老师、何老师、汪老师他们这种体系可能是更加符合基础概念的,有一定通用性的特征。
    第二点,智能,能不能生成,什么是智能?他生成的机制、方法和手段,这个问题我们今天是主题思想,刚才韩老师说,钟老师这套思想方法论,我们讲科学观确实有指导意义,我是这么认为的。但是还有一个问题,他不仅仅是光指导,其实这几位老师的东西已经形成了系统、方法,已经提供了相应的平台、工具,比如已经知道怎么生成一套逻辑体系,我们以前讲的概率逻辑、模糊逻辑都是概率性的系统,现在我们可以在不确定问题之下可以自动生成我的公式、自动生成相应的算法和概率,你可以想想,算法可以生成,有生成器的概念,按照机制主义的思想,我们已经开发出来了有一定的至少是有仿真或者有一定领域应用的这套工具,向在座的老师给大家汇报一下,不仅仅是指导意义的改善,已经有方法、工具相应的平台系统已经做出来了,不好说做的多么完善,逐渐还会改进,但是已经有了。这是第二点,确实可以生成,后续进一步完善就可以了。
    第三点,建议,对信息技术这个时代、计算机时代我们的操作系统落后了、我们的芯片落后了,中国曾经在2000年的时候龙芯启动了中国的芯片,也能够1999年、2000年启动做中国国产的操作系统,我那时候有幸参加了国产操作系统的研发,龙芯他们做硬件、我做软件,2004年在人民大会堂我们就开发部会,说中国的国产操作系统,大唐电信做TD—CDMA,3G、4G的通信协议,后来国际电联不通过,几年之后国际电联才把大唐电信的4G标准列入进去,现在回过头来看,人工智能如果说是国家战略,没有把基础理论作为重点可能确实是个问题,但是还好,新一代规划当中列出来了,但是我们怎么去找到真正的这种基础理论,我感觉今天几位老师的研究工作有一些成果,还希望从这方面做一些决策。
    具体下来几点建议:
    第一,我们自身,就是研究团队我也是跟着几位老师学习了,很长时间了,因为1999年我考了何老师的博士,2000年读博士到现在,我学习了很长时间,我自己一方面努力,理论也好,应用也好。
    第二,北邮作为我们人工智能学会的总部基地,有很多的支持,这是我认为的,我还特意适当的加了点力度,有的稍微实际落实一点,比如钟老师退休了,开会我们办公室找不着,天天在咖啡厅,我记得去年7月8日,教育部科技司来的时候,贾院长、王校长亲自在场,跟我说陈志成你支持他们研究,我落地了也确实支持了,但是我记得你们当时承诺的时候说,我找一间房子出来,现在没有落实,北邮这么大个地方,房子紧张可以理解,但是不至于找一个挂牌子的地方都没有,这个话到今天校领导都在,我提个要求出来,有这么一个事情。
    第三,北邮成立了人工智能研究院,我们在这里面是否可以从自己做起,人工智能研究院里面成立一个人工智能基础研究中心,把这个牌子亮出来,清华人工智能研究院成立之后,第一个成立基础研究中心,又成立交互中心,现在成立了好几个了,清华要成立10个人工智能相关的研究中心,这方面可以做。
    第四,科协,科协是不是在人工智能所谓的新的时代也好、新的创新理论也好,看看有什么机制,机构方面做一些支持,也成立一个相应的什么机构,我没有想清楚,因为我不太了解科协的运作机制。
    第五,科技部,科技部下面有个人工智能推进办公室,今年初的时候也成立了,清华老师牵头成立了一个国家治理法律伦理相关的研究中心,我们也是否可以成立一个人工智能基础创新相关的一个中心,从这个层面做一些工作。
    第六,应用方面,人工智能应用我们一块想一些办法,把它做起来,现在已经有一些应用了,我现在推动中商联合集团公司做一些应用,把这套理论变成真正的价值。
   
郭桂蓉院士(张静代表)
各位老师,各位领导,我也简单报告一下我个人的学习体会。今天郭院士出差赶不回来,派我来学习,今天会议的情况包括发的资料,我会及时的向郭院士报告。
我是来自军事科学院系统工程研究院的,因为我们所的名字对外是保密的,所以我不在这里报告了。今天能够有机会来学习我个人感觉特别荣幸,不光是学习了咱们三位老先生的全新的非常系统的学术成果,更加学习的是做科研的态度、情怀和方法。
    时间关系我简单汇报三个方面:
    第一,简单报告一点理解。
    第二,提出一个诉求。
    第三,表达一个心愿。
    第一,一点理解。报告的理解很多,时间关系只报告一点。钟老师讲的,包括何老师讲的,在我个人感受,其实某种意义上也和系统观、系统论思想不谋而合,非常契合,在我们的工作中其实曾经也走过弯路,之前几十年从还原论角度分析军事装备如何服务作战。但慢慢的大家也认识到还原论的思想其实并不适用,甚至于还会带来新的问题,新的问题可能还会造成非常非常大的影响,所以我们也是不断的回归这个体系、整体,包括像您多次讲到涌现、演化的思路。但是我们自己的体会,其实这个推进起来非常非常难,特别是咱们三位老先生,从机理的角度来建立了一整套的机理,建立机理本身就非常难,但是可能真正实施下去、推进下去逐渐产生影响、带来效益,这个会更加难,我也没有这个资格,但是也可以类比一下,钱老当年在咱们国内推广系统工程的时候,其实也是遇到了方方面面各种各样的一系列不尽人意的地方,我想这些可能在我们未来推广咱们的这套智能生成机理一样还会遇到,但是我觉得我们现在会更有信心来共同往前推进。
    第二,提出一个诉求。因为我也看到了一下,今天参会的可能只有我一个人是来自军队的,我就从军方的角度来提一下。因为我们整体来说,也不怕露怯,我们关于机理性的研究、基础性的研究整体还偏弱,我们开展的规律更多的面向应用研究,所以目前我们面临的一个重大的问题就是军事智能生成机理,今天您讲到的是智能生成机理,其实也结合刚才吴处长提到的关于验证工作,我们智能生成机理如何往军事领域去拓展和验证,我个人觉得是可以给咱们提供,既是我们的诉求,也可以提供一个平台。
    我们也是经过系统梳理,认为目前在军事智能本身的特征,可能和人工智能还不太一样,我们有一些特定的特征,有的人是概括车五个方面,我们现在认为是八个方面。比如说:第一个,环境的高复杂性,这是面临作战的背景,其实刚才何老师也有讲到。第二个,博弈的强对抗性,这也是对抗双方的,和我们一些民口的或者一些试验性的是截然不同的。包括时效性等等。第三个,响应的高实时性。第四个,信息的不完整性,包括具体军事活动中大量的欺骗信息。第五个,边界的不确定性。还有三个方面的特征。第六个,监督的不确知性,咱们学习,不管有监督、无监督一定会有参考样本,军事有可能结合长期性、动态性,类似于毛主席之前农村包围城市,包括毛主席最初的一些军事思想,早期大家未必认可,也是有争议,但是他只有推进下去才能形成关于我们智能生成相关的监督的这种效应。第七个,损失的不可估性,军事活动中如果基于智能产生的判断决策,他带来的一些影响可能会极其巨大。第八个,样本的极端小性,我们经常说小样本、小样本,但是军事活动中涉及到的可以说极端小,我们军事活动许多都是不可重演的,说是艺术,但是我理解是一种委婉的说法。
    结合我们军事智能的特征,如何来去研究他的军事智能生成机理,我们也是在推进,但是结合我们自身的能力,我们始终推进的非常非常艰难,所以说提出了一个诉求。
    结合我们所的定位,我们所的定位客观讲不直接研究机理,军事智能生成机理,我们是要对军事智能进行试验验证,就是说现在我们也要发展一些带有军事智能的装备,这些装备投入到战场之后,他的这种高度的可信性、可扩性,是否体现他智能特点的时候不会产生其他的这些风险,这些方面是我们的重点,也就是在基于军事智能生成机理之后我们还要再往前延伸一步,就是要对他进行试验验证,这是我提的一个诉求,希望能够向我们这边多学习、多结合。
    第三,表达一个心愿。刚才包括钟老师、何老师,我作为一个晚辈已经深深的感受到咱们科研情怀、报国情怀,确实是这样,但是从我们的角度,我希望可以和我们深度联合,因为我们军科院现在是杨学军院长,也始终要求我们开展学理性、机理性的研究,这方面确实我们有不足,不光您说的各种事务性被牵着,还有受我们的见识、我们的能力方方面面所限,所以希望在后续可以继续向我们赐教,包括加强我们关于认识论、方法论、因果论等等一系列,提升我们的科研工作和解决问题时效的能力。包括目前我们军科院和我们这个工作直接相关的,就有下属三个院,系统院另外还有创新院、战争院,战争院可能侧重于军事智能如何生成战斗力,不光机理产生智能,如何去打仗,也相当于面向应用。我们创新院面向人工智能的相关机理,我们更多的面向人工智能的试验验证机理,这些工作前提都是咱们的研究成果智能生成机理,所以我个人觉得,我们是有大量可以结合的,我们的科研经费也比较充足,后续看咱们三位老师更希望怎样的方式来进行结合,我会后向咱们来请教。
    最后一点,我们单位目前在西直门北大街,离我们这儿很近,也有这个地利,如果咖啡厅什么,我们这边也还是非常近便,归根结底我们这边的相关资源,不希望三位老先生做起工作来太为难、太不容易,同时也是给我们提供学习锻炼机会。
   
主持人(王国胤教授)
你刚刚说的三位老师没法拿项目,必须涉秘人员才能拿,你们课题都是涉秘的?

郭嗣宗教授
不一定,我们机理性的相关研究可以共同去研讨,涉及到军事案例的时候要回避。
主持人(王国胤):
拿过来以后落到哪个单位、怎么落都复杂,我搞科研管理的我知道。

陈志成博士
谁给钱多就给谁,北邮给的钱多给北邮。
   
张世光研究员:
咱们这个会上老、中、青,老的都有,三位老先生带队,很多中年的科技工作者,我估计我可能是现场所有人年龄最小的,一开始听很多内容感触也比较多,越到最后越兴奋,从陈志成先生逐渐更多的切入到我们今天的研讨,其实技术层面的研讨我觉得我不够资格,因为三位老先生在这个领域我认为已经是顶级的专家了,我觉得更多的一些,其实我想引发的研讨是关于大家提到的一些困难,没经费、没场地、没设备等等一系列的事,场地我先认领一个场地,回头谁的场地要是更好我们可以再探讨,就在钟教授家附近给您找一个场地,相关的环境会是比较便捷、比较不远,这是第一件事。我想我们多能够为三位老先生未来科技成果转化去验证他们的这些想法,我们提供更多的一些支持。讲理论探讨其他的我觉得对我们来说没用,我们更多的探讨探讨怎么样能够帮助三位老师更多的把他们的报国的理想实践,我先把场地认领下来,其他的我们共同探讨,别的我们后面再说。
   
贾庆轩教授(北邮科研院院长)
各位专家,钟先生、何先生、汪先生的报告我也多次聆听,对于三位老先生一直艰苦奋斗40年,在这个方向上来进行研究,坐冷板凳,表示非常大的敬意。三个老先生的研究我们也跟科技部、教育部做过汇报,北邮来说,尽力支持,2017年底我到科研院以后,先从学校的自有资金拿了10万元叫钟先生做研究,这是历史上没有过的,给退休的,但是钟先生不舍得花,钟先生,那10万元还没花完吧?
    上面的资金审查,又有审计,刚刚韩老师说的学术生态圈很重要,下面有年轻的,以他的名义申请,因为有些钱只能给在职的、只能给40岁以下的,这个钱现在财政审计了不得,因为不是说这个钱哪一次来,都有审计,在座的都知道,跟企业不一样,包括建立联合实验室,按学术规定,如果学科不同意这个联合实验室还建立不起来,学科同意,你的学科在哪个学院,就得给找地方,院长签字不是白签的,都有个程序,学校在职的都有一个程序,跟企业还不一样。比如刚才陈总说那个地方的事,我就找计算机学院了,你都签字了,院长要建,我重要,也拿来钱了,为什么不给人家地方。你找院长签过字,我们才叫你建联合实验室,因为是个学校,科研院不管场地,场地都分到学院了,学院来进行调控。
    钟先生,你该申请还得申请,但是只能学校特批开常委会才能给你批少少的钱,如果你有好的学术生态圈,你叫下边团队的,这一次有一个计划来了,学校拿2千万进行支持,很想看到您的团队申请,没有看到,现在一个项目100万,现在我们刚刚发布24个,一个100万,要求40岁以下,因为要用教育部的基本科研费,教育部要求,40岁以上他来审计你,你的钱做的对不对。
    学术生态圈非常重要,特别钟教授,你的团队,好几个呢。从学校的角度,支持是没问题的,但是从王校长也好、我们也好,都认为钟教授研究的非常有意义,几次会议王校长参加,起码钟教授听你五次了,包括新来的建华校长,他当时代表教育部,都非常支持你这个内容,怎么把这个事做的合理,从我们管理部门来说审计拎过去很难看,我们坚决支持。
   
主持人(王国胤教授)
感谢各位老师,大家提了很多建议。我借此机会提两个问题,你在报告,前面两个遵守能量守恒定律,这个怎么增长,这里面有什么守恒的东西,没搞清楚(钟义信回答:不守恒,守恒就麻烦了)。
    另外,刚才几位老师都谈到了,我也有困惑,人的认知,算计,跟我们的计算机系统做的计算,我也一直认为这两个是有很大差异的,这个差异究竟在哪里,我们怎么把它形式化的拿出来,有什么办法把这个进行研究,这是我对这个问题的思考。
    上午钟老师做了主题发言,讲了基本想法,各位老师从不同角度也提了很多建议、问题,基金委也给了很多指导,未来也希望基金委从科协的角度更多的支持,从早上整个讨论真的很热烈,如果不控制时间可能中午就不用吃饭了,一直讨论到晚上,这个问题肯定是一直要做下去,重大科学问题可能这里边,包括我们要攻克这样一个重大科学问题里面还会有很多管理机制、政策其他方面的问题要解决,要不然我们就成了空谈了,不能够实际的把这些重大科学问题攻克,我们接下来把这样一个科学问题的报告做好,我觉得这个重大科学问题不仅仅是我们看到的科学问题,而是钟老师带着整个团队,已经在这样一个科学问题上有了坚实的进展了,我们未来怎么把这样一个科学问题真正引领人工智能的发展不仅仅引领中国,还引领世界。中国人工智能学会,钟老师也是我们第四届、第五届理事长,也是一直带领我们学会在发展成长的,在这样一个重大科学问题的引领下面,未来也会继续引领我们学会事业的发展,在这样一个问题上面学会也给李院士那边报告,钟老师这儿觉得我能够服什么务您就只管分咐。
钟义信教授:
这个会时间比较有限,所以报告就很简练。刚刚大家提到“什么是智能”,我的第一稿原来就是讲概念,讲“什么是智能”、什么是“人工智能”。后来看到给我的时间短,就删掉了。将来如果学会组织比较宽松的学术交流会,就可以比较细致的、系统的、深入的互相交换、互相交流。我对学会寄予厚望。

主持人(王国胤教授):
    今天上午会议就到这里。谢谢大家!
——完——


编辑:陈茗

260#
 楼主| 发表于 2019-10-11 23:07:49 | 只看该作者
【案例】
人体姿态估计的过去、现在和未来
前言
因为在ICIP2019上面和两位老师搞了一个关于人体姿态估计以及动作行为的tutorial,所以最近整理了蛮多人体姿态估计方面的文章,做了一个总结和梳理,希望能抛砖引玉。
问题
人体姿态估计是计算机视觉中一个很基础的问题。从名字的角度来看,可以理解为对“人体”的姿态(关键点,比如头,左手,右脚等)的位置估计。一般我们可以这个问题再具体细分成4个任务:
单人姿态估计 (Single-Person Skeleton Estimation)
多人姿态估计 (Multi-person Pose Estimation)
人体姿态跟踪Video Pose Tracking)
3D人体姿态估计 3D SkeletonEstimation)
具体讲一下每个任务的基础。首先是单人姿态估计, 输入是一个crop出来的行人,然后在行人区域位置内找出需要的关键点,比如头部,左手,右膝等。常见的数据集有MPII, LSP, FLIC, LIP
其中MPII2014年引进的,目前可以认为是单人姿态估计中最常用的benchmark使用的是PCKh的指标(可以认为预测的关键点与GT标注的关键点经过head size normalize后的距离)。但是经过这几年的算法提升,整体结果目前已经非常高了(最高的已经有93.9%了)。下面是单人姿态估计的结果图(图片来源于CPMpaper)
单人姿态估计算法往往会被用来做多人姿态估计。多人姿态估计的输入是一张整图,可能包含多个行人,目的是需要把图片中所有行人的关键点都能正确的做出估计。针对这个问题,一般有两种做法,分别是top-down以及bottom-up的方法。对于top-down的方法,往往先找到图片中所有行人,然后对每个行人做姿态估计,寻找每个人的关键点。单人姿态估计往往可以被直接用于这个场景。对于bottom-up,思路正好相反,先是找图片中所有parts (关键点),比如所有头部,左手,膝盖等。然后把这些parts(关键点)组装成一个个行人。
对于测试集来讲,主要有COCO, 最近有新出一个数据集CrowdPose。下面是CPN算法在COCO上面的结果:
一个行人,进行人体以及每个关键点的跟踪。这个问题本身其实难度是很大的。相比行人跟踪来讲,人体关键点在视频中的temporal motion可能比较大,比如一个行走的行人,手跟脚会不停的摆动,所以跟踪难度会比跟踪人体框大。目前主要有的数据集是PoseTrack
同时,如果把人体姿态往3D方面进行扩展,输入RGB图像,输出3D的人体关键点的话,就是3D 人体姿态估计。这个有一个经典的数据集Human3.6M。最近,除了输出3D的关键点外,有一些工作开始研究3Dshape,比如数据集DensePose。长线来讲,这个是非常有价值的研究方向。3D人体姿态估计的结果图(来自算法a simple baseline)如下:
过去
这部分主要用于描述在深度学习之前,我们是如何处理人体姿态估计这个问题。从算法角度来讲,这部分的工作主要是希望解决单人的人体姿态估计问题,也有部分工作已经开始尝试做3D的人体姿态估计。可以粗略的方法分成两类。
第一类是直接通过一个全局feature,把姿态估计问题当成分类或者回归问题直接求解 [1][2]。但是这类方法的问题在于精度一般,并且可能比较适用于背景干净的场景。第二类是基于一个graphical model,比如常用pictorial structure model。一般包含unary term,是指对单个part进行featurerepresentation,单个part的位置往往可以使用DPM(Deformable Part-based model)来获得。同时需要考虑pair-wise关系来优化关键点之间的关联。基于Pictorial Structure,后续有非常多的改进,要么在于如何提取更好的feature representation [3][4] 要么在于建模更好的空间位置关系[5][6]
总结一下,在传统方法里面,需要关注的两个维度是: feature representation以及关键点的空间位置关系。特征维度来讲,传统方法一般使用的HOG, Shape Context, SIFTshallow feature 空间位置关系的表示也有很多形式,上面的Pictorialstructure model可能只是一种。
这两个维度在深度学习时代也是非常至关重要的,只是深度学习往往会把特征提取,分类,以及空间位置的建模都在一个网络中直接建模,所以不需要独立的进行拆解,这样更方便设计和优化。
现在
2012AlexNet开始,深度学习开始快速发展,从最早的图片分类问题,到后来的检测,分割问题。在2014年,[7]第一次成功引入了CNN来解决单人姿态估计的问题。因为当时的时代背景,整体网络结构比较简单,同时也沿用了传统骨架的思路。首先是通过slide-window的方式,来对每个patch进行分类,找到相应的人体关键点。
因为直接sliding-window少了很多context信息,所以会有很多FP的出现。所以在pipeline上面加上了一个post-processing的步骤,主要是希望能抑制部分FP,具体实现方式是类似一个空间位置的模型。所以从这个工作来看,有一定的传统姿态估计方法的惯性,改进的地方是把原来的传统的feature representation改成了深度学习的网络,同时把空间位置关系当成是后处理来做处理。总体性能在当时已经差不多跑过了传统的姿态估计方法。
2014年的另外一个重要的进展是引入了MPII的数据集。此前的大部分paper都是基于FLIC以及LSP来做评估的,但是在深度学习时代,数据量还是相对偏少(K级别)。MPII把数据量级提升到W级别,同时因为数据是互联网采集,同时是针对activity来做筛选的,所以无论从难度还是多样性角度来讲,都比原来的数据集有比较好的提升。
一直到2016年,随着深度学习的爆发,单人姿态估计的问题也引来了黄金时间。这里需要重点讲一下两个工作,一个工作是Convolutional Pose Machine (CPM[8],另外一个是Hourglass[9]
CPM
CPMCMU Yaser Sheikh组的工作,后续非常有名的openpose也是他们的工作。从CPM开始,神经网络已经可以e2e的把featurerepresentation以及关键点的空间位置关系建模进去(隐式的建模),输入一个图片的patch输出带spatial信息的tensorchannel的个数一般就是人体关键点的个数(或者是关键点个数加1)。空间大小往往是原图的等比例缩放图。通过在输出的heatmap上面按channel找最大的响应位置(x,y坐标),就可以找到相应关键点的位置。
这种heatmap的方式被广泛使用在人体骨架的问题里面。这个跟人脸landmark有明显的差异,一般人脸landmark会直接使用回归(fully connected layer for regression)landmark的坐标位置。这边我做一些解释。首先人脸landmark的问题往往相对比较简单,对速度很敏感,所以直接回归相比heatmap来讲速度会更快,另外直接回归往往可以得到sub-pixel的精度,但是heatmap的坐标进度取决于在spatial图片上面的argmax操作,所以精度往往是pixel级别(同时会受下采样的影响)。但是heatmap的好处在于空间位置信息的保存,这个非常重要。
一方面,这个可以保留multi-modal的信息,比如没有很好的context信息的情况下,是很难区分左右手的,所以图片中左右手同时都可能有比较好的响应,这种heatmap的形式便于后续的cascade的进行refinement优化。另外一个方面,人体姿态估计这个问题本身的自由度很大,直接regression的方式对自由度小的问题比如人脸landmark是比较适合的,但是对于自由度大的姿态估计问题整体的建模能力会比较弱。相反,heatmap是比较中间状态的表示,所以信息的保存会更丰富。
后续2D的人体姿态估计方法几乎都是围绕heatmap这种形式来做的(3D姿态估计将会是另外一条路),通过使用神经网络来获得更好的feature representation,同时把关键点的空间位置关系隐式的encodeheatmap中,进行学习。大部分的方法区别在于网络设计的细节。先从CPM开始说起。
整个网络会有多个stage,每个stage设计一个小型网络,用于提取feature,然后在每个stage结束的时候,加上一个监督信号。中间层的信息可以给后续层提供context,后续stage可以认为是基于前面的stagerefinement。这个工作在MPII上面的结果可以达到88.5,在当时是非常好的结果。
Hourglass
2016年的7月份,PrincetonDeng Jia组放出了另外一个非常棒的人体姿态估计工作,Hourglass。后续Deng Jia那边基于Hourglass的想法做了Associate Embedding,以及后续的CornerNet都是非常好的工作。
Hourglass相比CPM的最大改进是网络结构更简单,更优美。
从上图可以看出,网络是重复的堆叠一个u-shapestructure.
pipeline上面跟CPM很类似。只是结构做了修改。从MPII上的结果来看,也有明显的提升,可以达到90.9PCKh
这种u-shape的结构其实被广泛应用于现代化的物体检测,分割等算法中,同时结果上面来讲也是有非常好的提升的。另外,Hourglass这种堆多个module的结构,后续也有一些工作follow用在其他任务上面。
但是Hourglass也是存在一些问题的,具体可以看后续讲解的MSPN网络。
CPM以及Hourglass之后,也有很多不错的工作持续在优化单人姿态估计算法,比如[10][11]
2016年的下半年还出现了一个非常重要的数据集:COCO。这个时间点也是非常好的时间点。一方面,MPII已经出现两年,同时有很多非常好的工作,比如CPM Hourglass已经把结果推到90+,数据集已经开始呈现出一定的饱和状态。另外一方面,物体检测/行人检测方面,算法提升也特别明显,有了很多很好的工作出现,比如Faster R-CNNSSD。所以COCO的团队在COCO的数据集上面引入了多人姿态估计的标注,并且加入到了2016COCO比赛中,当成是一个track。从此,多人姿态估计成为学术界比较active的研究topic。正如前面我在“问题”的部分描述的,多人姿态估计会分成top-down以及bottom-up两种模式。我们这边会先以bottom-up方法开始描述。
OpenPose
2016COCO比赛中,当时的第一名就是OpenPose [12]CMU团队基于CPM为组件,先找到图片中的每个joint的位置,然后提出Part Affinity Field PAF)来做人体的组装。
PAF的基本原理是在两个相邻关键点之间,建立一个有向场,比如左手腕,左手肘。我们把CPM找到的所有的左手腕以及左手肘拿出来建立一个二分图,边权就是基于PAF的场来计算的。然后进行匹配,匹配成功就认为是同一个人的关节。依次类别,对所有相邻点做此匹配操作,最后就得到每个人的所有关键点。
在当时来讲,这个工作效果是非常惊艳的,特别是视频的结果图,具体可以参考OpenposeGithub官网。在COCObenchmark test-dev上面的AP结果大概是61.8
Hourglass + Associative Embedding
2016年比赛的榜单上面,还有另外一个很重要的工作就是Deng Jia组的Associative Embedding[13]。文章类似Openpose思路,使用bottom-up的方法,寻找part使用了Hourglass的方式来做。关键在于行人的组装上面,提出了Associative Embedding的想法。大概想法是希望对每个关键点输出一个embedding,使得同一个人的embedding尽可能相近,不同人的embedding尽可能不一样。
COCO2016比赛后,这个工作持续的在提升,文章发表的时候,COCO test-dev上面的结果在65.5
除了Openpose以及Associative Embedding之外,bottom-up还有一个工作非常不错,DeepCut[14]以及DeeperCut[15],他们使用优化问题来直接优化求解人的组合关系。
CPN
后面一部分章节我会重点围绕COCO数据集,特别是COCO每年的比赛来描述多人姿态估计的进展。虽然2016bottom-up是一个丰富时间点,但是从2017年开始,越来的工作开始围绕top-down展开,一个直接的原因是top-down的效果往往更有潜力。top-down相比bottom-up效果好的原因可以认为有两点。首先是人的recall往往更好。因为top-down是先做人体检测,人体往往会比part更大,所以从检测角度来讲会更简单,相应找到的recall也会更高。
其次是关键点的定位精度会更准,这部分原因是基于crop的框,对空间信息有一定的align,同时因为在做single person estimation的时候,可以获得一些中间层的context信息,对于点的定位是很有帮助的。当然,top-down往往会被认为速度比bottom-up会更慢,所以在很多要求实时速度,特别是手机端上的很多算法都是基于openpose来做修改的。不过这个也要例外,我们自己也有做手机端上的多人姿态估计,但是我们是基于top-down来做的,主要原因是我们的人体检测器可以做的非常快。
说完了背景后,在COCO2017年的比赛中,我们的CPN[16]一开始就决定围绕top-down的算法进行尝试。我们当时的想法是一个coarse-to-fine的逻辑,先用一个网络出一个coarse的结果(GlobalNet),然后再coarse的结果上面做refinement (RefineNet)。具体结果如下:
为了处理处理难的样本,我们在loss上面做了一定的处理,最后的L2 loss我们希望针对难的关键点进行监督,而不是针对所有关键点uniform的进行监督,所以我们提出了一个Hard keypoint miningloss。这个工作最后在COCO test-dev达到了72.1的结果(不使用额外数据以及ensemble),获得了2017年的COCO骨架比赛的第一名。
这个工作的另外一个贡献是比较完备的ablation。我们给出了很多因素的影响。比如top-down的第一步是检测,我们分析了检测性能对最后结果的影响。物体检测结果从30+提升到40+(mmAP)的时候,人体姿态估计能有一定的涨点(1个点左右),但是从40+提升到50+左右,涨点就非常微弱了(0.1-0.2)。
另外,我们对data augmentation,网络的具体结构设计都给出了比较完整的实验结果。另外,我们开始引入了传统的ImageNet basemodel (ResNet50)做了backbone,而不是像Openpose或者Hourglass这种非主流的模型设计结构,所以效果上面也有很好的提升。
MSPN
2018年的COCO比赛中,我们继续沿用top-down的思路。当时我们基于CPN做了一些修改,比如把backbone不停的扩大,发现效果提升很不明显。我们做了一些猜测,原来CPN的两个stage可能并没有把context信息利用好,单个stage的模型能力可能已经比较饱和了,增加更多stage来做refinement可能是一个解决当前问题,提升人体姿态估计算法uppper-bound的途径。所以我们在CPNglobalNet基础上面,做了多个stage的堆叠,类似于Hourglass的结构。
相比Hourglass结构,我们提出的MSPN[17]做了如下三个方面的改进。首先是Hourglass的每个stage的网络,使用固定的256 channel,即使中间有下采样,这种结构对信息的提取并不是很有益。所以我们使用了类似ResNet-50这种标准的ImageNet backbone做为每个stage的网络。
另外,在两个相邻stage上面,我们也加入了一个连接用于更好的信息传递。最后,我们对于每个stage的中间层监督信号做了不同的处理,前面层的监督信号更侧重分类,找到coarse的位置,后面更侧重精确的定位。从最后效果上面来看,我们在COCO test-dev上面一举跑到了76.1 (单模型不加额外数据)。
HRNet
之前我们讲的很多人体姿态估计方面的工作,都在围绕context来做工作,如何更好的encode和使用这些context是大家工作的重点。到了2019年, MSRA wang jingdong组出了一个很好的工作,提出了spatial resolution的重要性。在这篇工作之前,我们往往会暴力的放大图片来保留更多信息,同时给出更精准的关键点定位,比如从256x192拉大到384x288。这样对效果提升还是很明显的,但是对于计算量的增加也是非常大的。HRNet从另外一个角度,抛出了一个新的可能性:
相比传统的下采样的网络结构,这里提出了一种新的结构。分成多个层级,但是始终保留着最精细的spaital那一层的信息,通过fuse下采样然后做上采样的层,来获得更多的context以及语义层面的信息(比如更大的感受野)。从结果上面来看,在COCO test-dev上面单模型可以达到75.5
到此为止,我们重点讲述了几个多人姿态估计的算法,当然中间穿插了不少我们自己的私货。在多人姿态估计领域还有很多其他很好的工作,因为篇幅问题,这里我们就略过了。
回到2017年,MPI提出了一个新的数据集, PoseTrack,主要是希望能帮忙解决视频中的人体姿态估计的问题,并且在每年的ICCV或者ECCV上面做challenge比赛。PoseTrack的数据集主要还是来源于MPII的数据集,标注风格也很相近。围绕PoseTrack这个任务,我们重点讲一个工作, Simple Baselines
Simple Baselines
Simple Baselines [19]xiao binMSRA的工作。提出了一种非常简洁的结构可以用于多人姿态估计以及人体姿态估计的跟踪问题。这里重点讲一下对于PoseTrack的处理方法:
这里有两个细节,首先是会利用上一帧的检测结果,merge到新的一帧,避免检测miss的问题。另外,在两帧间,会使用OKS based相似度来做人体的关联,而不是只是简单的使用框的overlap,这样可以更好的利用每个关键点的temporal smooth的性质。从结果上面来看,这个方法也获得了PoseTrack2018比赛的第一名。
到目前位置,我们描述了单人的姿态估计,多人的姿态估计,以及简单讲了一下视频中的人体姿态跟踪的问题。最后,我们讲一下3D人体姿态估计的问题,这个我觉得这个是目前非常active的研究方向,也是未来的重要的方向。
3D Skeleton
3D人体姿态估计目前我们先限制在RGB输入数据的情况下,不考虑输入数据本身是RGBD的情况。我们大概可以把这个问题分成两个子问题:第一个是出人体的3D关键点。相比之前的2D关键点,这里需要给出每个点的3D位置。另外一种是3D shape,可以给出人体的3D surface,可以认为是更denseskeleton信息(比如Densepose, SMPL模型)
先从3D关键点说起。主要的方法可以分成两类,第一类是割裂的考虑。把3D skeleton问题拆解成2D人体姿态估计,以及从2D关键点预测3D关键点两个步骤。另外一类是joint2D以及3D的姿态估计。
大部分的基于深度学习的3D人体骨架工作是从2017年开始的,主要的上下文是因为2D人体姿态估计中CPM以及Hourglass给出了很好的效果,使得3D Skeleton成为可能。
我们先从3D2D skeleton割裂的算法开始说起。首先从2017deva Ramanan组的一个非常有意思的工作【20】开始说起,3D Human Pose Estimation = 2D Pose Estimation + Matching。从名字可以看出,大致的做法。首先是做2D的人体姿态估计,然后基于Nearest neighbor最近邻的match来从training data中找最像的姿态。
2D的姿态估计算法是基于CPM来做的。3Dmatch方法是先把trainingdata中的人体3d骨架投射到2D空间,然后把test sample2d骨架跟这些training data进行对比,最后使用最相近的2d骨架对应的3D骨架当成最后test sample3D骨架。当training数据量非常多的时候,这种方法可能可以保证比较好的精度,但是在大部分时候,这种匹配方法的精度较粗,而且误差很大。
随后,也在17年,另外一个非常有意思的工作【21】发表在ICCV2017。同样,从这个工作的名字可以看出,这个工作提出了一个比较simplebaseline,但是效果还是非常明显。方法上面来讲,就是先做一个2d skeleton的姿态估计,方法是基于Hourglass的,文章中的解释是较好的效果以及不错的速度。基于获得的2d骨架位置,后续接入两个fully connected的操作,直接回归3D坐标点。这个做法非常粗暴直接,但是效果还是非常明显的。在回归之前,需要对坐标系统做一些操作。
同样,从2017年的ICCV开始,已经有工作【22】开始把2D以及3d skeleton的估计问题joint一起来做优化。这样的好处其实是非常明显的。因为很多2d数据对于3d来讲是有帮助的,同时3D姿态对于2d位置点估计也能提供额外的信息辅助。2DMPII COCO数据可以让算法获得比较强的前背景点分割能力,然后3D的姿态估计数据集只需要关注前景的3D骨架估计。这也是目前学术界数据集的现状。从实际效果上面来讲,joint training的方法效果确实也比割裂的train 2d以及3d skeleton效果要好。
2018年开始,3D skeleton开始往3d shape发展。原先只需要知道joint点的3D坐标位置,但是很多应用,比如人体交互,美体,可能需要更dense的人体姿态估计。这时候就有了一个比较有意思的工作densePose 23】。这个工作既提出来一个新的问题,也包含新的benchmark以及baseline。相比传统的SMPL模型,这个工作提出了使用UV map来做估计(同时间也有denseBody类似的工作),可以获得非常dense3d姿态位置,等价于生成了3d shape。当然,从3d shape的角度来讲,有很多非常不错的工作,这里就不做重点展开。
最后讲一下3d人体姿态估计目前存在的问题。我个人认为主要是benchmark。目前最常使用的human 3.6M实际上很容易被overfit,因为subjects数量太小(实际训练样本只有56人,depend on具体的测试方法,测试样本更少)。同时,是在受限的实验室场景录制,跟真实场景差异太大,背景很干净,同时前景的动作pose也比较固定。当然,3d skeleton的数据集的难度非常大,特别是需要采集unconstrained条件下面的数据。目前也有一些工作在尝试用生成的数据来提升结果。
应用
最后,讲了这么多的人体姿态估计,我们最后说一下人体姿态估计有什么用,这里的人体姿态估计是一个广义的人体姿态估计,包含2D/3D等。
首先的一个应用是人体的动作行为估计,要理解行人,人体的姿态估计其实是一个非常重要的中间层信息。目前有蛮多基于人体姿态估计直接做action recogntion的工作,比如把关键点当成graph的节点,然后是使用graph convolution network来整合各种信息做动作分类。我博士的研究课题是action recognition,我读完四年博士的一个总结是action这个问题,如果需要真正做到落地,人体姿态估计算法是必不可少的组成部分。
第二类应用是偏娱乐类的,比如人体交互,美体等。比如可以通过3d姿态估计来虚拟出一个动画人物来做交互,使用真实人体来控制虚拟人物。另外比如前一段时间比较火热的瘦腰,美腿等操作背后都可能依赖于人体姿态估计算法。
第三类应用是可以做为其他算法的辅助环节,比如Person ReID可以基于人体姿态估计来做alignment,姿态估计可以用来辅助行人检测,杀掉检测的FP之类的。
未来
深度学习带来了学术界以及工业界的飞速发展,极大的提升了目前算法的结果,也使得我们开始关注并尝试解决一些更有挑战性的问题。
下面的几点我是侧重于把人体姿态估计真正落地到产品中而展开的。当然也可以换个维度考虑更长线的研究发展,这个可能希望以后有机会再一起讨论。
Data Generation
我觉得这个是一个非常重要的研究方向,不管是对2d还是3d。以2d为例,虽然目前数据量已经非常的大,比如COCO数据,大概有6w+的图片数据。但是大部分pose都是正常pose,比如站立,走路等。对于一些特殊pose,比如摔倒,翻越等并没有多少数据。或者可以这么理解,这些数据的收集成本很高。如果我们可以通过生成数据的方法来无限制的生成出各种各样的数据的话,这个对于算法的提升是非常的关键。虽然目前GAN之类的数据生成质量并不高,但是对于人体姿态估计这个问题来讲其实已经够了,因为我们不需要清晰真实的细节,更多的是需要多样性的前景(不同着装的人)和pose。但是数据生成的方式对于人体姿态估计本身也有一个非常大的挑战,这个可以留做作业,感兴趣的同学可以在留言区回复。
Crowd的问题
这个问题其实是行人检测的问题。目前市面上没有能针对拥挤场景很work的行人检测算法。这个问题的主要瓶颈在于行人检测的一个后处理步骤:NMS Non-maximum suppression)。这个其实是从传统物体检测方法时代就有的问题。因为目前大部分算法不能区分一个行人的两个框还是两个不同行人的两个框,所以使用NMS来基于IOU用高分框抑制低分框。这个问题在传统的DPM以及ACF时代问题并不突出,因为当时算法精度远没有达到需要考虑NMS的问题。但是随着技术的进步,目前NMS已经是一个越来越明显的瓶颈,或者说也是行人检测真正落地的一个很重要的障碍。
最近我们提出了一个新的数据集CrowdHuman,希望引起大家对于遮挡拥挤问题的关注。从算法上面来讲,最近也陆续开始由蛮多不错的工作在往这个方向努力,但是离解决问题还是有一定的距离。回到人体姿态估计这个问题,目前top-down方法依赖于检测,所以这个问题避免不了。bottom-up可能可以绕开,但是从assemble行人的角度,拥挤场景这个问题也非常有挑战。
Multi-task Learning
刚刚我们讲到,2D以及3D人体姿态估计可以联合training,从而提升整体结果。同样,其实可以把人体姿态估计跟人体相关的其他任务一起联合做数据的标注以及训练。这里可以考虑的包括人体分割(human segmentation),人体部位的parse (human parse)等。可以这么理解,human seg本身的标注可以认为是多边形的标注,我们可以在多边形轮廓上面进行采点,这几个任务可以很自然的联合起来。
人体多任务的联合训练我觉得对于充分理解行人是非常有意义的,同时也可以提升各个任务本身的精度。当然潜在的问题是数据标注的成本会增加。另外可以考虑的是跨数据集的联合training,比如某个数据集只有skeleton标注,有个数据集只有seg标注等,这个问题其实也是工业界中很常见的一个问题。
Speed
速度永远是产品落地中需要重点考虑的问题。目前大部分学术paper可能都是在GPU做到差不多实时的水平,但是很多应用场景需要在端上,比如手机的ARM上面进行实时高效的处理。我们之前有尝试过使用我们自己的ThunderNet [24]做人体检测,然后拼上一个简化版的CPN来做人体姿态估计,可以做到端上近似实时的速度,但是效果跟GPU上面还是有一定差距。所以速度的优化是非常有价值的。
UnConstrained 3D skeleton Benchmark
这个我上面也有提到,3D人体姿态估计急需一个更大更有挑战的benchmark来持续推动这个领域的进步。随着很多3d sensor的普及,我理解我们不一定需要依赖传统的多摄像头的setting来做采集,这个使得我们能获得更真实,更wild的数据。
后记
这里只是从我个人的角度列了一些人体姿态估计的重要工作,当然其中可能miss了很多细节,很多重要的文献,但是我希望这个是一个引子,吸引更多的同学来一起投入这个方向,一起来推动这个领域的落地。因为我时刻相信人体姿态估计的进步,将会是我们真正从视觉角度理解行人的非常关键的一步。
最后,希望借此也感谢一下我们R4D中做人体姿态估计的同学,感谢志成、逸伦、文博、斌一、琦翔、禹明、天孜、瑞豪、正雄等等,虽然可能有些同学已经奔赴各地,但是非常感谢各位的付出也怀念和大家一起战斗的时光。
Reference
[1] Randomized Trees for Human PoseDetection, Rogez etc, CVPR 2018
[2] Local probabilistic regression foractivity-independent human pose inference, Urtasun etc, ICCV 2009
[3] Strong Appearance and ExpressiveSpatial Models for Human Pose Estimation, Pishchulin etc, ICCV 2013
[4] Pictorial Structures Revisited: PeopleDetection and Articulated Pose Estimation, Andriluka etc, CVPR 2009
[5] Latent Structured Models for Human PoseEstimation, Ionescu etc, ICCV 2011
[6] Poselet Conditioned PictorialStructures, Pishchulin etc, CVPR 2013
[7] Learning Human Pose Estimation Featureswith Convolutional Networks, Jain etc, ICLR 2014
[8] Convolutional Pose Machines, Wei etc,CVPR 2016
[9] Stacked Hourglass Networks for HumanPose Estimation, Newell etc, ECCV 2016
[10] Multi-Context Attention for Human PoseEstimation, Chu etc, CVPR 2017
[11] Deeply Learned Compositional Modelsfor Human Pose Estimation, ECCV 2018
[12] Realtime Multi-Person 2D PoseEstimation using Part Affinity Fields, Cao etc, CVPR 2017
[13] Associative Embedding: End-to-EndLearning for Joint Detection and Grouping, Newell etc, NIPS 2017
[14] DeepCut: Joint Subset Partition andLabeling for Multi Person Pose Estimation, Pishchulin etc, CVPR 2016
[15] DeeperCut: A Deeper, Stronger, andFaster Multi-Person Pose Estimation Model, Insafutdinov, ECCV 2016
[16] Cascaded Pyramid Network forMulti-Person Pose Estimation, Chen etc, CVPR 2017
[17] Rethinking on Multi-Stage Networks forHuman Pose Estimation, Li etc, Arxiv 2018
[18] Deep High-Resolution RepresentationLearning for Human Pose Estimation, Sun etc, CVPR 2019
[19] Simple Baselines for Human PoseEstimation and Tracking, Xiao etc, ECCV 2018
[20] 3D Human Pose Estimation = 2D PoseEstimation + Matching, Chen etc, CVPR 2017
[21] A simple yet effective baseline for 3dhuman pose estimation, Martinez, ICCV 2017
[22] Compositional Human Pose Regression,Sun etc, ICCV 2017
[23] Densepose: Dense Human Pose Estimationin the Wild, Guler etc, CVPR 2018
[24] ThunderNet: Toward Real-time GenericObject Detection, Qin etc, ICCV 2019
原文链接:
编辑:陈茗

发表回复

您需要登录后才可以回帖 登录 | 实名注册

本版积分规则

掌上论坛|小黑屋|传媒教育网 ( 蜀ICP备16019560号-1

Copyright 2013 小马版权所有 All Rights Reserved.

Powered by Discuz! X3.2

© 2016-2022 Comsenz Inc.

快速回复 返回顶部 返回列表