导读:李德毅院士通过介绍作诗、语言翻译、语音识别、保险、人脸识别,深入浅出地阐述了大数据认知的方法学。大数据标志数据密集型科学的新时代的到来,大数据时代是小模型、小定律、交叉学科的时代。大数据认知的突破口在于聚类。提倡利用云加端的形态和深度学习,研究制造神似形不似的云机器人。介绍了驾驶服务云机器人、语言机器人,提倡研发机器驾驶脑,展示了无人驾驶客车的研究成果,介绍了团队正在进行的智能车的六类试验与评估,倡导研究者做实践中的研究,少做研究中的实践。
2015年8月14日,由中国科协、中国科学院指导,中国人工智能学会发起主办的第五届中国智能产业高峰论坛在上海长荣桂冠酒店顺利召开。
中国工程院院士、中国人工智能学会理事长李德毅在论坛上发表《大数据认知》报告,以下为报告全文:
认知科学跟人工智能是什么关系?我们争取在这个问题得到一些认识。
1大数据认知的方法学
人工智能最重要的就是知识表示,或者叫知识认知的形式化。我们有一个教授做了一个很有意思的工作,把李白的一生所写的1010首诗碎片化,把他所有诗句进行“机械切割”,把这些切割后的字串构成数据集,变成了小数据。我们用毛泽东生日18931226 作索引,所作的诗是:秀玉竟不还,西湖哀苦寒。凤楼留不住,夜郎醉不眠。 通过这个例子告诉大家,数字是不同于物质和能量之外的人类的资产,数据就是新时代的石油。
我在十几年前曾经带过一个研究生,做过一个有关“野蛮翻译”的硕士论文。大数据的认知方法告诉我们,要重新思考是先有语言学还是先有语言,翻译问题如何形式化?
谷歌的成功主要是大数据下的搜索引擎和排序算法,充分利用了群体智能的数据,各种语言之间的转换服务,每天超过10亿次,使用人数每月超过5亿人,谷歌眼镜可用7种语言对图表或菜单进行即刻的逼真翻译。为什么可以做到这样?是由于对话模式由32种语言的翻译机器人来回沟通,大数据造就了高度准确的自动实时翻译和自学习。这一点是值得我们人工智能学者深思的。
我们一直喜欢用DNA检测,将来人脸识别和说话人识别联合使用,实现金融支付,可望很快成为常态!我们用科大讯飞的语音解说中国人工智能大会,让已经退休的李瑞英女士为我们做广播。
这就是大数据的力量。
所以从大数据的成功运用反思日本五代机的失败,值得我们思考。今年 IEEE国际数据工程大会(ICDE)的最大亮点是将10年最佳论文授予2014年图灵奖获得者Michael Stonebraker的论文“One size fits all”。该论文回答了大数据时代的一个基本问题:“是继续构建通用数据库系统,还是构建特定负载面向特定目标的系统?”作者支持后者,所以我们一定要把大数据的资产用好。我们要不但享受互联网带来的方便,还要包含区别于物质的数据资源的价值发现和价值转换,这里面人工智能起着很大的作用。
大数据已经成为网络时代人类社会的重要资产,今天,移动互联网支撑的手机可以低价或者免费,如小米手机;明天,物联网支撑的空调机、电视机是否可以低价或者免费?后天,家装、家居、汽车、家庭服务机器人等是否可以低价或者出租或者免费?
手机、电视机、汽车和聊天机器人等作为传感器,为互联网商提供源源不断的大数据资产。大数据本身,既不是科学也不是技术,是网络时代的一种客观存在,各行各业的大数据,规模从TB到PB到EB到ZB,以3个数量级的阶梯迅速增长,是用传统工具难以认知的、具有更大挑战的数据!
聚类是大数据使用的一个突破口。我觉得我们要研究大数据的聚类。
人类走过了几千年的实验科学、几百年的理论科学、几十年的计算科学之后,迎来了数据密集型科学的新时代。对于老一辈科学家来说,大数据的挑战对于科学的震撼是地动山摇的。
我们是个产业会,智能产业论坛。我们讲一个保险公司在大数据面前,应该怎样改变它的运行方式?保险,尤其是车险,传统的是分为ABCD类:A类连续两年没有出车祸的、B类最近一年没有出车祸的、C类过去一年出了一次车祸的、D类过去一年出了两次及以上车祸的;如果经常出车祸,保险费就会高一些。但是随着汽车成为双驾双控轮式机器人、成为大数据发生器以后,每一次驾驶,每一次维修,每一次行程,甚至每一次刹车,都记录在案,利用大数据聚类,保险公司可对一个车况好、驾驶习惯好、常走线路事故率低、不勤开车的特定客户,给于更大优惠,而对风险太高的客户报高价甚至拒绝,总之,能够给出包括保险费支付方式在内的个性化解决方案,这就颠覆了保险公司的传统商业模式!大数据聚类成为保险公司的核心竞争力,精细化的为个性化服务。
刷脸是人的身份识别的一个方法。奥巴马这张脸从几何结构上分成1到10个距离特征值,这样的方式做起来太繁琐。结构化人脸大数据聚类的局限性,本质上仅仅是几何结构的聚类而忽略了聚类的不确定性、多样性、过程中简单的群体交互性、聚类样本的可获得性、聚类结果的评价标准(群体认知的共性),尤其是表情、年龄、肤色、基因、性别、姻缘等太多因素。所以,智能产业界的朋友们,如果能够从一张全家福里面找到儿媳妇或者女婿来,我觉得这个产业就能赚钱。
如果说几千年、几百年、几十年的科学主要靠天才归纳而成,并取得共识,学科重点在解释,形成逻辑推论,即公理系统的定理和推论,可以认为是“大定律、大模型、小数据”的时代,数据围绕模型和程序转。所以我说:这个改变是地动山摇的。
公理、模型、程序要围绕数据传,形成数据定义的系统。
所谓“创新”,在大数据时代就是要靠数据说话,要更多的依赖大数据,这些数据常常是交叉的,因此体现在交叉理论框架下建立的。如果说物理学和化学是传统科学,也许我们可以研究物理化学,那里更有可创新的地方。要学会理解程序和模型怎么围绕数据转,要研究基于统计的可变视角和可变尺度。
2云机器人认知
今天透露一个我个人的学术观点,我们现在研究的重点,我想大家可以研究一下“云机器人”。机器人与人,可以形似神不似,也可能神似形不似,当前应该更多研发的不是人型机器人,而是神似形不似的云机器人。
云机器人依托云计算优势,重在认知,体现在端设备上是感知和行动。先研发语言和图像丰富、认知复杂、动作相对简单的特定认知域的云机器人,如导航机器人,其智商和情商容易取得小众的共识。研发云机器人成为大数据认知的又一个突破口。
我从深圳买过两个扫地机器人,在家用了不到一个月就散了,但是我现在买了一个日本的一万多块钱的机器人,用了很长时间。
如果我们的语言、文本、歌曲、剧本可以通过虚拟形象变成形象、情感、动作、语音、语调、风格的话,我们还可以研究一个林志玲、郭德纲同台的导航板。
利用云+端的形态和深度学习,涌现出太多的云机器人雏形,它们和自然人相比神似形不似,太多的记忆认知和计算认知可从云上获得,当前的感知、交互、认知、行为控制和协调在端上,有自主学习和主动寻求帮助的能力,能够满足移动生活中的人群对特定领域工作的机器人的迫切需求。
假如我到这个机器人面前交流,我说:“我明天想买一部小米手机。”这个聊天机器人怎么回答?说:还是买进口的。你会大吃一惊。啊,这个机器人还知道小米是国产的。假如我说:“我明天想买一部小米手机。”机器人回答:“找你妈要钱去。”这是一个什么场景啊?我们搞自然语言理解和语音翻译的人,以前太多的重视了语法和语构,而忽视了语境和语用。
在云计算数据中心,用成千上万台的CPU+GPU服务器架构,通过大数据样本做混合的大规模深度学习的并行训练,可确定几十亿个参数的人工神经网络模型,用于语音识别、人脸识别等已经获得明显成效。
我个人认为深度学习实际上是一套灵活的、复杂而又简单的形式化模型框架,依靠不同深度的神经网络中的大量参数的确定去处理不同的问题,参数量可高达十几亿个,参数的精度靠大数据量训练得以保证,适合端到端的学习。
深度学习以卷积神经网络(CNN)为代表,相比早先的浅学习,它不但可以从局部到全局提取不同层次的特征参数,还可以利用卷积的微分性质通过改变卷积核在更高阶上提取特征参数,是抽象认知能力的提升,而不仅仅是神经网络的宽度——神经元数目的增加。
互联网、云计算、物联网和大数据可以有力支撑云机器人如何听说、如何看、如何想,而解决机器人如何动作的“智能制造2025”迎来了我国机器人的春天。我们希望我国的制造业赶快跨过3.0,走向4.0。
如果北京市80万个摄像头都变成“摄像头+固化芯片”,把路口简单的摄像头改成路口机器人交警,只要限号开车,压线就扣你分、罚你的款。产业界的朋友们,为什么不做这件事情呢?何况我们国家不是一个北京啊。如果我们把高德导航机器人变成一个聊天机器人,变成一个导游机器人多好啊。我们的汽车无人驾驶,你喝醉酒了,让机器人代驾。你不会开车,让机器人变成教练机器人,还可以做交通事故仲裁机器人。我们还可以做特种车辆服务机器人,所以我认为智能产业有着巨大的创新空间。
如果我们解决了驾驶问题,坐在车里可以享受移动生活,孩子们可以在移动的状态下跟高考辅导聊天机器人聊天,我们喜欢诗人汪国真,我们编个机器诗人汪国真,喜欢邓丽君的歌声,我们编个歌手邓丽君。也可以做手语交互机器人和痴呆症患者聊天的机器人。
如果这样做下去的话,我们的机器人虚拟教师,使得搞翻译的都会失业,真的机器人换人的时代到来了。
3大数据认知的实践
这一篇我就不讲了,8月28号我们要在郑州聚集7辆车,从郑州到开封做一次无人驾驶实验。我们利用导航设备和记忆认知实现了路口记忆,保证郑州到开封27个路口怎么过。有兴趣的朋友们,欢迎你们8月28号郑州相见。
问:刚才你列举的这些领域里面,我们还需要做到?
李德毅:这个就是无人驾驶客车演示。好,你说。
问:我们还需要做哪些工作才能收集到我们所需要的大数据?
李德毅:我就讲一讲我自己的体会吧。我家在北京市万寿路,万寿路有一个十字路口。几乎世界上没有两个路口是完全相同的,万寿路口对于我来说太熟悉了。一个人真正开着车,他这辆车80%的时间走在20%的道路上。所以对于我们来说,我们先把万寿路口的小数据解决。但是你知道一辆车是小数据,那么多辆车就是大数据了。所以我认为,对于大数据,还是要从小数据建立起。
问:大数据的收集要有目的性的收集?
李德毅:对,这句话非常重要。
问:刚刚你讲的机器人的事情,我有一点点不太认可。你说,把摄像头都变成机器人。但是有一个问题,这些机器人只能在数字化的虚拟里面发现问题,比如:有人闯红灯了,原来有交警是可以处理。但是现在只有机器人,是没有办法处理肇事车辆的。所以我们今天是不是过多的考虑虚拟的东西,而我们要进入到真实的世界,就像您刚才说的智能驾驶汽车这方面也需要加强。不知道您是怎么看这个问题。
李德毅:美国工程院有一篇文章,告诫科学家“要多做实践中的研究,少做研究中的实践。”我不认为机器人仅仅是做虚拟的数据。现在的问题是,你要用周边的大数据,这些大数据是生动活泼的大数据。我刚才讲把一个摄像头换成一个交警机器人,我是说作为一个特定问题的交警,仅仅观察压线和车牌号。如果解决了一个特定问题,两个特定问题,三个特定问题,解决了千千万万个特定问题之后,再通过云技术、物联网加在一起,这些人的综合也许可以变成一个人工生物脑的智能。
问:如果过马路是用机器人反应的话,是非常慢的,会不会有撞车的可能性。
李德毅:智能车当今很红火。我现在正在做一个“智能驾驶评估”:1.智能车电磁频谱兼容性评估。2.智能车架构开放性评估。3.模块的独立性评估。4.驾驶智能鲁棒性评估。5.人机交互友好性评估。6.智能车自学习能力评估。