重磅推荐
【产品特色】


【编辑推荐】

《AI 3.0》是超级畅销书《复杂》的作者、复杂系统前沿科学家梅拉妮•米歇尔耗时10年思考,厘清人工智能与人类智能的全新力作。

《AI 3.0》全景式地展现了人工智能的过去、现在和未来。作者米歇尔以自己多年来在人工智能领域的研究经历,及对人工智能的应用与未来等方面的思考为基础,并结合人工智能发展史上的重大事件以及与其他权威专家的学习交流,从5个部分揭示了“现在的计算机能做什么,以及我们在未来几十年能从它们身上期待什么”。作者首先从人工智能的发展历程讲起,然后从视觉识别、游戏与推理、自然语言处理、常识判断等人工智能的4个主要应用领域来详细阐述人工智能的原理、当下的能力边界,及其正在面临的关键挑战。

随着人工智能技术的发展,其应用也越来越广,并对人类社会和我们的生活产生了深远的影响,且会在未来继续发挥更大的影响力。因此,我们都值得也应该对人工智能有一个相对深入的了解,只有这样我们才能更好地理解自身,洞悉未来发展的机遇。同时,本书超越了一般图书的专业性与权威性,很适合想要了解人工智能领域的大众读者以及相关领域的创业者和管理者。

财讯传媒集团首席战略官、苇草智酷创始合伙人段永朝,驭势科技(北京)有限公司联合创始人兼CEO吴甘沙,联想集团高级副总裁、首席技术官芮勇,认知神经科学之父、畅销书《双脑记》作者迈克尔·加扎尼加,世界*理论物理学家、畅销书《规模》作者杰弗里·韦斯特等科学家、企业家、畅销书作者鼎力推荐。

湛庐文化出品。


【内容简介】

人工智能现在正深刻地影响着我们的生产与生活,甚至关系到人类未来的前途命运,但究竟什么是人工智能?人工智能背后的原理是什么?从问世到演化至今,人工智能经历了怎样的历史变迁?当下人工智能的能力边界在哪里?人工智能与人类智能的差异是什么?未来人工智能又将面对什么样的挑战和机遇?关于这些疑问,《AI 3.0》将为你一一揭晓答案。

《AI 3.0》是超级畅销书《复杂》作者、复杂系统前沿科学家梅拉妮•米歇尔历经10年思考,厘清人工智能与人类智能的全新力作。本书源自米歇尔多年来对人工智能领域发展真实状态的记录,她在书中通过5个部分揭示了“现在的人工智能可以做什么,以及在未来几十年我们能从它们身上期待什么”。在描述了人工智能的发展历史之后,作者通过对视觉识别、游戏与推理、自然语言处理、常识判断这4大人工智能领域的热门应用的发展现状和局限性的探究,厘清了人工智能与人类智能的关系,书中关于人脸识别、无人驾驶、机器翻译等方面的案例分析都充满了巨大的启示!而这些,都是当下人工智能发展所面临的困境、人工智能想要取得突破性进展所必须重新思考的。看懂这本书,你将对人工智能领域有一个全景式的认知。

“GEB”作者侯世达曾逐章审读本书,并为每一页都写满了意见!《AI 3.0》是智能觉醒的启蒙,将掀起第三波人工智能热潮!《AI 3.0》所要传达的观点是:我们人类倾向于高估人工智能的进步,而低估人类自身智能的复杂性。目前的人工智能与通用的、人类水平的智能还相距甚远。我们应该感到害怕的不是智能机器,而是“愚笨”的机器,即那些没有能力独立做决策的机器。相比于机器的“智能”,我们更应关注如何规避“愚笨”机器的潜在风险。


【作者简介】

梅拉妮·米歇尔

波特兰州立大学计算机科学教授,曾在美国圣塔菲研究所(Santa Fe Institute)和洛斯阿拉莫斯国家实验室(Los Alamos National Laboratory)工作,主要的研究领域为类比推理复杂系统遗传算法等。在圣塔菲研究所时,米歇尔主导了复杂系统领域的研究工作,并教授了相关的在线课程。她的在线课程《复杂性入门》已经被近30 000名学生选修,成为Coursera排名前50位的在线课程之一。

米歇尔拥有密歇根大学计算机科学博士学位,师从认知科学家和作家侯世达(Douglas Hofstadter),两人共同创建了Copycat程序,该程序可以在理想化的情境里进行创造性的类比。米歇尔还是知名畅销书作家,著有《复杂》(Complexity: A Guided Tour)《遗传算法导论》(Genetic Algorithms)等。


【媒体评论】

梅拉妮·米歇尔的著作《AI 3.0》有一条充满探索精神的主线:第三波人工智能热潮已经大大突破了前两波人工智能的思想,在哲学范式上捅开了一个缺口,不只是符号表征、计算问题,更是意义问题。那么符号演算、视觉处理、机器学习将如何走向“智能觉醒”?这恐怕是专业人士、普罗大众都非常关心的问题。这本《AI 3.0》的独特魅力在于:立足前沿,深度思考,超越技术。

段永朝

财讯传媒集团首席战略官

苇草智酷创始合伙人

在众多关于人工智能的科技新书中,梅拉妮·米歇尔的《AI 3.0》确实可以说是脱颖而出,它超越了一般图书的专业性与权威性,很适合想要了解这个行业的大众读者以及相关领域的创业者和管理者。米歇尔的行文与人工智能研究领域的“明星”“GEB”和《复杂》一脉相承,充满思辨性。当然,本书在内容上更是处处闪耀着启发性,尤其是关于无人驾驶领域长尾效应的描述,对当下人工智能领域的发展痛点一击即中。总体来说,《AI 3.0》观点新锐,充满启示,无疑正在拉开人工智能未来发展的全新序幕。

吴甘沙

驭势科技(北京)有限公司联合创始人兼CEO

《AI 3.0》一书将强化学习、计算机视觉、自然语言理解等领域的技术里程碑和人工智能的历史精妙地编织在了一起,并启发了人们对人工智能的伦理道德和对人性的深刻思考。另外,本书讲解透彻,发人深省,值得人工智能从业者和非专业领域人士一读。

芮勇

联想集团高级副总裁、首席技术官

如果你自认为了解人工智能及与其相关的所有问题,那么实际上你了解得可能就没那么通透。当你读完《AI 3.0》这本异常清晰且引人入胜的书时,我想你会对人工智能了解得更多,也会变得更睿智。

迈克尔·加扎尼加

认知神经科学之父、畅销书《双脑记》作者

对于任何对人工智能、机器学习和大数据的新兴革命感兴趣的人来说,梅拉妮·米歇尔的书都是之选——她提供了一个非常清晰、全面的概述,不仅关乎人工智能改变21世纪人类生活方式的潜能,还关乎它的缺点和它可能会带来的危险。米歇尔为我们提供了一个综合的视角来理解人工智能的实际意义。与此同时,她也纠正了媒体正在传播的对人工智能的夸张描述和误解。这本书适合政策制定者、科技领袖、科学家、工程师以及学生一读,每位读者都将从中受益。
杰弗里·韦斯特
世界*理论物理学家、畅销书《规模》作者


【目录】

引言 创造具有人类智能的机器,是一场重大的智力冒险
部分 若想对未来下注,先要厘清人工智能为何仍然无法超越人类智能

01 从起源到遭遇寒冬,心智是人工智能一直无法攻克的堡垒

达特茅斯的两个月和十个人

定义,然后必须继续下去

任何方法都有可能让我们取得进展

符号人工智能,力图用数学逻辑解决通用问题

感知机,依托DNN的亚符号人工智能

感知学习算法,无法重现人脑的涌现机制

学习感知机的权重和阈值

感知机是一条死胡同

泡沫破碎,进入人工智能的寒冬

看似容易的事情其实很难

02 从神经网络到机器学习,谁都不是后的解药

多层神经网络,识别编码中的简单特征

无论有多少输入与输出,反向传播学习都行得通

联结主义:智能的关键在于构建一个合适的计算结构

亚符号系统的本质:不擅长逻辑,擅长接飞盘

机器学习,下一个智能大变革的舞台已经就绪

03 从图灵测试到奇点之争, 我们无法预测智能将带领我们去往何处

“猫识别机”掀起的春日狂潮

人工智能:狭义和通用,弱和强

人工智能是在模拟思考,还是真的在思考

图灵测试:如果一台计算机足够像人

奇点 2045,非生物智能将比今天所有人类智能强大10亿倍

一个“指数级”寓言

摩尔定律:计算机领域的指数增长

神经工程,对大脑进行逆向工程

奇点的怀疑论者和拥趸者

对图灵测试下注

第二部分 视觉识别:始终是“看”起来容易“做”起来难

04 何人,何物,何时,何地,为何

看与做

深度学习革命:不是复杂性,而是层深

模拟大脑,从神经认知机到ConvNets

ConvNets如何不将狗识别为猫

激活对象特征,通过分类模块进行预测

不断从训练样本中学习,而非预先内置正确答案

05 ConvNets和ImageNet,现代人工智能的基石

构建ImageNet,解决目标识别任务的时间困境

土耳其机器人,一个需要人类智慧的工作市场

赢得ImageNet竞赛,神经网络的极大成功

ConvNets淘金热,以一套技术解决一个又一个问题

在目标识别方面,ConvNets超越人类了吗

我们离真正的视觉智能还非常遥远

06 人类与机器学习的关键差距

人工智能仍然无法学会自主学习

深度学习仍然离不开“你”的大数据

长尾效应常常会让机器犯错

机器“观察”到的东西有时与我们截然不同

有偏见的人工智能

人工智能内心的黑暗秘密以及我们如何愚弄它

07 确保价值观一致,构建值得信赖、有道德的人工智能

有益的人工智能,不断改善人类的生活

人工智能大权衡:我们是该拥抱,还是谨慎

人脸识别的伦理困境

人工智能如何监管以及自我监管

创建有道德的机器

第三部分 游戏与推理:开发具有更接近人类水平的学习和推理能力的机器

08 强化学习,重要的是学会给机器人奖励

训练你的机器狗

现实世界中的两大绊脚石

09 学会玩游戏,智能究竟从何而来

深度Q学习,从更好的猜测中学习猜测

价值6.5亿美元的智能体

西洋跳棋和国际象棋

不智能的“智能赢家”深蓝

围棋,规则简单却能产生无穷的复杂性

AlphaGo对战李世石:精妙,精妙,精妙

从随机选择到倾向选择,AlphaGo这样工作

10 游戏只是手段,通用人工智能才是目标

理解为什么错误至关重要

无须人类的任何指导

对人工智能而言,人类的很多游戏都很具挑战性

它并不真正理解什么是一条隧道,什么是墙

除去思考“围棋”,AlphaGo没有“思考”

从游戏到真实世界,从规则到没有规则

第四部分 自然语言:让计算机理解它所“阅读”的内容

11 词语,以及与它一同出现的词

语言的微妙之处

语音识别和后的10%

分类情感

递归神经网络

“我欣赏其中的幽默”

“憎恶”总与“讨厌”相关,“笑”也从来伴随着“幽默”

word2vec神经网络:口渴之于喝水,就像疲倦之于喝醉

12 机器翻译,仍然不能从人类理解的角度来理解图像与文字

编码器遇见解码器

机器翻译,正在弥补人机翻译之间的差距

迷失在翻译之中

把图像翻译成句子

13 虚拟助理——随便问我任何事情

沃森的故事

如何判定一台计算机是否会做阅读理解

“它”是指什么?

自然语言处理系统中的对抗式攻击

第五部分 常识——人工智能打破意义障碍的关键

14 正在学会理解的人工智能

理解的基石

预测可能的未来

理解即模拟

我们赖以生存的隐喻

抽象与类比,构建和使用我们的心智模型

15 知识、抽象和类比,赋予人工智能核心常识

让计算机具备核心直觉知识

形成抽象,理想化的愿景

活跃的符号和做类比

字符串世界中的元认知

识别整个情境比识别单个物体要困难得多

“我们真的,真的相距甚远”

结语 思考6个关键问题,激发人工智能的终极潜力

问题1:自动驾驶汽车还要多久才能普及?

问题2:人工智能会导致人类大规模失业吗?

问题3:计算机能够具有创造性吗?

问题4:我们距离创建通用的人类水平AI还有多远?

问题5:我们应该对人工智能感到多恐惧?

问题6:人工智能中有哪些激动人心的问题还尚未解决?

致谢

注释


【前言】

等那一口仙气儿

段永朝

财讯传媒集团首席战略官

苇草智酷创始合伙人

2019年,梅拉妮·米歇尔博士的这本新著《AI 3.0》甫一出版,就跻身亚马逊“计算机与技术”畅销书行列。10年前,她的《复杂》(Complexity)一书荣登亚马逊年度十佳科学图书榜单。人工智能(artificial intelligence, AI)类的图书可谓汗牛充栋,大致可分为两类:一类是给专业的工程师看的,另一类是给大众的普及读物。米歇尔的这部书介乎两者之间,它有专业的技术阐释,更有深刻的思想洞察。

“侯世达的恐惧”

米歇尔是侯世达(Douglas Hofstadter)的学生。侯世达是蜚声中外的畅销书《哥德尔、艾舍尔、巴赫:集异璧之大成》(G.del,Escher,Bach:an Eternal Golden Braid)的作者。这部1979年出版的不朽著作,往往被简称为“GEB”,40多年来长盛不衰,令无数学习计算机科学和数理科学的大学生心醉神迷。米歇尔1990年在侯世达的指导下获得博士学位,后在美国波特兰大学任计算机科学教授,同时也是著名的复杂科学研究圣地——美国圣塔菲研究所的客座研究员。

2016年,谷歌公司的AlphaGo横扫围棋界一应高手,让全世界见识了新一波人工智能掀起的巨浪。一时间,机器翻译、语音识别、虚拟现实、自动驾驶、人工智能机器人等轮番登场,“奇点爆炸”“超级智能”“数字永生”等概念如雨后春笋般涌现,人工智能成为几乎所有大型前沿科技论坛必设的主题,“通用人工智能”(artificial general intelligence,AGI)仿佛指日可待。

2018年4月18日,我有幸在腾讯研究院、集智俱乐部、湛庐和苇草智酷联合主办的一个沙龙上,见到了久仰大名的“大神”侯世达,并参加了圆桌对话。在侯世达眼里,人工智能没那么高深,他直言很讨厌“人工智能”这个词,并以其新著《表象与本质》中的例子,批驳人工智能毫无“智能”可言。

米歇尔的这部《AI 3.0》为侯世达对人工智能的万般忧虑做了一次深度的技术解析。

对人工智能的种种讨论,特别是涉及技术伦理、社会价值和发展前景的时候,人们一般只会停留在悲观或者乐观的选边站队层面,无法进一步深入下去。这不奇怪,技术专家们擅长的话语是数据、算法、模型,社会学者和新闻记者们只能从技术的外部性、代码的背后之手、人性之善恶的角度,捍卫或者批判某种价值主张。对绝大多数非专业人士而言,由于搞不懂隐藏在反向传播算法、卷积神经网络(convolutional neural networks,ConvNets)、马尔可夫过程、熵原理这些硬核知识背后的思想内涵,就只能以“好与坏”“善与恶”的视角对人工智能进行理解和评判。讲述技术视角的思想基础,弥合“理科生”与“文科生”之间看待人工智能的思想鸿沟,正是米歇尔这部书的价值所在。当然,从我这样一名30年前曾做过专家系统(expert system)、机器推理算法的半个业内人士的角度来看,米歇尔的这部书如果能再“柔和”一些,可能效果更佳,不过这的确很难,跨越学科分野的努力,既重要又充满挑战。

《AI 3.0》开篇即提出这样一个“侯世达的恐惧”:不是担心人工智能太聪明,而是担心人工智能太容易取代我们人类所珍视的东西。这说出了很多人的心声,人们对人工智能的忧虑,在于这一领域发展得实在是太快了,已经渗透到日常生活的各个角落。不知不觉,我们周围的一切似乎都变得智能了,都被“强壮”的机器代码、算法接管了,人工智能似乎就是为接管世界而生的。这一波人工智能浪潮,随着一座座“生活城池的沦陷”,日益亢奋起来,超级智能、通用人工智能似乎指日可待,人工智能彻底接管这个世界似乎越来越现实,越来越不容置疑了。要知道,自1956年“人工智能”这一术语在美国达特茅斯学院的一个小型座谈会上被提出之后,“通用问题求解器”(general problem solver,GPS)就是当年人工智能的重要目标。

本书共分为5个部分。这篇序言,并非是对原书精彩内容的“剧透”,而是试图做一点点背景解析,与各位关注、思考人工智能的朋友交流。

人工智能的历史遗留问题

本书部分回顾了人工智能超过半个世纪的发展历史,并提出该领域两类主要的人工智能,一类是符号人工智能(symbolic AI),另一类是以感知机为雏形的亚符号人工智能(subsymbolic AI)。前者的基本假设是智能问题可以归为“符号推理”过程,这一学派也被称为“心智的计算理论”(computational theory of mind,CTM)学派。这一理论可追溯至计算机鼻祖法国科学家帕斯卡以及德国数学家莱布尼茨,真正体现这一思想的所谓智能机器,源于英国的查尔斯·巴贝奇(Charles Babbage)以及艾伦·图灵(Alan Turing)的开创性工作。

亚符号人工智能的出现归功于行为主义认知理论的崛起,可追溯至英国哲学家大卫·休谟和美国心理学家威廉·詹姆斯,其思想基础是“刺激-反应理论”。20世纪40年代,美国神经生理学家麦克卡洛克(W. S. McCulloch)、匹茨(W. A. Pitts)提出神经元模型后,心理学家弗兰克·罗森布拉特(Frank Rosenblatt)提出了感知机模型,这奠定了神经网络的基础。

然而,20世纪五六十年代的人工智能,在符号演算和感知机两个方向上都陷入了停滞。80年代兴起的专家系统和神经网络,也因为受制于计算能力和对智能的理解,并未获得实质性的突破。与一般人工智能著作不同的是,在概述“人工智能的寒冬”这一背景之后,米歇尔将注意力集中在“何以如此”这个关键问题上。了解人工智能“技术内幕”的专业人士都知道,算法在外行人看来的确神秘莫测,但在工程师眼里其所仰仗的说到底还是计算能力和符号演算的逻辑基础——这才是理解人工智能的关键。

受惠于神经网络和机器学习(machine learning)的发展,特别是2016年谷歌公司的AlphaGo在各种围棋比赛中大获全胜,给全世界做了一次人工智能科普,人工智能的第三波浪潮开始了。自从IBM的智能程序沃森(Watson)在智力竞赛《危险边缘》(Jeopardy!)中取得十分亮眼的表现,无人驾驶汽车、图像识别和语音识别等技术越来越受到人们的关注,一大波斗志昂扬的“人工智能预言”伴随着这一波人工智能浪潮愈演愈烈。DeepMind创始人之一沙恩·莱格(Shane Legg)认为,超越人类水平的人工智能将在2025年左右出现。谷歌公司战略委员会成员雷·库兹韦尔(Ray Kurzweil)则提出了令人震惊的“奇点理论”,他认为

2029年完全通过图灵测试(Turing test)的智能机器将会出现,以强人工智能为基础的智能爆炸将会在2045年出现。

米歇尔的论述有一条清晰的线索,她细致地分析了人工智能在视觉、游戏、机器翻译等领域的进展后指出:迄今为止令人眼花缭乱的智能突破,其实尚未触及智能问题的核心——自然语言理解和意义问题。为什么会这样呢?恐怕这就是我们需要仔细研读本书的一个原因吧。


【免费在线读】

深度学习仍然离不开“你”的大数据

深度学习需要大数据,这已经不是什么秘密了,比如ImageNet上超过百万张已标注的训练图像。这些数据从哪里来?答案当然是你以及你所认识的每个人。现代计算机视觉应用程序之所以成为可能,主要归功于互联网用户已上传的、有时带有说明图像内容的文本标签的数十亿张图像。你是否曾在Facebook上发布过一张朋友的照片并进行评论?Facebook应该对你表示感谢!该图像及其文本可能已被用于训练他们的人脸识别系统了。你是否曾在Flickr上传过图片?如果是,那么你所上传的图像可能已成为ImageNet训练集的一部分了。你是否曾通过识别一张图片来向某个网站证明你不是一个机器人?你的识别结果可能帮助了谷歌为图片设置标签并被用于训练其图片搜索系统。

大型科技公司通过计算机和智能手机为你提供许多免费服务:网络搜索、视频通话、电子邮件、社交网络、智能助理,诸如此类。这些对公司有什么用处呢?答案你可能已经听说过,就是这些公司真正的产品其实是其用户,例如你和我,而他们真正的客户则是那些获取我们在使用这些免费服务时的注意力和信息的广告商。还有另外一个答案:在使用大型科技公司如谷歌、亚马逊和 Facebook 等提供的服务时,我们会以图像、视频、文字或语音等形式直接为这些公司提供样本,这些样本可供公司更好地训练其人工智能程序,这些改进的程序能够吸引更多用户来贡献更多数据,进而帮助广告商更有效地定位其广告投放的对象。此外,我们提供的训练样本也可被公司用于训练程序来提供企业服务,并进行商业收费,例如计算机视觉和自然语言处理方面的服务。

关于这些大公司在没有通知或补偿用户的情况下,使用用户所创造的数据来训练程序并用于销售产品的道德问题,已有许多相关探讨。这是一个非常重要的讨论主题,但超出了本书的范围 。我想在这里强调的重点是:依赖于收集到的大量已标注的数据来进行训练是深度学习不同于人类学习的另一个特点。

随着深度学习系统在物理世界实际应用的激增,很多公司发现需要大规模的新标记的数据集来训练DNN。自动驾驶汽车就是一个值得关注的例子,这类汽车需要复杂的计算机视觉功能,以识别车道、交通信号灯、停车标志等,以及辨别和追踪不同类型的潜在障碍物,如其他汽车、行人、骑自行车的人、动物、交通锥、翻倒的垃圾桶、风滚草,以及其他任何你可能不希望汽车会撞到的对象。自动驾驶汽车还需要学习这些对象在晴天、雨天、下雪天、有雾的日子,以及白天和黑夜时看起来的样子,还要学会判断哪些对象可能会发生移动,而哪些则会留在原地。深度学习将有助于这项任务的实现,至少在某种程度上是如此,但这同样需要大量的训练样本。

自动驾驶汽车公司从安装在真实汽车上的摄像头所拍摄的海量视频中收集训练样本。这些行驶于高速公路和城市街道中的汽车可能是汽车公司用来测试的自动驾驶车辆的原型,而对特斯拉而言,这些汽车就是由客户驾驶的汽车,在客户购买特斯拉汽车时,需要接受该公司的数据共享条款。

特斯拉车主并未被要求对他们的汽车拍摄的视频中的每个对象进行标注,但有人在做这些事。2017年,《金融时报》(Financial Times)报道称,“大多数研究这项技术的公司位于印度等国的离岸外包中心并雇用了数百至上千人,他们的工作就是教自动驾驶汽车识别行人、骑自行车的人以及其他障碍物。这些工作人员需要手动标注长达数千小时的视频片段来完成这项工作,而且通常是逐帧进行标注”。提供标注数据集服务的新公司如雨后春笋般涌现,例如,Mighty AI公司提供训练计算机视觉模型所需的标注数据,并承诺:“我们是知名的、专攻自动驾驶数据的、经过认证的、可信的标注者。

长尾效应常常会让机器犯错

这种需要大型数据集和大量人类分类员的监督学习方法,至少对自动驾驶汽车所需的某些视觉功能是有用的,许多公司也正在探索利用类似于视频游戏的模拟驾驶程序来强化有监督的训练。那么对于生活的其他领域呢?几乎所有从事人工智能研究的人都认同,监督学习方法并不是一条通往通用人工智能的可行途径。正如著名的人工智能研究者吴恩达所警告的:“对大量数据的需要是目前限制深度学习发展的主要因素。”另一位知名的深度学习专家约书亚·本吉奥(Yoshua Bengio)表示赞同,他说:“实事求是地讲,我们不可能对世界上的所有事物都进行标注,并一丝不苟地把每一个细节都解释给计算机听。”

这一情况由于“长尾效应”的存在而进一步恶化,所谓的“长尾”,就是指人工智能系统可能要面临各种可能的意外情况。遇到红灯或停车标志等都是常见的情况,被评定为具有高可能性;中等可能性的情况包括遇到碎玻璃或者风吹过来的塑料袋,这些情况并非每天都会遇到,但也不是不常见,这取决于你驾驶的区域;不太常见的情况是自动驾驶汽车遇到了被水淹没的道路或被雪遮挡住的车道标志;而在高速公路的中央遇到一个雪人,则是更加不常见的情况了。

我想出了上述这些不同的情况,并对其相应的可能性进行了猜测,我相信你可以想出更多自己的猜测。任何一辆单独的汽车都可能是安全的,毕竟,总体来说,自动驾驶的测试车辆已经行驶了数百万千米,也只发生了很少的交通事故,尽管其中确有一些备受关注的伤亡事故。然而,一旦自动驾驶汽车普及开来,真实世界中有如此多种可能的情况,尽管每个单独的、不太可能发生的情况极少发生,但是面对如此多数不清的可能场景以及巨大的车流量,总会有某辆自动驾驶汽车会在某个时间、某个地点遭遇其中的一种情况。

“长尾”这个术语来自统计学,其中包含的各种可能事件的概率分布的形状类似于图 6-1:这一长串可能性低,但却可能发生的情况被称为该分布的“尾巴”,尾巴上的情况有时被称为“边缘情况”。人工智能在现实世界的大多数领域中都会面对这种长尾效应:现实世界中的大部分事件通常是可预测的,但仍有一长串低概率的意外事件发生。如果我们单纯依靠监督学习来提升人工智能系统对世界的认识,那么就会存在一个问题:尾部的情况并不经常出现在训练数据中,所以当遇到这些意外情况时,系统就会更容易出错。

举两个真实的案例。2016年3月,天气预报称美国东北部将出现大规模暴风雪,推特上有报道称发现特斯拉汽车在自动驾驶模式下把车道标记和高速公路上为预防暴风雪而铺设的盐线弄混了。2016年2月,谷歌的一辆无人驾驶汽车在右转弯时,为避开公路右侧的沙袋不得不左转,致使车辆的左前方撞上了一辆在左车道行驶的公共汽车。这两辆车都预判对方会进行避让,其中公交车司机可能认为,人类司机会害怕体积更大的公交车从而选择避让,没想到这是一辆无人驾驶汽车。从事自动驾驶技术研究的公司敏锐地意识到了长尾效应,他们的团队围绕可能的长尾情境展开了头脑风暴,积极创造更多的训练样本,并针对他们能想到的所有不太可能的场景编写了相应的应对策略,但是,他们显然无法穷尽系统可能遇到的所有场景。

一种常见的解决方案是:让人工智能系统在少量标注数据上进行监督学习,并通过“无监督学习”(unsupervised learning)来学习其他所有的内容。无监督学习是指在没有标记数据的情况下学习样本所属类别的一系列方法。常见的例子包括:基于相似度来对样本进行分类的方法,或者通过与已知类别进行对比来学习新类别的方法。正如我将在后面章节中介绍的那样,对抽象事物的感知以及类比是人类擅长的,但到目前为止,还没有特别成功的人工智能算法来实现这种无监督学习。杨立昆承认:“无监督学习是人工智能的暗物质。”换句话说,对于通用人工智能,几乎所有学习都应该在无监督方式下进行,然而,还没人提出过成功进行无监督学习所需的各种算法。

人类总会犯错,特别是在驾驶时,如果是我们处在前文例子中为躲避沙袋而要转向的场景,我们也有可能会撞上那辆公交车;但是,人类具有一种当前所有的人工智能系统都缺乏的基本能力:运用常识。我们拥有关于这个世界的体量庞大的背景知识,包括物质层面及社会层面。我们对现实世界中的事物会如何行动或变化有充分的了解,无论它是无生命的还是有生命的,我们广泛地运用这些常识来决定如何在特定情况下采取行动。即使从未在暴风雪天开过车,我们也能推断出道路铺设盐线的原因。我们知道如何与其他人进行社交互动,因此能够使用眼神、手势和其他肢体语言交流来应对电源故障期间交通信号灯无法使用的情况。我们也知道,应该尽量避让大型公共汽车,即便从严格意义上来说我们拥有路权。这里我举的只是汽车驾驶方面的一些例子,其实人类通常在生活的方方面面都会本能地运用常识。许多人认为,除非人工智能系统能像人类一样拥有常识,否则它们将无法在复杂的现实世界中实现完全自主。

机器“观察”到的东西有时与我们截然不同

几年前,我的研究团队的一名研究生威尔·兰德克尔(Will Landecker),训练了一个可以将图像分为“包含动物”和“不包含动物”两种类别的DNN。网络在图像上进行了训练,并且在测试集上表现得非常好,但网络实际上学到了什么呢?通过仔细研究,威尔发现了一个让人意想不到的答案:网络学会的是将具有模糊背景的图像分到“包含动物”这一类别,无论该图像是否真的包含一只动物。这是由于训练集以及测试集中的图像遵循了一项重要的摄影规则:聚焦在目标对象上。当图像的目标对象是一只动物时,动物将成为焦点,而图像的背景是模糊的。当图像本身就是一种背景时,则图像中没有任何地方是模糊的。令威尔感到很懊恼的是,他的网络并没有学会识别动物,而是使用了与动物图像统计特征相关的更简单的线索,如模糊的背景。

这是机器学习常见现象中的一个例子。机器学到的是它在数据中观察到的东西,而非我们人类可能观察到的东西。如果训练数据具有统计性关联,即使这些关联与机器要解决的任务无关,机器也会很乐意学习这些内容,而不是学习那些我们希望它学习的内容。如果机器在具有相同统计性关联的新数据上进行测试,它将表现得像是已经成功地学会了如何完成这一任务;然而,机器在其他数据上运行可能会出乎意料地失败,就像威尔的网络在无模糊背景的动物图像上的表现一样。用机器学习的术语来说,威尔的网络“过拟合”(overfitted)了特定的训练集,因此无法很好地将其学到的知识应用到与训练集特征不同的那些图像上。

近年来,一些研究团队调查了在ImageNet和其他大数据集上训练的ConvNets是否同样会在其训练数据上过拟合。有一个研究团队表示:如果ConvNets是在从网络下载的图像(如ImageNet中的图像)上进行训练的,那么在由机器人用照相机在房屋中移动拍摄出来的图像上,它们就会表现得很差。这似乎是由于家居用品的随机视图看起来与人们在网络上发布的照片非常不同。

其他研究团队表明,图像表面的变化,如使图像模糊一点或给图像加上斑点、更改某些颜色或场景中物体的旋转方向等,这些扰动不影响人类对其中对象的识别,却可能导致ConvNets出现严重错误。ConvNets和其他那些在目标识别方面“超越”人类的网络的这种意想不到的脆弱性,表明它们在其训练数据上出现了过拟合,而且学到了一些与我们试图教给它们的不同的东西。


【书摘与插画】

深度学习仍然离不开“你”的大数据

深度学习需要大数据,这已经不是什么秘密了,比如ImageNet上超过百万张已标注的训练图像。这些数据从哪里来?答案当然是你以及你所认识的每个人。现代计算机视觉应用程序之所以成为可能,主要归功于互联网用户已上传的、有时带有说明图像内容的文本标签的数十亿张图像。你是否曾在Facebook上发布过一张朋友的照片并进行评论?Facebook应该对你表示感谢!该图像及其文本可能已被用于训练他们的人脸识别系统了。你是否曾在Flickr上传过图片?如果是,那么你所上传的图像可能已成为ImageNet训练集的一部分了。你是否曾通过识别一张图片来向某个网站证明你不是一个机器人?你的识别结果可能帮助了谷歌为图片设置标签并被用于训练其图片搜索系统。

大型科技公司通过计算机和智能手机为你提供许多免费服务:网络搜索、视频通话、电子邮件、社交网络、智能助理,诸如此类。这些对公司有什么用处呢?答案你可能已经听说过,就是这些公司真正的产品其实是其用户,例如你和我,而他们真正的客户则是那些获取我们在使用这些免费服务时的注意力和信息的广告商。还有另外一个答案:在使用大型科技公司如谷歌、亚马逊和 Facebook 等提供的服务时,我们会以图像、视频、文字或语音等形式直接为这些公司提供样本,这些样本可供公司更好地训练其人工智能程序,这些改进的程序能够吸引更多用户来贡献更多数据,进而帮助广告商更有效地定位其广告投放的对象。此外,我们提供的训练样本也可被公司用于训练程序来提供企业服务,并进行商业收费,例如计算机视觉和自然语言处理方面的服务。

关于这些大公司在没有通知或补偿用户的情况下,使用用户所创造的数据来训练程序并用于销售产品的道德问题,已有许多相关探讨。这是一个非常重要的讨论主题,但超出了本书的范围 。我想在这里强调的重点是:依赖于收集到的大量已标注的数据来进行训练是深度学习不同于人类学习的另一个特点。

随着深度学习系统在物理世界实际应用的激增,很多公司发现需要大规模的新标记的数据集来训练DNN。自动驾驶汽车就是一个值得关注的例子,这类汽车需要复杂的计算机视觉功能,以识别车道、交通信号灯、停车标志等,以及辨别和追踪不同类型的潜在障碍物,如其他汽车、行人、骑自行车的人、动物、交通锥、翻倒的垃圾桶、风滚草,以及其他任何你可能不希望汽车会撞到的对象。自动驾驶汽车还需要学习这些对象在晴天、雨天、下雪天、有雾的日子,以及白天和黑夜时看起来的样子,还要学会判断哪些对象可能会发生移动,而哪些则会留在原地。深度学习将有助于这项任务的实现,至少在某种程度上是如此,但这同样需要大量的训练样本。

自动驾驶汽车公司从安装在真实汽车上的摄像头所拍摄的海量视频中收集训练样本。这些行驶于高速公路和城市街道中的汽车可能是汽车公司用来测试的自动驾驶车辆的原型,而对特斯拉而言,这些汽车就是由客户驾驶的汽车,在客户购买特斯拉汽车时,需要接受该公司的数据共享条款。

特斯拉车主并未被要求对他们的汽车拍摄的视频中的每个对象进行标注,但有人在做这些事。2017年,《金融时报》(Financial Times)报道称,“大多数研究这项技术的公司位于印度等国的离岸外包中心并雇用了数百至上千人,他们的工作就是教自动驾驶汽车识别行人、骑自行车的人以及其他障碍物。这些工作人员需要手动标注长达数千小时的视频片段来完成这项工作,而且通常是逐帧进行标注”。提供标注数据集服务的新公司如雨后春笋般涌现,例如,Mighty AI公司提供训练计算机视觉模型所需的标注数据,并承诺:“我们是知名的、专攻自动驾驶数据的、经过认证的、可信的标注者。

长尾效应常常会让机器犯错

这种需要大型数据集和大量人类分类员的监督学习方法,至少对自动驾驶汽车所需的某些视觉功能是有用的,许多公司也正在探索利用类似于视频游戏的模拟驾驶程序来强化有监督的训练。那么对于生活的其他领域呢?几乎所有从事人工智能研究的人都认同,监督学习方法并不是一条通往通用人工智能的可行途径。正如著名的人工智能研究者吴恩达所警告的:“对大量数据的需要是目前限制深度学习发展的主要因素。”另一位知名的深度学习专家约书亚·本吉奥(Yoshua Bengio)表示赞同,他说:“实事求是地讲,我们不可能对世界上的所有事物都进行标注,并一丝不苟地把每一个细节都解释给计算机听。”

这一情况由于“长尾效应”的存在而进一步恶化,所谓的“长尾”,就是指人工智能系统可能要面临各种可能的意外情况。遇到红灯或停车标志等都是常见的情况,被评定为具有高可能性;中等可能性的情况包括遇到碎玻璃或者风吹过来的塑料袋,这些情况并非每天都会遇到,但也不是不常见,这取决于你驾驶的区域;不太常见的情况是自动驾驶汽车遇到了被水淹没的道路或被雪遮挡住的车道标志;而在高速公路的中央遇到一个雪人,则是更加不常见的情况了。

我想出了上述这些不同的情况,并对其相应的可能性进行了猜测,我相信你可以想出更多自己的猜测。任何一辆单独的汽车都可能是安全的,毕竟,总体来说,自动驾驶的测试车辆已经行驶了数百万千米,也只发生了很少的交通事故,尽管其中确有一些备受关注的伤亡事故。然而,一旦自动驾驶汽车普及开来,真实世界中有如此多种可能的情况,尽管每个单独的、不太可能发生的情况极少发生,但是面对如此多数不清的可能场景以及巨大的车流量,总会有某辆自动驾驶汽车会在某个时间、某个地点遭遇其中的一种情况。

“长尾”这个术语来自统计学,其中包含的各种可能事件的概率分布的形状类似于图 6-1:这一长串可能性低,但却可能发生的情况被称为该分布的“尾巴”,尾巴上的情况有时被称为“边缘情况”。人工智能在现实世界的大多数领域中都会面对这种长尾效应:现实世界中的大部分事件通常是可预测的,但仍有一长串低概率的意外事件发生。如果我们单纯依靠监督学习来提升人工智能系统对世界的认识,那么就会存在一个问题:尾部的情况并不经常出现在训练数据中,所以当遇到这些意外情况时,系统就会更容易出错。

举两个真实的案例。2016年3月,天气预报称美国东北部将出现大规模暴风雪,推特上有报道称发现特斯拉汽车在自动驾驶模式下把车道标记和高速公路上为预防暴风雪而铺设的盐线弄混了。2016年2月,谷歌的一辆无人驾驶汽车在右转弯时,为避开公路右侧的沙袋不得不左转,致使车辆的左前方撞上了一辆在左车道行驶的公共汽车。这两辆车都预判对方会进行避让,其中公交车司机可能认为,人类司机会害怕体积更大的公交车从而选择避让,没想到这是一辆无人驾驶汽车。从事自动驾驶技术研究的公司敏锐地意识到了长尾效应,他们的团队围绕可能的长尾情境展开了头脑风暴,积极创造更多的训练样本,并针对他们能想到的所有不太可能的场景编写了相应的应对策略,但是,他们显然无法穷尽系统可能遇到的所有场景。

一种常见的解决方案是:让人工智能系统在少量标注数据上进行监督学习,并通过“无监督学习”(unsupervised learning)来学习其他所有的内容。无监督学习是指在没有标记数据的情况下学习样本所属类别的一系列方法。常见的例子包括:基于相似度来对样本进行分类的方法,或者通过与已知类别进行对比来学习新类别的方法。正如我将在后面章节中介绍的那样,对抽象事物的感知以及类比是人类擅长的,但到目前为止,还没有特别成功的人工智能算法来实现这种无监督学习。杨立昆承认:“无监督学习是人工智能的暗物质。”换句话说,对于通用人工智能,几乎所有学习都应该在无监督方式下进行,然而,还没人提出过成功进行无监督学习所需的各种算法。

人类总会犯错,特别是在驾驶时,如果是我们处在前文例子中为躲避沙袋而要转向的场景,我们也有可能会撞上那辆公交车;但是,人类具有一种当前所有的人工智能系统都缺乏的基本能力:运用常识。我们拥有关于这个世界的体量庞大的背景知识,包括物质层面及社会层面。我们对现实世界中的事物会如何行动或变化有充分的了解,无论它是无生命的还是有生命的,我们广泛地运用这些常识来决定如何在特定情况下采取行动。即使从未在暴风雪天开过车,我们也能推断出道路铺设盐线的原因。我们知道如何与其他人进行社交互动,因此能够使用眼神、手势和其他肢体语言交流来应对电源故障期间交通信号灯无法使用的情况。我们也知道,应该尽量避让大型公共汽车,即便从严格意义上来说我们拥有路权。这里我举的只是汽车驾驶方面的一些例子,其实人类通常在生活的方方面面都会本能地运用常识。许多人认为,除非人工智能系统能像人类一样拥有常识,否则它们将无法在复杂的现实世界中实现完全自主。

机器“观察”到的东西有时与我们截然不同

几年前,我的研究团队的一名研究生威尔·兰德克尔(Will Landecker),训练了一个可以将图像分为“包含动物”和“不包含动物”两种类别的DNN。网络在图像上进行了训练,并且在测试集上表现得非常好,但网络实际上学到了什么呢?通过仔细研究,威尔发现了一个让人意想不到的答案:网络学会的是将具有模糊背景的图像分到“包含动物”这一类别,无论该图像是否真的包含一只动物。这是由于训练集以及测试集中的图像遵循了一项重要的摄影规则:聚焦在目标对象上。当图像的目标对象是一只动物时,动物将成为焦点,而图像的背景是模糊的。当图像本身就是一种背景时,则图像中没有任何地方是模糊的。令威尔感到很懊恼的是,他的网络并没有学会识别动物,而是使用了与动物图像统计特征相关的更简单的线索,如模糊的背景。

这是机器学习常见现象中的一个例子。机器学到的是它在数据中观察到的东西,而非我们人类可能观察到的东西。如果训练数据具有统计性关联,即使这些关联与机器要解决的任务无关,机器也会很乐意学习这些内容,而不是学习那些我们希望它学习的内容。如果机器在具有相同统计性关联的新数据上进行测试,它将表现得像是已经成功地学会了如何完成这一任务;然而,机器在其他数据上运行可能会出乎意料地失败,就像威尔的网络在无模糊背景的动物图像上的表现一样。用机器学习的术语来说,威尔的网络“过拟合”(overfitted)了特定的训练集,因此无法很好地将其学到的知识应用到与训练集特征不同的那些图像上。

近年来,一些研究团队调查了在ImageNet和其他大数据集上训练的ConvNets是否同样会在其训练数据上过拟合。有一个研究团队表示:如果ConvNets是在从网络下载的图像(如ImageNet中的图像)上进行训练的,那么在由机器人用照相机在房屋中移动拍摄出来的图像上,它们就会表现得很差。这似乎是由于家居用品的随机视图看起来与人们在网络上发布的照片非常不同。

其他研究团队表明,图像表面的变化,如使图像模糊一点或给图像加上斑点、更改某些颜色或场景中物体的旋转方向等,这些扰动不影响人类对其中对象的识别,却可能导致ConvNets出现严重错误。ConvNets和其他那些在目标识别方面“超越”人类的网络的这种意想不到的脆弱性,表明它们在其训练数据上出现了过拟合,而且学到了一些与我们试图教给它们的不同的东西。


返回顶部