大话机器智能：一书看透AI的底层运行逻辑-当当网

重磅推荐

【产品特色】

【编辑推荐】

（1）了解AI“化学反应”之旅——分析支撑AI的三大基础学科（概率论、统计学、信息论）的底层运作逻辑，大话有趣的历史与实践。

（2）了解AI“强大脑”由来——理解AI智能拥有的三大武器，即数据、算法与算力，剖析AI为何拥有智能的原理。

（3）探讨AI世界的未来——AI的安全与热点话题，为你审视未来提供思路，化解诸多疑问，更添笃定。

【内容简介】

本书以有趣的案例和深入浅出的语言，直击AI的底层运行逻辑与核心原理，勾勒人工智能的全貌，以便读者掌握AI技术要点，打通AI的各种技术壁垒，厘清不易察觉的“认知错误”，从而更好地认识正在运转的神秘AI世界。

本书共9章，逻辑上分为三部分。

第1～3章是人工智能的基础理论，通过生动、有趣的讲解，让读者知道支撑AI的基础学科如何起作用：如何基于统计学和概率论找到应对不确定性的有效方法与解题思路；如何基于数据统计的基础知识与原理避开数据“陷阱”，给出谨慎的主观结论；如何从数学视角理解信息的处理模型。

第4～7章讨论人工智能的核心技术——数据、算法、算力，详细介绍大数据是如何处理的，如何通过机器学习算法和深度学习算法让机器正确认识数据间的关联与规律，以及如何通过算力整合与软件协作实现更高效的智能。

第8～9章探讨一些人工智能安全话题——大数据“杀熟”、隐私计算、深度伪造技术、对抗样本攻击、数据投毒攻击、攻防博弈等，并展望人工智能的未来，包括：人工智能会抢走人类的工作吗？机器人会统治人类吗？通用人工智能会出现吗？未来到底会变成什么样子？

【作者简介】

徐晟　

某商业银行IT技术主管，毕业于上海交通大学，从事IT技术领域工作十余年，对科技发展、人工智能有自己独到的见解，专注于智能运维（AIOps）、数据可视化、容量管理等方面工作。

【目录】

前言
第1章　世界充满不确定性　/　1
1.1　解题重要的是思路　/　2
1.1.1　加百子的答案　/　2
1.1.2　人工智能的破题思路　/　2
1.1.3　统计思维的诞生　/　3
1.2　随机世界　/　6
1.2.1　猜测上帝的游戏　/　6
1.2.2　科学研究与模型　/　7
1.2.3　随机性与随机过程　/　8
1.2.4　正态分布是什么　/　9
1.2.5　随机不是均匀　/　10
1.3　概率的威力　/　11
1.3.1　试验能得出什么规律　/　12
1.3.2　如何合理分配赌金　/　12
1.3.3　概率与异常值　/　13
1.3.4　用概率击败庄家　/　14
1.4　直觉和错觉　/　15
1.4.1　猜拳是不是碰运气　/　15
1.4.2　同一天生日的概率是多少　/　16
1.4.3　蒙提霍尔的三门问题　/　17
1.5　生活中的大数定律　/　19
1.5.1　大数定律的概念和意义　/　19
1.5.2　蒙特卡洛方法　/　20
1.6　如何验证假设　/　20
1.6.1　女士品茶　/　21
1.6.2　停时理论　/　24
1.7　经验和实践如何共存　/　25
1.7.1　什么是贝叶斯定理　/　26
1.7.2　朴素贝叶斯有多“朴素”　/　29
1.7.3　每个人都懂贝叶斯　/　31
1.8　结语　/　32
第2章　数据代表真相吗　/　34
2.1　小心数据的陷阱　/　34
2.2　数据收集的偏差　/　35
2.2.1　幸存者偏差　/　35
2.2.2　选择性偏差　/　36
2.3　数据处理的悖论　/　38
2.3.1　被平均的工资　/　38
2.3.2　辛普森悖论　/　40
2.4　数据呈现的误导　/　42
2.4.1　未披露的数据　/　42
2.4.2　会欺骗的视觉设计　/　43
2.5　如何正确解读数据　/　47
2.5.1　相关性不等于因果性　/　47
2.5.2　被选数据的骗局　/　50
2.5.3　数据表达的局限　/　51
2.5.4　精准预测的挑战　/　52
2.6　结语　/　54
第3章　如何获得有用信息　/　55
3.1　数据、信息、知识　/　55
3.1.1　数据是一组有意义的符号　/　56
3.1.2　信息是用来消除不确定性的　/　56
3.1.3　知识是对信息的总结和提炼　/　57
3.2　用信息丈量世界　/　60
3.2.1　香农与信息论　/　60
3.2.2　一条信息的价值　/　62
3.2.3　重复的信息没有价值　/　64
3.2.4　信息的熵　/　65
3.3　信息是如何交换的　/　66
3.3.1　互联网与信息交换　/　67
3.3.2　哈夫曼和有效编码　/　68
3.3.3　信息不对称与囚徒困境　/　71
3.4　信息的加密与解密　/　74
3.4.1　语言是一套密码系统　/　74
3.4.2　墙边盛开的花朵　/　75
3.4.3　可以被公开的密钥　/　76
3.5　信息里的噪声　/　79
3.5.1　信息越多结果就越准确吗　/　79
3.5.2　人工智能如何处理噪声　/　80
3.5.3　模型的泛化能力　/　82
3.5.4　欠拟合和过拟合　/　82
3.6　结语　/　84
第4章　大数据处理与挖掘　/　85
4.1　大数据概述　/　86
4.1.1　数据是描绘世界的新方式　/　86
4.1.2　大数据到底有多大　/　87
4.2　数据处理的流程和方法　/　88
4.2.1　数据收集　/　89
4.2.2　数据加工　/　90
4.2.3　数据分析　/　94
4.2.4　数据可视化　/　100
4.3　大数据改变了什么　/　103
4.3.1　经验与数据　/　103
4.3.2　时间与空间　/　105
4.3.3　记忆与理解　/　106
4.4　结语　/　107
第5章　机器是如何学习的　/　108
5.1　机器学习是什么　/　108
5.1.1　归纳与推演　/　109
5.1.2　定规则和学规则　/　110
5.1.3　算法的含义　/　112
5.2　机器学习算法　/　113
5.2.1　常见的学习方法　/　114
5.2.2　回归　/　116
5.2.3　分类　/　118
5.2.4　聚类　/　126
5.2.5　降维　/　130
5.2.6　时间序列　/　132
5.3　没有完美的算法　/　134
5.4　结语　/　135
第6章　模拟大脑的神经网络　/　137
6.1　不断演进的人工智能　/　138
6.1.1　从浅层学习到深度学习　/　139
6.1.2　萌芽、复苏、增长和爆发　/　141
6.2　机器会不会思考　/　144
6.3　深度学习算法　/　146
6.3.1　人工神经网络：模拟人脑的思考　/　146
6.3.2　卷积神经网络：让计算机“看”到世界　/　152
6.3.3　循环神经网络：如何模拟记忆功能　/　157
6.3.4　强化学习：黑森林蛋糕的秘密　/　161
6.4　场景是算法的综合应用　/　166
6.4.1　计算机如何下围棋　/　166
6.4.2　计算机如何打游戏　/　168
6.4.3　计算机如何与人对话　/　170
6.5　结语　/　177
第7章　海量运算背后的技术　/　178
7.1　不断提升的计算能力　/　178
7.1.1　计算的演进　/　179
7.1.2　今非昔比的算力　/　183
7.1.3　计算机芯片　/　184
7.2　如何完成协作计算　/　187
7.2.1　举足轻重的三篇论文　/　187
7.2.2　不可兼得的CAP定理　/　189
7.2.3　故障是不可避免的　/　191
7.3　无处不在的计算资源　/　193
7.3.1　阶段：数据大集中　/　193
7.3.2　第二阶段：资源云化　/　196
7.4　软件代码共享的好处　/　200
7.4.1　网络协议该不该公开　/　200
7.4.2　如何进行大规模协作　/　201
7.4.3　开源就是免费吗　/　202
7.5　结语　/　203
第8章　人工智能下的隐私与安全　/　204
8.1　大数据与隐私计算　/　204
8.1.1　大数据“杀熟”是怎么回事　/　205
8.1.2　大数据下的隐私计算　/　206
8.2　人工智能与算法安全　/　211
8.2.1　对抗样本的博弈　/　211
8.2.2　数据投毒和模型安全　/　215
8.2.3　眼见不一定为实　/　216
8.2.4　设备互联与智能汽车　/　216
8.2.5　网络安全攻击　/　218
8.3　如何构建防御体系　/　221
8.3.1　红蓝对抗　/　221
8.3.2　安全是平衡问题　/　222
8.3.3　人是安全的一部分　/　223
8.4　结语　/　224
第9章　未来会变成什么样子　/　225
9.1　可预见的未来　/　225
9.1.1　一个充满想象的未来　/　225
9.1.2　人工智能会不会抢走人类的工作　/　226
9.1.3　人机合作是新常态　/　227
9.1.4　人机关系在重构　/　228
9.1.5　变闲了还是变忙了　/　231
9.1.6　会生长的技术树　/　233
9.2　不可预知的未来　/　234
9.2.1　人类和计算机的区别　/　235
9.2.2　人工智能之不能　/　238
9.2.3　机器人会统治人类吗　/　240
9.2.4　人工智能电车难题　/　242
9.2.5　通用人工智能会出现吗　/　243
9.2.6　关于未来的预测　/　245
9.3　结语　/　246

【前言】

机器会有智能吗？
什么是人工智能？每个人心中都有自己的答案。
它或许是数学家眼中的机器学习算法，或许是程序员眼中的Java或Python程序代码，或许是能打败围棋世界冠军的AlphaGo，或许是能和人类对话的智能助手Siri、小度与小爱。
它或许是能跑、能跳还会翻跟斗的波士顿机器狗，或许是拥有公民身份的机器人索菲亚，或许是《变形金刚》里的大黄蜂和擎天柱、《终结者》里的杀手机器人T-800、《黑客帝国》里的人类“母体”Matrix。
当我们谈及人工智能时，总是联想到它的各种形态，还有其丰富的应用场景。人工智能给人以希望和幻想，它有着数学的底蕴、文学的色彩、哲学的魅力，它是信息科技的产物，也凝聚着人类的智慧。
那么，一台机器想要拥有“智能”，会面临哪些挑战呢？
首先，机器的智能表现在能够处理那些不太确定的事情上。想象一下，如果让计算机去做数学题，无论它的答案有多准确，我们都不会感到惊讶，因为答案是确定的，计算机只是一个算得很快的计算器。但如果计算机能与人类对话，很自然地回答人类提出的各种带有“不确定性”的问题，它似乎就有点“智能”了。
其次，机器的智能表现在能很好地处理模糊性的知识上。人和计算机处理问题的思维逻辑是不同的，人可以接受很多模糊的定义，计算机却不行。比如要给用户推荐商品，人可以基于主观感受和过往经验直接做出判断，但计算机必须把什么是“用户的喜好”用客观的数学公式定义清楚。还有，人类语言在表达时存在很大的模糊性，比如：一堆沙子至少有几粒？人长多高才不算矮？什么是好看的？悲伤是什么感觉？这些模糊问题的答案，我们很难用语言表达清楚。如果计算机可以很好地处理它们，就又有了一点“智能”了。
后，机器的智能表现在能处理那些连人类自己都无法梳理清楚的复杂规则上。试想一下，假设你不清楚计算机的运作原理，但通过计算机可以上网搜索资讯，还能通过它和远方的朋友聊天，你会想：“这是怎么实现的？”是的，电子计算机发明至今不到100年，但它的内部构造已经变得相当复杂，足以让人感到神奇。同样，当计算机能成功识别出图像中的一只猫时，你难道不想问一句“这是怎么实现的”？毕竟对我们人类来说，很难把识别猫的规则讲清楚，因为规则太复杂。如果计算机有办法很好地处理图像，它就有了自行理解这些复杂规则的“智能”。
总而言之，机器的智能表现在能处理那些不确定、模糊、复杂的问题上。那么，怎样才能判断机器已经拥有了“智能”呢？答案是，取决于人的主观判断。就是说，机器只要表现得像人一样、看上去有“智能”就行，至于它到底有没有“智能”并不重要。从这点来看，我们人类似乎已经找到了解决方案——基于信息技术、数学算法与大数据。这个方案或许是临时的，但它具有创新性。
当然，任何新技术的发展，不可避免地会影响到现有的技术环境。随着机器开始拥有“智能”，人工智能相关的安全与哲学话题也随之出现。比如：人工智能究竟有没有思想？机器会替代人类吗？人类能否把重要决策交给人工智能？这些问题似乎都在等待着答案。
新闻媒体在报道人工智能时，有时会把一些很小的研究成果描述为足以改变人类文明的伟大成就。这种夸张的报道，虽然十分吸引眼球，但也在一定程度上有意或无意地误导了大众。有些人误以为今天的人工智能已经变得无所不能，但是，如果你真正了解人工智能背后的技术原理和运作逻辑，你就会更加客观地看待人工智能。比起“科幻”，人工智能更是“科学”。
本书特色
本书希望解答一些有关人工智能的通识问题。人工智能本身是一门非常专业、复杂、抽象、跨领域的学科，学习相关专业知识需要投入大量时间和精力。对于一般人来说，重要的不是去搞懂那些专业知识，而是理解人工智能的运作逻辑，这样对每个人的生活和工作更有借鉴意义。
本书尝试用通俗易懂的语言，勾勒人工智能的全貌。换句话说，就是讲明白什么是人工智能。书中会阐述人工智能背后的技术和原理，讨论人工智能在发展过程中遇到过哪些困难，以及它们是如何解决的。本书不是关于人工智能的畅想和漫谈，也不是一本专业的教科书。秉承大道至简的原则，书中不会涉及大量数学公式和程序代码，而是把重点放在讨论人工智能的核心技术和原理上。
如何阅读本书
本书共9章，逻辑上分成三部分，总体结构如下图所示。

人工智能的基础理论部分共3章。
第1章讨论统计学和概率论。人工智能之所以被认为具有“智能”，是因为它从一开始就在想办法处理具有不确定性的问题。随着概率论和统计学等相关理论的发展，科学家们找到了应对这个不确定性世界的有效方法和解题思路。
第2章介绍数据统计的基础知识。我们知道，人工智能是基于数据的，如果数据出了问题，人工智能给出的判断也可能出错。因此，必须更加谨慎地对待基于客观数据的主观结论，避开数据“陷阱”。
第3章讲解信息论。人工智能是一种处理信息的模型。更关键的是，它用信息来消除不确定性。自20世纪以来，以香农为代表的科学家把有关信息的理论发展成一门学科，奠定了信息技术发展的理论基础。运用信息论，人们可以描述信息、度量信息、交换信息，很多有关信息的概念也有了严格的数学证明。
人工智能的核心技术部分共4章。
第4章详细介绍各种针对大数据的处理方法和分析场景。大数据不仅改变了人类过往基于经验的处事方法，也让基于数据的机器学习成为可能。简而言之，大数据赋予了人工智能“智能”。
第5章和第6章介绍人工智能的相关算法，即机器学习算法。有了机器学习算法，计算机就能自主学习数据之间的关联关系。这部分的内容较多，我们把它分成两章：第5章围绕传统的基于统计的机器学习算法，第6章围绕基于人工神经网络的深度学习算法。
第7章讨论计算机相关的信息技术。计算是数学的基础，为了应对海量数据处理挑战，人们不断提升计算机的计算速度，使用分布式技术实现并行计算，通过建设数据中心和运用虚拟化技术整合计算资源，并借助开源的方式促进软件编程的大规模协作和技术共享。
人工智能的拓展话题部分共2章。
第8章讨论人工智能安全。我们将重点关注大数据隐私和人工智能安全，比如大数据“杀熟”、隐私计算、深度伪造技术、对抗样本攻击、数据投毒攻击等热门话题和前沿技术，并讨论人工智能的攻防博弈。
第9章展望人工智能的未来。作为全书的收尾，本章会尝试回答以下问题：人工智能会抢走人类的工作吗？机器人会统治人类吗？通用人工智能会出现吗？未来到底会变成什么样子？
勘误和支持
在写作本书的过程中，本人阅读了大量的书籍、专著和论文，并尽可能引用目前比较主流的一些学术观点。因本人才疏学浅，书中内容难免出现错误和疏漏，提出的观点也可能存在局限和不足，希望读者朋友不吝指正。
如果你有任何意见和建议，请与我联系，我的邮箱是xsfree@aliyun.com。
致谢
在撰写本书的过程中，我得到了周围很多同事与朋友的帮助和支持。邱朝阳、陈路亨、胡利斌等人在看过本书部分初稿以后，提出了许多宝贵建议，在此向他们表示感谢。
写书期间，我正在参与有关智能运维国家标准的编制工作，与一大批行业内的人工智能专家、数据科学家、IT专家彻夜研讨是一件愉快的事，我从中获得了不少灵感，也拓展了认知边界。
感谢家人对我的支持，让我能在工作之余安心写书。
感谢机械工业出版社华章公司的高婧雅女士，她不仅帮我整理全书脉络，还给了我很多建议和意见，她的用心让全书的质量有了很大提升。另外要感谢所有参与本书编辑、校对、排版的朋友，没有你们就不会有本书的诞生，在此表示衷心的感谢。
后，感谢正在阅读本书的你，希望你能从中有所收获，更好地享受智能时代下的美好生活！

徐　晟