1. 这本书站在数据科学与社会科学的十字路口,教你利用数据方法增强科学洞察力;
2. 收录了大量多样化的案例,用每个人都能听懂的语言描述了一套测量世界的全新思维工具;
3. 这是一本社会科学家的“跨界指南之书”、数据科学家的“素养提升之作”。不论你是想了解大数据的10个共同特征,还是想理解大公司的道德伦理困境,这本书都值得反复翻阅;
4. 《科学》杂志、《福布斯》杂志赞誉有加。哈佛大学教授加里•金,微软研究院首席研究员邓肯•瓦茨,脸谱网数据科学家肖恩•泰勒,北京师范大学系统科学学院教授、集智俱乐部创始人张江,鼎力推荐!
我们已经见证了社交媒体、智能手机以及其他科技奇迹的诞生与进化,这些科技工具让我们能够以前所未见的规模和深度采集并处理有关人类行为的数据,从而为研究人类社会提供了一个全新的路径。这本书是一部里程碑式的作品,它将彻底改变下一代社会科学家和数据科学家探索世界的方式。
l 大数据的10个共同特征是什么?
l 如何通过数据预测美国总统大选的结果?
l 如何在短时间内对100万个星系进行分类?
l 大规模数据采集面临着怎样的道德伦理困境?
l 科技公司是否在监视我们的行为,数字时代是不是将我们带进了“全景监狱”呢?
在计算社会学这一新兴领域,作者阐述了数字革命如何扭转了社会科学家和数据科学家观察行为、提出问题、开展实验和进行大规模协作的方式,详细描述了大批真实的案例,并且划定了面临伦理挑战时需要遵循的4项原则。
这本书用全新的数据模式解锁了社会学。对社会科学家来说,它是一本跨界指南之书;对数据科学家来说,它是一本素养提升之作。
[美] 马修•萨尔加尼克(Matthew
J. Salganik)
普林斯顿大学社会学教授,同时任职于该校的信息技术政策中心、数据与机器学习中心等。《科学》杂志评价他是“纯然的计算社会学家”。他的研究方向是社会网络、计算社会学。他的研究曾被微软、脸谱网和谷歌资助,并被《纽约时报》《华尔街日报》《经济学人》《纽约客》等主流媒体报道,美国公共广播电台还专题报道过他的研究成果。
不管你是想学习以数据为基础做决策,还是单纯地想在网上卖出更多牙膏,这本书都会激起你的兴趣。此书对企业和学界非常重要的贡献在于,它探讨了如何应对社会研究中的伦理道德挑战。
——《福布斯》杂志
在这本引人入胜的书中,作者带领我们走上了一个重要的旅程,从观察、提问和记录人们的行为,到进行大规模数据采集,甚至招募成千上万的普通人、公民科学家和社会科学家密切合作。
——加里•金(Gary King),哈佛大学教授
这本书由享誉全球的计算社会学家撰写,阐述了利用数据方法增强科学洞察力的利与弊。
——邓肯•瓦茨(Ducan Watts),微软研究院首席研究员
这是一本现代社会科学的前沿之作。作者在这本书中收录了大量多样化的案例,并用每个人都能听懂的语言描述了为什么这些案例如此重要。
——肖恩•泰勒(Sean Taylor),脸谱网数据科学家
长时间以来,“社会科学是不可重复实验的”这一观点困扰着社会科学家们。然而,随着大数据和人工智能时代的到来,越来越多的传感器和应用程序正在捕获、记录越来越多的人类在线行为数据。通过众包、游戏化、人本计算的方式,我们甚至可以实施大范围的受控实验——这无疑将改变整个社会科学的研究范式。
——张江,北京师范大学系统科学学院教授、集智俱乐部创始人
前 言 // VII
第 1 章 简介
1.1 一处墨迹 // 003
1.2 欢迎来到数字时代 // 005
1.3 研究设计 // 009
1.4 本书的主题 // 010
1.5 本书梗概 // 013
第 2 章 观察行为
2.1 简介 // 019
2.2 大数据 // 020
2.3 大数据的 10 个共同特征 // 023
2.3.1 海量性 // 024
2.3.2 持续性 // 028
2.3.3 不反应性 // 030
2.3.4 不完整性 // 031
2.3.5 难以获取 // 035
2.3.6 不具代表性 // 037
2.3.7 漂移 // 042
2.3.8 算法干扰 // 044
2.3.9 脏数据 // 046
2.3.10 敏感性 // 049
2.4 研究策略 // 051
2.4.1 计数 // 052
2.4.2 预测和临近预测 // 054
2.4.3 近似实验 // 059
2.5 结论 // 071
第 3 章 提问
3.1 简介 // 077
3.2 提问与观察 // 080
3.3 调查误差总框架 // 081
3.3.1 代表性 // 084
3.3.2 测量 // 087
3.3.3 成本 // 092
3.4 向谁提问 // 092
3.5 提问的新方法 // 102
3.5.1 生态瞬时评估法 // 104
3.5.2 维基调查 // 107
3.5.3 游戏化 // 112
3.6 与大数据资源相结合的调查 // 114
3.6.1 丰富型提问 // 115
3.6.2 扩充型提问 // 121
3.7 结论 // 130
第 4 章 开展实验
4.1 简介 // 133
4.2 什么是实验 // 136
4.3 实验的两个维度:实验室 – 实地以及模拟 – 数字 // 138
4.4 超越简单实验 // 145
4.4.1 效度 // 151
4.4.2 处理效应的异质性 // 156
4.4.3 原理 // 159
4.5 使实验成为现实 // 163
4.5.1 利用现有环境开展实验 // 165
4.5.2 创建自己的实验 // 170
4.5.3 创建自己的产品 // 174
4.5.4 与有能力的组织合作 // 175
4.6 建议 // 181
4.6.1 创造零可变成本数据 // 182
4.6.2 将道德伦理融入你的设计:替代、改进和减少 //
190
4.7 结论 // 196
第 5 章 进行大规模协作
5.1 简介 // 201
5.2 人本计算 // 203
5.2.1 星系动物园 // 205
5.2.2 政治宣言的公众编码 // 212
5.2.3 结论 // 216
5.3 公开征集 // 218
5.3.1 网飞奖 // 219
5.3.2 蛋白质折叠游戏 // 222
5.3.3 公众专利评审 // 225
5.3.4 结论 // 228
5.4 分布式数据采集 // 231
5.4.1 观鸟数据库 // 232
5.4.2 照片城 // 235
5.4.3 结论 // 238
5.5 设计你自己的大规模协作项目 // 241
5.5.1 激励参与者 // 242
5.5.2 利用异质性 // 243
5.5.3 集中注意力 // 244
5.5.4 允许惊喜 // 244
5.5.5 合乎道德伦理 // 246
5.5.6 *后的设计建议 // 247
5.6 结论 // 249
第 6 章 道德伦理
6.1 简介 // 253
6.2 三个事例 // 256
6.2.1 情绪感染项目 // 256
6.2.2 “3T”项目 // 258
6.2.3 “Encore”项目 // 259
6.3 数字时代的不同 // 261
6.4 四项原则 // 267
6.4.1 对人的尊重原则 // 268
6.4.2 有利化原则 // 269
6.4.3 公正原则 // 272
6.4.4 对法律和公共利益的尊重原则 // 273
6.5 两种道德框架 // 276
6.6 困难面 // 278
6.6.1 知情同意 // 278
6.6.2 理解与管理信息化风险 // 282
6.6.3 隐私权 // 291
6.6.4 面对不确定性做出决策 // 295
6.7 实用技巧 // 299
6.7.1 机构审查委员会是底线,不是上线 // 299
6.7.2 换位思考 // 301
6.7.3 将研究伦理视作连续的而非离散的过程 //
302
6.8 结论 // 302
历史附录 // 304
第 7 章 未来
7.1 展望 // 313
7.2 未来主题 // 313
7.2.1 现成品与定制物之间的融合 // 313
7.2.2 以参与者为中心的数据采集 // 315
7.2.3 研究设计中的道德伦理 // 316
7.3 回到开始 // 317
致 谢 // 319
参考文献 // 327
星系动物园
星系动物园凝聚众多志愿者之力对100万个星系进行了分类。
星系动物园是2007年牛津大学天文学研究生凯文•肖文斯基(Kevin
Schawinski)为解决他所面临的一个问题而想到的。简单来说就是,肖文斯基对星系很感兴趣,而人们可以根据星系的形态(椭圆形或螺旋形)和颜色(蓝色或红色)对它们进行分类。当时,天文学家的传统观点是,像我们的银河系这样的螺旋星系的颜色是蓝色的(意味着年轻),而椭圆星系的颜色则是红色的(意味着年老)。肖文斯基对这一传统观点有所怀疑。他猜想,尽管上述规律一般来讲是正确的,但也可能有相当数量的星系例外,通过研究这些不符合预期规律的不同寻常的星系,他便能对星系的形成过程有所了解。
因此,为了推翻传统观点,肖文斯基需要的是大量按形态分类的星系,也就是已被划分为螺旋形或椭圆形的星系。但问题是现有的分类算法还不足以用于科学研究。换句话说,在当时,分类星系对计算机来说是一项很难的任务。因此,肖文斯基需要的是大量人工分类的星系。带着研究生的热忱,肖文斯基开始了分类工作。经过7天每天12小时的马拉松式奋战,他共对5万个星系进行了分类。尽管5万个星系听起来可能很多,但其实仅占斯隆数字天空勘测计划(Sloan Digital
Sky Survey)所拍摄的将近100万个星系的大约5%。肖文斯基意识到他需要采取一个更具扩展性的方法。
幸运的是,对星系进行分类并不需要人们接受有关天文学的高深培训,你可以很快就教会一个人如何进行星系分类。换句话说,尽管星系分类对计算机来说是一项困难的任务,对人来说却是非常简单的。因此,当肖文斯基和同学克里斯•林托特(Chris Lintott)坐在牛津大学附近的一家小酒馆时,他们想到了创建一个网站,然后让志愿者对星系的图像进行分类。几个月后,星系动物园诞生了。
在星系动物园的网站上,志愿者需接受几分钟的训练。例如,了解螺旋星系和椭圆星系的区别。完成该训练后,每个志愿者必须通过一项相对简单的考试,即正确地将15个星系中的11个进行分类,然后就能开始通过一个简单的基于网络的界面对未知星系进行真正的分类了。从志愿者到天文学家的转变在不到10分钟内就完成了,而且只需跨越*的门槛——一个简单的测试。
在一份报纸报道了该项目之后,星系动物园吸引来了*批志愿者,然后在大约6个月的时间里,项目吸引了超过10万名公民科学家,人们之所以参与是因为他们喜欢这项任务,并且想要帮助推进天文学的发展。这10万名志愿者总共贡献了4 000多万条分类信息,其中大部分分类信息是由一些相对较少的核心参与者完成的(Lintott et al. 2008)。
有雇用大学生做研究助理经验的研究人员可能会立刻对数据质量产生怀疑。尽管这种怀疑是合理的,但星系动物园这一项目表明,志愿者所贡献的数据经正确地清洗、消除偏差和整合后也能产生高质量的结果(Lintott et al. 2008)。让公众创造出专业质量数据的一个重要技巧就是重复开展,即让许多不同的人来执行相同的任务。在星系动物园这一项目中,志愿者对每个星系都贡献了大约40条分类数据,这种程度的重复率是雇用大学生做研究助理的研究人员永远都无法达到的,因为他们需要更加关注每个个体分类数据的质量。志愿者用重复弥补了他们在训练方面的欠缺。
尽管不同志愿者对同一星系进行了多重分类,但要想把这些多重分类数据结合起来以得出一个一致的分类还是很困难的。鉴于大多数人本计算项目遇到的挑战都非常相似,所以简要回顾一下星系动物园研究人员得出一致分类的三个步骤很有帮助。
首先,研究人员通过删除虚假分类清洗了数据。例如,那些反复对同一星系进行分类(如果有人试图操纵结果可能就会这么做)的人会被删除所有的分类数据。这类清洗及其他类似清洗所删除的数据约占总分类数据的4%。
然后,研究人员需要消除清洗后的分类数据中的系统偏差。通过一系列嵌入在原始项目中的偏差检测研究,例如给一些志愿者呈现黑白的而不是彩色的星系图像,研究人员发现了多个系统偏差,例如把因距离遥远而外表模糊的螺旋星系划分成椭圆星系(Bamford et al. 2009)。调整这些系统偏差非常重要,因为重复分类也无法自动消除系统偏差,重复分类只是有助于消除随机误差。
*后,研究人员需要用一种方法把消除偏差后的个体分类数据结合起来,得出一个一致的分类。将每个星系的所有分类数据结合起来的*简单的方法是选择*常见的分类数据。但这就意味着每个志愿者的权重是一样的,而研究人员则认为有些志愿者要比其他志愿者更擅长分类。因此,他们开发了一个更复杂的迭代加权程序,试图检测出*好的分类数据并赋予它们更多的权重。
因此,经过清洗、偏差消除和加权这三个步骤后,星系动物园的研究团队将4 000万条志愿者的分类数据转化成了一组一致的形态分类。在将这些形态分类与之前三次由专业天文学家进行的小规模星系分类(其中包括为星系动物园的诞生贡献了部分灵感的肖文斯基所进行的分类)进行比较后发现,它们之间的吻合度很高。因此,将志愿者的贡献整合后也能得出高质量的分类数据,而且其规模是研究人员个人无法企及的(Lintott et al. 2008)。事实上,通过对如此大量的星系进行人工分类,肖文斯基、林托特和其他相关人员发现,大约只有80%的星系是符合预期规律的,即螺旋星系是蓝色的、椭圆星系是红色的,许多论文都提及了这一发现(Fortson et al. 2011)。
至此,大家应该明白了星系动物园是如何遵循分解–运用–整合这一策略的,这一策略也被用于大多数人本计算项目。首先,把一个大问题分解成多个小问题。以星系动物园为例就是,对100万个星系进行分类这个大问题被分解成了100万个对一个星系进行分类的小问题。然后,分别运用人力对每个小问题进行操作。以星系动物园为例就是,志愿者将每个星系划分为螺旋形或椭圆形。*后,整合所有结果以得出一个一致的结果。以星系动物园为例就是,通过清洗、偏差消除和加权,得出每个星系的一致分类。尽管大多数项目都会采用这一通用的策略,但需要根据所处理的具体问题对每个步骤进行相应的调整。例如,下面这个人本计算项目采用的也是这个策略,但运用和整合这两个步骤是截然不同的。
对星系动物园的团队来说,这个项目仅仅是个开始。很快他们便意识到,尽管能对将近100万个星系进行分类,但这个规模还不足以配合新的大约能拍到100亿个星系的数字天空勘测(Kuminski et al. 2014)。要想应对从100万到100亿的增长,也就是10
000倍的增长,他们需要招募的参与者数量大致是星系动物园这个项目的10 000倍。尽管互联网上的志愿者很多,但也不是无限的。因此,研究人员意识到,如果他们想要处理数据量日益增多的数据,就需要一个新的、更具扩展性的方法。
于是,曼达•班纳吉(Manda Banerji)同肖文斯基、林托特和星系动物园团队的其他成员一起,开始教计算机进行星系分类。更具体地说就是,班纳吉利用星系动物园所创建的人工分类数据建立了一个机器学习模型,它能够根据图像特征预测星系的人工分类结果。如果该模型的预测精度很高的话,那么星系动物园的研究人员基本就能用它对无限的星系进行分类了。
班纳吉和同事方法的核心实际上和社会研究中常用的技术非常相似,尽管乍一看这种相似性可能并不明显。首先,班纳吉和同事将每张图像转化成了一组概括其性质的数字特征。例如,星系图像可以有三个特征:图像中蓝色像素点数量、像素亮度方差、非白像素比例。选择正确的特征是这一问题的重要部分,这通常需要专业领域的专业知识。这*步通常被称为特征工程,经过这一步,班纳吉和同事构建了一个数据矩阵,每一张图集都由一行和三列数据描述。根据该数据矩阵和期望输出值(例如,如采用人工分类,某一图像是否会被划分为椭圆星系),研究人员可以构建一个统计或机器学习模型,例如逻辑回归,以此根据图像的特征预测人工分类的结果。*后,研究人员可以利用该统计模型中的参数预测出新的星系的分类。在机器学习中,这种利用标签示例创建一个能标记新数据的模型的方法被称为监督式学习。
班纳吉和同事的机器学习模型的特征,比我下面这个虚构的小例子的特征要复杂得多。在这个例子中,研究人员选择“德伏古勒轴比”(de Vaucouleurs fit axial ratio)这样的性质作为特征,使用的模型也不是逻辑回归,而是一个人工神经网络。利用选择好的特征、模型和星系动物园的一致分类,她算出了每个特征的权重,然后利用这些权重对星系的分类进行预测。例如,她经过分析发现,“德伏古勒轴比”较低的图像更有可能属于螺旋星系。有了这些权重,她便能相对准确地预测一个星系的人工分类结果了。
班纳吉和同事的工作让星系动物园变成了我所说的计算机辅助人本计算系统。对这类混合系统*好的解读方式是,它们不是让人来解决问题,而是让人构建一个数据集,然后用这个数据集训练计算机来解决问题。有时,训练计算机来解决问题需要大量的示例,而获得足够数量示例的*方法就是大规模协作。这种计算机辅助方法的优点是它能让你用有限的人力处理几乎无限的数据。例如,一个拥有100万个星系的人工分类数据的研究人员可以构建一个预测模型,然后用这个模型对10亿甚至10 000亿个星系进行分类。如果星系的数量很庞大,那么这种人与计算机的混合系统将是*可能的解决办法。然而这种无限的可扩展性并不是没有成本的。构建一个能够正确预测人工分类结果的机器学习模型本身就是一个难题,但幸好已经有一些针对这一主题的优秀书籍了(Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al.
2013)。
星系动物园很好地表明了许多人本计算项目是如何逐步发展的。首先,一个研究人员会自行或与一小组研究助理一起尝试开展一个项目(例如肖文斯基*初所进行的分类)。如果这个方法在规模上不能满足要求,那么研究人员就会选择采用有许多参与者的人本计算。但在数据量达到一定规模后,单纯依靠人力就不足以解决问题了。在这种时候,研究人员就需要构建一个计算机辅助人本计算系统,利用人工分类数据训练一个基本能够处理无限数据的机器学习模型。