计算社会学-当当网

重磅推荐

【编辑推荐】

1. 这本书站在数据科学与社会科学的十字路口，教你利用数据方法增强科学洞察力；
2. 收录了大量多样化的案例，用每个人都能听懂的语言描述了一套测量世界的全新思维工具；
3. 这是一本社会科学家的“跨界指南之书”、数据科学家的“素养提升之作”。不论你是想了解大数据的10个共同特征，还是想理解大公司的道德伦理困境，这本书都值得反复翻阅；
4. 《科学》杂志、《福布斯》杂志赞誉有加。哈佛大学教授加里•金，微软研究院首席研究员邓肯•瓦茨，脸谱网数据科学家肖恩•泰勒，北京师范大学系统科学学院教授、集智俱乐部创始人张江，鼎力推荐！

【内容简介】

我们已经见证了社交媒体、智能手机以及其他科技奇迹的诞生与进化，这些科技工具让我们能够以前所未见的规模和深度采集并处理有关人类行为的数据，从而为研究人类社会提供了一个全新的路径。这本书是一部里程碑式的作品，它将彻底改变下一代社会科学家和数据科学家探索世界的方式。

l 大数据的10个共同特征是什么？
l 如何通过数据预测美国总统大选的结果？
l 如何在短时间内对100万个星系进行分类？
l 大规模数据采集面临着怎样的道德伦理困境？
l 科技公司是否在监视我们的行为，数字时代是不是将我们带进了“全景监狱”呢？

在计算社会学这一新兴领域，作者阐述了数字革命如何扭转了社会科学家和数据科学家观察行为、提出问题、开展实验和进行大规模协作的方式，详细描述了大批真实的案例，并且划定了面临伦理挑战时需要遵循的4项原则。
这本书用全新的数据模式解锁了社会学。对社会科学家来说，它是一本跨界指南之书；对数据科学家来说，它是一本素养提升之作。

【作者简介】

[美] 马修•萨尔加尼克（Matthew J. Salganik）
普林斯顿大学社会学教授，同时任职于该校的信息技术政策中心、数据与机器学习中心等。《科学》杂志评价他是“纯然的计算社会学家”。他的研究方向是社会网络、计算社会学。他的研究曾被微软、脸谱网和谷歌资助，并被《纽约时报》《华尔街日报》《经济学人》《纽约客》等主流媒体报道，美国公共广播电台还专题报道过他的研究成果。

【媒体评论】

不管你是想学习以数据为基础做决策，还是单纯地想在网上卖出更多牙膏，这本书都会激起你的兴趣。此书对企业和学界非常重要的贡献在于，它探讨了如何应对社会研究中的伦理道德挑战。
——《福布斯》杂志

在这本引人入胜的书中，作者带领我们走上了一个重要的旅程，从观察、提问和记录人们的行为，到进行大规模数据采集，甚至招募成千上万的普通人、公民科学家和社会科学家密切合作。
——加里•金（Gary King），哈佛大学教授

这本书由享誉全球的计算社会学家撰写，阐述了利用数据方法增强科学洞察力的利与弊。
——邓肯•瓦茨（Ducan Watts），微软研究院首席研究员

这是一本现代社会科学的前沿之作。作者在这本书中收录了大量多样化的案例，并用每个人都能听懂的语言描述了为什么这些案例如此重要。
——肖恩•泰勒（Sean Taylor），脸谱网数据科学家

长时间以来，“社会科学是不可重复实验的”这一观点困扰着社会科学家们。然而，随着大数据和人工智能时代的到来，越来越多的传感器和应用程序正在捕获、记录越来越多的人类在线行为数据。通过众包、游戏化、人本计算的方式，我们甚至可以实施大范围的受控实验——这无疑将改变整个社会科学的研究范式。
——张江，北京师范大学系统科学学院教授、集智俱乐部创始人

【目录】

前言 // VII

第 1 章简介
1.1 一处墨迹 // 003
1.2 欢迎来到数字时代 // 005
1.3 研究设计 // 009
1.4 本书的主题 // 010
1.5 本书梗概 // 013

第 2 章观察行为
2.1 简介 // 019
2.2 大数据 // 020
2.3 大数据的 10 个共同特征 // 023
2.3.1 海量性 // 024
2.3.2 持续性 // 028
2.3.3 不反应性 // 030
2.3.4 不完整性 // 031
2.3.5 难以获取 // 035
2.3.6 不具代表性 // 037
2.3.7 漂移 // 042
2.3.8 算法干扰 // 044
2.3.9 脏数据 // 046
2.3.10 敏感性 // 049
2.4 研究策略 // 051
2.4.1 计数 // 052
2.4.2 预测和临近预测 // 054
2.4.3 近似实验 // 059
2.5 结论 // 071

第 3 章提问
3.1 简介 // 077
3.2 提问与观察 // 080
3.3 调查误差总框架 // 081
3.3.1 代表性 // 084
3.3.2 测量 // 087
3.3.3 成本 // 092
3.4 向谁提问 // 092
3.5 提问的新方法 // 102
3.5.1 生态瞬时评估法 // 104
3.5.2 维基调查 // 107
3.5.3 游戏化 // 112
3.6 与大数据资源相结合的调查 // 114
3.6.1 丰富型提问 // 115
3.6.2 扩充型提问 // 121
3.7 结论 // 130

第 4 章开展实验
4.1 简介 // 133
4.2 什么是实验 // 136
4.3 实验的两个维度：实验室 – 实地以及模拟 – 数字 // 138
4.4 超越简单实验 // 145
4.4.1 效度 // 151
4.4.2 处理效应的异质性 // 156
4.4.3 原理 // 159
4.5 使实验成为现实 // 163
4.5.1 利用现有环境开展实验 // 165
4.5.2 创建自己的实验 // 170
4.5.3 创建自己的产品 // 174
4.5.4 与有能力的组织合作 // 175
4.6 建议 // 181
4.6.1 创造零可变成本数据 // 182
4.6.2 将道德伦理融入你的设计：替代、改进和减少 // 190
4.7 结论 // 196

第 5 章进行大规模协作
5.1 简介 // 201
5.2 人本计算 // 203
5.2.1 星系动物园 // 205
5.2.2 政治宣言的公众编码 // 212
5.2.3 结论 // 216
5.3 公开征集 // 218
5.3.1 网飞奖 // 219
5.3.2 蛋白质折叠游戏 // 222
5.3.3 公众专利评审 // 225
5.3.4 结论 // 228
5.4 分布式数据采集 // 231
5.4.1 观鸟数据库 // 232
5.4.2 照片城 // 235
5.4.3 结论 // 238
5.5 设计你自己的大规模协作项目 // 241
5.5.1 激励参与者 // 242
5.5.2 利用异质性 // 243
5.5.3 集中注意力 // 244
5.5.4 允许惊喜 // 244
5.5.5 合乎道德伦理 // 246
5.5.6 *后的设计建议 // 247
5.6 结论 // 249

第 6 章道德伦理
6.1 简介 // 253
6.2 三个事例 // 256
6.2.1 情绪感染项目 // 256
6.2.2 “3T”项目 // 258
6.2.3 “Encore”项目 // 259
6.3 数字时代的不同 // 261
6.4 四项原则 // 267
6.4.1 对人的尊重原则 // 268
6.4.2 有利化原则 // 269
6.4.3 公正原则 // 272
6.4.4 对法律和公共利益的尊重原则 // 273
6.5 两种道德框架 // 276
6.6 困难面 // 278
6.6.1 知情同意 // 278
6.6.2 理解与管理信息化风险 // 282
6.6.3 隐私权 // 291
6.6.4 面对不确定性做出决策 // 295
6.7 实用技巧 // 299
6.7.1 机构审查委员会是底线，不是上线 // 299
6.7.2 换位思考 // 301
6.7.3 将研究伦理视作连续的而非离散的过程 // 302
6.8 结论 // 302
历史附录 // 304

第 7 章未来
7.1 展望 // 313
7.2 未来主题 // 313
7.2.1 现成品与定制物之间的融合 // 313
7.2.2 以参与者为中心的数据采集 // 315
7.2.3 研究设计中的道德伦理 // 316
7.3 回到开始 // 317

致谢 // 319
参考文献 // 327

【前言】
前言
这本书源于2005年在哥伦比亚大学一个地下室中发生的事情。那时，我还是一名研究生，正在为*终的毕业论文做一项在线实验。有关这项实验的学术部分我将在第4章进行介绍，但现在，我将告诉你们一件我的毕业论文或其他任何论文都未涉及的事情。这件事从根本上改变了我对研究的看法。一天早晨，当我来到位于地下室的工作室时，我发现一夜之间竟有约100个来自巴西的人参与了我的实验。这一简单的经历对我产生了深远的影响。当时，我的几个朋友正醉心于传统的实验室实验。我知道他们必须很费心地有偿召集并指导人们来参与实验，如果一天能有10个人完成实验，就算是不错的进展了。但对我的在线实验来说，我在睡觉的同时，就有100个人参与了实验。也许，一边睡觉一边做研究听起来美好得令人难以置信，但这是事实。技术的变化，尤其是技术从模拟时代到数字时代的转变，意味着我们可以用新的方式搜集和分析社会数据。这本书就是关于如何利用这些新方式开展社会研究的。
这本书是写给那些“想研究更多数据科学的社会科学家”和“想研究更多社会科学的数据科学家”以及对这两个领域的结合感兴趣的人的。因此，这本书的目标受众自然就不仅限于学生和教授了。尽管我目前在普林斯顿大学任职，但之前也在政府部门（美国人口调查局和技术产业领域的微软研究院）工作过，因此我知道，在大学之外同样存在着很多令人兴奋的研究。因此，只要你觉得自己正在做的是社会研究，那么无论在何处就职或使用何种技术，你都可以参阅此书。
你可能已经注意到了，这本书的语言风格和许多其他的学术著作稍有不同。这其实是我特意做的一个改变。这本书的部分内容源于我从2007年起在普林斯顿大学的社会学系带领的一个“计算社会学”（Computational Social Science）研究生研讨班，因此我希望它能反映这个研讨班的一些活力和激情。具体而言，我希望这本书能够具备以下三个特点：有帮助的、面向未来的以及乐观的。
有帮助的：我的目标是写一本对你们有帮助的书。因此，我将以坦诚的态度、非正式的写作风格，通过实例阐述我的观点。我*想传达的是一种特定的思考社会研究的方式，而经验告诉我，传达这一思考方式的*好的方法就是采取非正式的写作风格并列举大量例子。此外，在本书的参考文献中，有一个部分叫“拓展阅读”，它旨在帮你过渡到有关我所介绍的多个主题的更加详细、更加专业的内容上。*后，我希望此书能对你们自己开展研究以及评估别人的研究有所帮助。
面向未来的：我希望这本书能帮助你利用现有的以及未来将出现的数字系统开展社会研究。我是从2004年开始做这类研究的，这期间数字系统发生了诸多变化，我坚信在你们的职业生涯中，你们也会感受到数字系统的许多变化。因此，要想让这本书“以不变应万变”，就要做到“抽象”。例如，这本书不会教你如何使用现有的推特应用程序界面（Twitter API），相反，它会教你如何受益于大数据资源（第2章）。这本书不会详细告诉你如何利用亚马逊土耳其机器人（Amazon Mechanical Turk，以下简称机器人MTurk）开展实验步骤，相反，它将教你如何设计和解读依赖于数字时代基础设施的实验（第4章）。通过采用这种抽象化的手法，我希望这本书能够成为一本主题适时、经得起时间考验的书。
乐观的：本书涉及两个群体——社会科学家和数据科学家，他们有着截然不同的背景和兴趣。除了书中将要介绍的科学方面的差异以外，我还发现，这两个群体看待事物的态度也是不同的。数据科学家一般而言是满怀希望的，而社会科学家一般而言是更具批判性的。也就是说，同样是半杯水，数据科学家看到的是还有半杯水，而社会科学家看到的则是杯子有一半已经空了。在本书中，我将采取数据科学家的乐观态度。因此，在描述相关实例时，我将告诉你们在我看来这些例子的可取之处。当然，鉴于没有研究是完美的，我也会指出它们的问题所在，但我会尽力用乐观积极的方式指出。我不会为批判而批判，我的批判是为了能让你们设计出更好的研究。
我们仍处于数字时代社会研究的早期阶段，但我已经发现了一些普遍存在的误解，它们的普遍程度让我觉得有必要在前言中对其进行说明。就数据科学家而言，我发现他们有两个常见的误解。*个是认为数据越多越有利于解决问题。但对社会研究来说，我的经验告诉我并不是这样的。事实上，对社会研究来说，好的数据似乎要比更多的数据更有帮助。第二个是数据科学家通常认为社会科学只不过是一堆围绕常识的花言巧语罢了。当然，作为一名社会科学家，更确切地说是社会学家，我不同意这样的观点。聪明的人长期以来一直在努力理解人类的行为，因此忽视这一努力所取得的成果似乎是不明智的。我希望通过这本书，以一种易于理解的方式和你们分享其中的一些成果。
就社会科学家而言，我发现他们也有两个常见的误解。*个是有些社会科学家会因为少数不真实的数据而彻底否定使用数字时代的工具开展社会研究这一观念。如果你正在读这本书，那你可能已经读过许多平庸地或错误地（或两种方式都有）使用社交媒体数据的论文。我也读过。但是如果因为这些论文就得出结论，说数字时代的社会研究都是不好的，这将是一个严重的错误。事实上，你可能也读过许多平庸地或错误地使用调查数据的论文，但你并没有因此而否定所有使用调查数据的论文。这是因为你知道，也有使用调查数据并且做得很不错的研究。而我将通过这本书告诉你们，使用数字时代的工具并且做得很不错的研究也是有的。
我所发现的社会科学家的第二个常见误解是容易将现在和未来混淆。当我们对数字时代的社会研究，即我在本书中将探讨的研究，进行评估时，思考以下两个截然不同的问题至关重要：“这类研究现在做得怎么样”以及“这类研究将来会做得怎么样”。研究人员会被训练来回答*个问题，但对这本书而言，我认为更重要的是第二个问题。也就是说，尽管数字时代的社会研究尚未做出巨大的、改变范式的贡献，但数字时代社会研究的进步速度快得惊人。因此，相比于其目前的发展水平，它的变化速度更让我感到兴奋不已。
尽管上一段似乎是在告诉你们，数字时代的社会研究可能会在未来的某个时间变得相当成功，但我的目标并不是向你们推销任何特定类型的研究。我个人并未持有推特（Twitter）、脸谱网（Facebook）、谷歌（Google）、微软（Microsoft）、苹果（Apple）或其他任何科技公司的股份。但是，为了做到充分披露，我应该告诉你们我曾在微软、谷歌和脸谱网工作过或是接受过其研究经费赞助。因此，在整本书中，我的目标是让自己做一个可信的叙述者，告诉你们所有可能的令人兴奋不已的新事物，同时引导你们避开一些我曾看到有人掉进去的陷阱（有的我自己也曾掉进去过）。
社会科学和数据科学的交叉学科有时会被称为“计算社会学”。有些人认为这是一个技术领域，但这本书并不是传统意义上的技术图书。例如，这本书的正文中并没有公式。之所以选择这样的方式，是因为我想呈现对数字时代社会研究的一个全面的看法，其中包括大数据资源、调查、实验、大规模协作和道德伦理。但事实证明，涵盖所有这些主题并提供每个主题中详细的技术细节是不可能的。相反，我会在本书参考文献中的“拓展阅读”里推荐更多的技术资料。换句话说，这本书不是为了教你如何做某种特定的计算，而是为了改变你对社会研究的思考方式而写的。
【免费在线读】

星系动物园

星系动物园凝聚众多志愿者之力对100万个星系进行了分类。
星系动物园是2007年牛津大学天文学研究生凯文•肖文斯基（Kevin Schawinski）为解决他所面临的一个问题而想到的。简单来说就是，肖文斯基对星系很感兴趣，而人们可以根据星系的形态（椭圆形或螺旋形）和颜色（蓝色或红色）对它们进行分类。当时，天文学家的传统观点是，像我们的银河系这样的螺旋星系的颜色是蓝色的（意味着年轻），而椭圆星系的颜色则是红色的（意味着年老）。肖文斯基对这一传统观点有所怀疑。他猜想，尽管上述规律一般来讲是正确的，但也可能有相当数量的星系例外，通过研究这些不符合预期规律的不同寻常的星系，他便能对星系的形成过程有所了解。
因此，为了推翻传统观点，肖文斯基需要的是大量按形态分类的星系，也就是已被划分为螺旋形或椭圆形的星系。但问题是现有的分类算法还不足以用于科学研究。换句话说，在当时，分类星系对计算机来说是一项很难的任务。因此，肖文斯基需要的是大量人工分类的星系。带着研究生的热忱，肖文斯基开始了分类工作。经过7天每天12小时的马拉松式奋战，他共对5万个星系进行了分类。尽管5万个星系听起来可能很多，但其实仅占斯隆数字天空勘测计划（Sloan Digital Sky Survey）所拍摄的将近100万个星系的大约5%。肖文斯基意识到他需要采取一个更具扩展性的方法。
幸运的是，对星系进行分类并不需要人们接受有关天文学的高深培训，你可以很快就教会一个人如何进行星系分类。换句话说，尽管星系分类对计算机来说是一项困难的任务，对人来说却是非常简单的。因此，当肖文斯基和同学克里斯•林托特（Chris Lintott）坐在牛津大学附近的一家小酒馆时，他们想到了创建一个网站，然后让志愿者对星系的图像进行分类。几个月后，星系动物园诞生了。
在星系动物园的网站上，志愿者需接受几分钟的训练。例如，了解螺旋星系和椭圆星系的区别。完成该训练后，每个志愿者必须通过一项相对简单的考试，即正确地将15个星系中的11个进行分类，然后就能开始通过一个简单的基于网络的界面对未知星系进行真正的分类了。从志愿者到天文学家的转变在不到10分钟内就完成了，而且只需跨越*的门槛——一个简单的测试。
在一份报纸报道了该项目之后，星系动物园吸引来了*批志愿者，然后在大约6个月的时间里，项目吸引了超过10万名公民科学家，人们之所以参与是因为他们喜欢这项任务，并且想要帮助推进天文学的发展。这10万名志愿者总共贡献了4 000多万条分类信息，其中大部分分类信息是由一些相对较少的核心参与者完成的（Lintott et al. 2008）。
有雇用大学生做研究助理经验的研究人员可能会立刻对数据质量产生怀疑。尽管这种怀疑是合理的，但星系动物园这一项目表明，志愿者所贡献的数据经正确地清洗、消除偏差和整合后也能产生高质量的结果（Lintott et al. 2008）。让公众创造出专业质量数据的一个重要技巧就是重复开展，即让许多不同的人来执行相同的任务。在星系动物园这一项目中，志愿者对每个星系都贡献了大约40条分类数据，这种程度的重复率是雇用大学生做研究助理的研究人员永远都无法达到的，因为他们需要更加关注每个个体分类数据的质量。志愿者用重复弥补了他们在训练方面的欠缺。
尽管不同志愿者对同一星系进行了多重分类，但要想把这些多重分类数据结合起来以得出一个一致的分类还是很困难的。鉴于大多数人本计算项目遇到的挑战都非常相似，所以简要回顾一下星系动物园研究人员得出一致分类的三个步骤很有帮助。
首先，研究人员通过删除虚假分类清洗了数据。例如，那些反复对同一星系进行分类（如果有人试图操纵结果可能就会这么做）的人会被删除所有的分类数据。这类清洗及其他类似清洗所删除的数据约占总分类数据的4%。
然后，研究人员需要消除清洗后的分类数据中的系统偏差。通过一系列嵌入在原始项目中的偏差检测研究，例如给一些志愿者呈现黑白的而不是彩色的星系图像，研究人员发现了多个系统偏差，例如把因距离遥远而外表模糊的螺旋星系划分成椭圆星系（Bamford et al. 2009）。调整这些系统偏差非常重要，因为重复分类也无法自动消除系统偏差，重复分类只是有助于消除随机误差。
*后，研究人员需要用一种方法把消除偏差后的个体分类数据结合起来，得出一个一致的分类。将每个星系的所有分类数据结合起来的*简单的方法是选择*常见的分类数据。但这就意味着每个志愿者的权重是一样的，而研究人员则认为有些志愿者要比其他志愿者更擅长分类。因此，他们开发了一个更复杂的迭代加权程序，试图检测出*好的分类数据并赋予它们更多的权重。
因此，经过清洗、偏差消除和加权这三个步骤后，星系动物园的研究团队将4 000万条志愿者的分类数据转化成了一组一致的形态分类。在将这些形态分类与之前三次由专业天文学家进行的小规模星系分类（其中包括为星系动物园的诞生贡献了部分灵感的肖文斯基所进行的分类）进行比较后发现，它们之间的吻合度很高。因此，将志愿者的贡献整合后也能得出高质量的分类数据，而且其规模是研究人员个人无法企及的（Lintott et al. 2008）。事实上，通过对如此大量的星系进行人工分类，肖文斯基、林托特和其他相关人员发现，大约只有80%的星系是符合预期规律的，即螺旋星系是蓝色的、椭圆星系是红色的，许多论文都提及了这一发现（Fortson et al. 2011）。
至此，大家应该明白了星系动物园是如何遵循分解–运用–整合这一策略的，这一策略也被用于大多数人本计算项目。首先，把一个大问题分解成多个小问题。以星系动物园为例就是，对100万个星系进行分类这个大问题被分解成了100万个对一个星系进行分类的小问题。然后，分别运用人力对每个小问题进行操作。以星系动物园为例就是，志愿者将每个星系划分为螺旋形或椭圆形。*后，整合所有结果以得出一个一致的结果。以星系动物园为例就是，通过清洗、偏差消除和加权，得出每个星系的一致分类。尽管大多数项目都会采用这一通用的策略，但需要根据所处理的具体问题对每个步骤进行相应的调整。例如，下面这个人本计算项目采用的也是这个策略，但运用和整合这两个步骤是截然不同的。
对星系动物园的团队来说，这个项目仅仅是个开始。很快他们便意识到，尽管能对将近100万个星系进行分类，但这个规模还不足以配合新的大约能拍到100亿个星系的数字天空勘测（Kuminski et al. 2014）。要想应对从100万到100亿的增长，也就是10 000倍的增长，他们需要招募的参与者数量大致是星系动物园这个项目的10 000倍。尽管互联网上的志愿者很多，但也不是无限的。因此，研究人员意识到，如果他们想要处理数据量日益增多的数据，就需要一个新的、更具扩展性的方法。
于是，曼达•班纳吉（Manda Banerji）同肖文斯基、林托特和星系动物园团队的其他成员一起，开始教计算机进行星系分类。更具体地说就是，班纳吉利用星系动物园所创建的人工分类数据建立了一个机器学习模型，它能够根据图像特征预测星系的人工分类结果。如果该模型的预测精度很高的话，那么星系动物园的研究人员基本就能用它对无限的星系进行分类了。
班纳吉和同事方法的核心实际上和社会研究中常用的技术非常相似，尽管乍一看这种相似性可能并不明显。首先，班纳吉和同事将每张图像转化成了一组概括其性质的数字特征。例如，星系图像可以有三个特征：图像中蓝色像素点数量、像素亮度方差、非白像素比例。选择正确的特征是这一问题的重要部分，这通常需要专业领域的专业知识。这*步通常被称为特征工程，经过这一步，班纳吉和同事构建了一个数据矩阵，每一张图集都由一行和三列数据描述。根据该数据矩阵和期望输出值（例如，如采用人工分类，某一图像是否会被划分为椭圆星系），研究人员可以构建一个统计或机器学习模型，例如逻辑回归，以此根据图像的特征预测人工分类的结果。*后，研究人员可以利用该统计模型中的参数预测出新的星系的分类。在机器学习中，这种利用标签示例创建一个能标记新数据的模型的方法被称为监督式学习。
班纳吉和同事的机器学习模型的特征，比我下面这个虚构的小例子的特征要复杂得多。在这个例子中，研究人员选择“德伏古勒轴比”（de Vaucouleurs fit axial ratio）这样的性质作为特征，使用的模型也不是逻辑回归，而是一个人工神经网络。利用选择好的特征、模型和星系动物园的一致分类，她算出了每个特征的权重，然后利用这些权重对星系的分类进行预测。例如，她经过分析发现，“德伏古勒轴比”较低的图像更有可能属于螺旋星系。有了这些权重，她便能相对准确地预测一个星系的人工分类结果了。
班纳吉和同事的工作让星系动物园变成了我所说的计算机辅助人本计算系统。对这类混合系统*好的解读方式是，它们不是让人来解决问题，而是让人构建一个数据集，然后用这个数据集训练计算机来解决问题。有时，训练计算机来解决问题需要大量的示例，而获得足够数量示例的*方法就是大规模协作。这种计算机辅助方法的优点是它能让你用有限的人力处理几乎无限的数据。例如，一个拥有100万个星系的人工分类数据的研究人员可以构建一个预测模型，然后用这个模型对10亿甚至10 000亿个星系进行分类。如果星系的数量很庞大，那么这种人与计算机的混合系统将是*可能的解决办法。然而这种无限的可扩展性并不是没有成本的。构建一个能够正确预测人工分类结果的机器学习模型本身就是一个难题，但幸好已经有一些针对这一主题的优秀书籍了（Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013）。
星系动物园很好地表明了许多人本计算项目是如何逐步发展的。首先，一个研究人员会自行或与一小组研究助理一起尝试开展一个项目（例如肖文斯基*初所进行的分类）。如果这个方法在规模上不能满足要求，那么研究人员就会选择采用有许多参与者的人本计算。但在数据量达到一定规模后，单纯依靠人力就不足以解决问题了。在这种时候，研究人员就需要构建一个计算机辅助人本计算系统，利用人工分类数据训练一个基本能够处理无限数据的机器学习模型。