动手学深度学习 PyTorch版人民邮电出版社-当当网

店铺推荐

【推荐语】

·深度学习领域重磅作品《动手学深度学习》重磅推出PyTorch版本；

·李沐、阿斯顿·张等大咖作者强强联合，精心编撰；

·全球400多所大学采用的教科书，提供视频课程、教学PPT、习题，方便教师授课与学生自学；

·能运行、可讨论的深度学习入门书，可在线运行源码并与作译者实时讨论。

【作者】

作者简介：阿斯顿·张（Aston Zhang），亚马逊资深科学家，美国伊利诺伊大学香槟分校计算机科学博士，统计学和计算机科学双硕士。他专注于机器学习和自然语言处理的研究，荣获深度学习国际学术会议ICLR杰出论文奖、ACM UbiComp杰出论文奖以及ACM SenSys论文奖提名。他担任过EMNLP领域主席和AAAI资深程序委员。扎卡里·C. 立顿（Zachary C. Lipton），美国卡内基梅隆大学机器学习和运筹学助理教授，并在海因茨公共政策学院以及软件和社会系统系担任礼节性任命。他领导着近似正确机器智能（ACMI）实验室，研究涉及核心机器学习方法、其社会影响以及包括临床医学和自然语言处理在内的各种应用领域。他目前的研究重点包括处理各种因果结构下分布变化的稳健和自适应算法、超越预测为决策提供信息（包括应对已部署模型的战略响应）、医学诊断和预后预测、算法公平性和可解释性的基础。他是“Approximately Correct”博客的创始人，也是讽刺性漫画“Superheroes of Deep Learning”的合著者。李沐（Mu Li），亚马逊资深首席科学家（Senior Principal Scientist），美国加利福尼亚大学伯克利分校、斯坦福大学客座助理教授，美国卡内基梅隆大学计算机系博士。他曾任机器学习创业公司Marianas Labs的CTO和百度深度学习研究院的主任研发架构师。他专注于机器学习系统和机器学习算法的研究。他在理论与应用、机器学习与操作系统等多个领域的学术会议上发表过论文，被引用上万次。亚历山大·J. 斯莫拉(Alexander J. Smola)，亚马逊副总裁/杰出科学家，德国柏林工业大学计算机科学博士。他曾在澳大利亚国立大学、美国加利福尼亚大学伯克利分校和卡内基梅隆大学任教。他发表过超过300篇学术论文，并著有5本书，其论文及书被引用超过15万次。他的研究兴趣包括深度学习、贝叶斯非参数、核方法、统计建模和可扩展算法。译者简介：何孝霆（Xiaoting He），亚马逊应用科学家，中国科学院软件工程硕士。他专注于对深度学习的研究，特别是自然语言处理的应用（包括语言模型、AIOps、OCR），相关工作落地于众多企业。他担任过ACL、EMNLP、NAACL、EACL等学术会议的程序委员或审稿人。瑞潮儿·胡（Rachel Hu），亚马逊应用科学家，美国加利福尼亚大学伯克利分校统计学硕士，加拿大滑铁卢大学数学学士。她致力于将机器学习应用于现实世界的产品。她也是亚马逊人工智能团队的讲师，教授自然语言处理、计算机视觉和机器学习商业应用等课程。她已向累计1000余名亚马逊工程师教授机器学习，其公开课程视频在YouTube和哔哩哔哩上广受好评。

【内容】

本书是《动手学深度学习》的重磅升级版本，选用经典的PyTorch深度学习框架，旨在向读者交付更为便捷的有关深度学习的交互式学习体验。
本书重新修订《动手学深度学习》的所有内容，并针对技术的发展，新增注意力机制、预训练等内容。本书包含15章，第一部分介绍深度学习的基础知识和预备知识，并由线性模型引出最简单的神经网络——多层感知机；第二部分阐述深度学习计算的关键组件、卷积神经网络、循环神经网络、注意力机制等大多数现代深度学习应用背后的基本工具；第三部分讨论深度学习中常用的优化算法和影响深度学习计算性能的重要因素，并分别列举深度学习在计算机视觉和自然语言处理中的重要应用。
本书同时覆盖深度学习的方法和实践，主要面向在校大学生、技术人员和研究人员。阅读本书需要读者了解基本的Python编程知识及预备知识中描述的线性代数、微分和概率等基础知识。

【目录】

对本书的赞誉
前言
译者简介
学习环境配置
资源与支持
主要符号表
第1章引言1
1.1日常生活中的机器学习2
1.2机器学习中的关键组件3
1.2.1数据3
1.2.2模型4
1.2.3目标函数4
1.2.4优化算法5
1.3各种机器学习问题5
1.3.1监督学习5
1.3.2无监督学习11
1.3.3与环境互动11
1.3.4强化学习12
1.4起源13
1.5深度学习的发展15
1.6深度学习的成功案例16
1.7特点17
第2章预备知识20
2.1数据操作20
2.1.1入门21
2.1.2运算符22
2.1.3广播机制23
2.1.4索引和切片24
2.1.5节省内存24
2.1.6转换为其他Python对象25
2.2数据预处理26
2.2.1读取数据集26
2.2.2处理缺失值26
2.2.3转换为张量格式27
2.3线性代数27
2.3.1标量28
2.3.2向量28
2.3.3矩阵29
2.3.4张量30
2.3.5张量算法的基本性质31
2.3.6降维32
2.3.7点积33
2.3.8矩阵-向量积33
2.3.9矩阵-矩阵乘法34
2.3.10范数35
2.3.11关于线性代数的更多信息36
2.4微积分37
2.4.1导数和微分37
2.4.2偏导数40
2.4.3梯度41
2.4.4链式法则41
2.5自动微分42
2.5.1一个简单的例子42
2.5.2非标量变量的反向传播43
2.5.3分离计算43
2.5.4Python控制流的梯度计算44
2.6概率44
2.6.1基本概率论45
2.6.2处理多个随机变量48
2.6.3期望和方差50
2.7查阅文档51
2.7.1查找模块中的所有函数和类51
2.7.2查找特定函数和类的用法52
第3章线性神经网络54
3.1线性回归54
3.1.1线性回归的基本元素54
3.1.2向量化加速57
3.1.3正态分布与平方损失58
3.1.4从线性回归到深度网络60
3.2线性回归的从零开始实现61
3.2.1生成数据集62
3.2.2读取数据集63
3.2.3初始化模型参数63
3.2.4定义模型64
3.2.5定义损失函数64
3.2.6定义优化算法64
3.2.7训练64
3.3线性回归的简洁实现66
3.3.1生成数据集66
3.3.2读取数据集66
3.3.3定义模型67
3.3.4初始化模型参数67
3.3.5定义损失函数68
3.3.6定义优化算法68
3.3.7训练68
3.4softmax回归69
3.4.1分类问题69
3.4.2网络架构70
3.4.3全连接层的参数开销70
3.4.4softmax运算71
3.4.5小批量样本的向量化71
3.4.6损失函数72
3.4.7信息论基础73
3.4.8模型预测和评估74
3.5图像分类数据集74
3.5.1读取数据集75
3.5.2读取小批量76
3.5.3整合所有组件76
3.6softmax回归的从零开始实现77
3.6.1初始化模型参数77
3.6.2定义softmax操作78
3.6.3定义模型78
3.6.4定义损失函数79
3.6.5分类精度79
3.6.6训练80
3.6.7预测82
3.7softmax回归的简洁实现83
3.7.1初始化模型参数83
3.7.2重新审视softmax的实现84
3.7.3优化算法84
3.7.4训练84
第4章多层感知机86
4.1多层感知机86
4.2多层感知机的从零开始实现92
4.3多层感知机的简洁实现94
模型94
4.4模型选择、欠拟合和过拟合95
4.5权重衰减103
4.6暂退法108
4.7前向传播、反向传播和计算图112
4.8数值稳定性和模型初始化115
4.9环境和分布偏移119
4.10实战Kale比赛：预测房价127
第5章深度学习计算136
5.1层和块136
5.2参数管理141
5.3延后初始化145
实例化网络146
5.4自定义层146
5.5读写文件148
5.6PU150
第6章卷积神经网络155
6.1从全连接层到卷积155
6.2图像卷积159
6.3填充和步幅164
6.4多输入多输出通道166
6.5汇聚层170
6.6卷积神经网络（LeNet）173
第7章现代卷积神经网络178
7.1深度卷积神经网络（AlexNet）178
7.2使用块的网络（V）184
7.3网络中的网络（NiN）187
7.4含并行连接的网络（ooLeNet）190
7.5批量规范化194
7.6残差网络（ResNet）200
7.7稠密连接网络（DenseNet）205
第8章循环神经网络209
8.1序列模型209
8.2文本预处理216
8.3语言模型和数据集219
8.4循环神经网络226
8.5循环神经网络的从零开始实现230
8.6循环神经网络的简洁实现237
8.7通过时间反向传播239
第9章现代循环神经网络244
9.1门控循环单元（RU）244
9.2长短期记忆网络（LSTM）249
9.3深度循环神经网络254
9.4双向循环神经网络256
9.5机器翻译与数据集260
9.6编码器-解码器架构265
9.7序列到序列学习（seq2seq）267
9.8束搜索275
第10章注意力机制278
10.1注意力提示278
10.2注意力汇聚：Nadaraya-Watson核回归281
10.3注意力评分函数287
10.4Bahdanau注意力291
10.5多头注意力295
10.6自注意力和位置编码298
10.7Transformer302
第11章优化算法311
11.1优化和深度学习311
11.2凸性315
11.3梯度下降322
11.4随机梯度下降329
11.5小批量随机梯度下降334
11.6动量法341
11.7Adarad算法348
11.8RMSProp算法353
11.9Adadelta算法356
11.10Adam算法358
11.11学习率调度器361
第12章计算性能369
12.1编译器和解释器369
12.2异步计算372
通过后端异步处理373
12.3自动并行375
12.4硬件378
12.5多PU训练388
12.6多PU的简洁实现394
12.7参数服务器397
第13章计算机视觉404
13.1图像增广404
13.2微调410
13.3目标检测和边界框415
13.4锚框417
13.5多尺度目标检测427
13.6目标检测数据集430
13.7单发多框检测（SSD）433
13.8区域卷积神经网络（R-CNN）系列441
13.9语义分割和数据集445
13.10转置卷积450
13.11全卷积网络453
13.12风格迁移458
13.13实战Kale竞赛：图像分类（CIFAR-10）464
13.14实战Kale竞赛：狗的品种识别（ImaeNetDos）470
第14章自然语言处理：预训练476
14.1词嵌入（word2vec）477
14.2近似训练480
14.3用于预训练词嵌入的数据集482
14.4预训练word2vec488
14.5全局向量的词嵌入（GloVe）491
14.6子词嵌入494
14.7词的相似度和类比任务497
14.8来自Transformer的双向编码器表示（BERT）500
14.9用于预训练BERT的数据集507
14.10预训练BERT512
第15章自然语言处理：应用515
15.1情感分析及数据集516
15.2情感分析：使用循环神经网络518
15.3情感分析：使用卷积神经网络521
15.4自然语言推断与数据集526
15.5自然语言推断：使用注意力530
15.6针对序列级和词元级应用微调BERT535
15.7自然语言推断：微调BERT538
附录A深度学习工具543
A.1使用Jupyter记事本543
A.1.1在本地编辑和运行代码543
A.1.2高级选项545
A.2使用AmazonSaeMaker546
A.2.1注册547
A.2.2创建SaeMaker实例547
A.2.3运行和停止实例548
A.2.4更新Notebook548
A.3使用AmazonEC2实例549
A.3.1创建和运行EC2实例549
A.3.2安装CUDA553
A.3.3安装库以运行代码553
A.3.4远程运行Jupyter记事本554
A.3.5关闭未使用的实例554
A.4选择服务器和PU555
A.4.1选择服务器555
A.4.2选择PU556
A.5为本书做贡献558
A.5.1提交微小更改558
A.5.2大量文本或代码修改559
A.5.3提交主要更改559
参考文献562