精通Transformer:从零开始构萨瓦斯·伊尔蒂利姆北京理工大学出版社有限责任公司9787576322279-当当网

【目录】

第1部分导论：相关领域的新发展概述、环境安装和Hello;World;应用程序
第1章从词袋到Transformer
1.1技术需求//004
1.2自然语言处理到Transformer的演变历程//005
1.3理解分布式语义//007
1.3.1词袋技术的实现//008
1.3.2克服维度问题//009
1.3.3语言建模与生成//010
1.4利用深度学012
1.4.1学嵌入//012
1.4.2循环神经网络概述//014
1.4.3长短期记忆网络和门控循环单元//015
1.4.4卷积神经网络概述//018
1.5;Transformer体系结构概述//021
1.5.1注意力机制//021
1.5.2多头注意力机制//023
1.6;在迁移学合使用Transformer//027
1.7本章小结//029
第2章;Transformer的实践操作入门
2.1技术需求//032
2.2;使用Anaconda安装Transformer//032
2.2.1在Linux操作系统中安装Anaconda//032
2.2.2在Windows操作系统中安装Anaconda//033
2.2.3在macOS操作系统中安装Anaconda//034
2.2.4;安装TensorFlow、PyTorch和Transformer//035
2.2.5;使用Google;Colab安装环境//037
2.3使用语言模型和分词器//037
2.4使用社区提供的模型//034
2.5使用基准测试和数期集//042
2.5.1重要的基准酬试//042
2.5.2使用应用程序编程接口访间数据集//0442.
o速度和内存的基准渊试//0522.7本章小结//050
第2部分;Transformer模型：从自编码模型到自回归模型
第3章;自编码语言模型3.1技术需求//060
3.2既R：一种自编码语言模型//060
3.2.1;BET语言模型预训练任务//061
3.2.2对BEHT语言模型的深人研究//062
8.3适用于任何语言的自编码语言模型训练//064
3.4与社区共享模型//073
3.5了解其他自编码模型//074
3.5.1;Alben;模型概述//074
3.5.2;RoBERTa模型//077
3.5.3;LIEACTRA模型//078
3.6;使用分词算法//079
3.6.1字节对编码//081
3.6.2;WordPiecs分词算佳//082
3.6.3_;Bentencel'iece分词算法//082
3.6,4;tokeniensp;fe//083
3.7本章小结//08%
第4章;自回归和其他语言模型4.1技术需求//090
4.2;使用自固归语言模型//091
4.2.1生成式须训练模型的介绍与训练//091
4.2.2;Transformer-XL模型//093
4.2.3%1Net模型//694
4.3;使用序列到序列模型//094
4.3.1;T5模型//095
4.3.2;BART概述//096
4.4;自到自语育模型训练//098
……
第3部分主题
第8章;使用的;Transformer
8.1技术需求//184
8.2、轻便、快速的Transformer概述//185
8.3模型规模缩减的实现//186
8.3.1;使用DistilBER行知识提炼//186
8.3.2剪枝//188
8.3.3;量化//190
8.4使用的自注意力机制//192
8.4.1固定模式下的稀疏注意力机制//192
8.4.2可学式//2
8.4.3低秩因子分解、核函数和其他方法//7
8.5;本章小结//7
第9章;跨语言和多语言建模
9.1技术需求//9
9.2翻译语言建模与跨语言知识共享//210
9.3;跨语言的语言模型和来自Transformer;的多语言双向编码器表
9.3.1;mBERT//212
9.3.2;XLM//213
9.4跨语言相似任务//216
9.4.1跨语言文本相似//216
9.4.2可视化跨语言文本相似//218
9.5跨语言分类//222
9.6跨语言零样本学226
9.7多语言模型的基本局限//229
9.8微调多语言模型的能//230
9.9本章小结//232
第10章;部署Transformer模型
10,1技术需求//234
10.2;FastAPl;Transforrmer模型服务//235
10.3;容器化API//237
10.4;使用TFX提供更快的Transfotmer模型服务//238
10.5;使用Locust行负载测试//241
10.6;木章小结//243
第11章注意力可视化与实验眼踪
11.1技术需求//245
11.2解读注意力头//246
11.2.1使用exBERT对注意力行可视化//246
11.2.2使用BentVis实现注意力头的多尺度可视化//251
11.2.3使用探测分类器理解BEBT的内部结构//259
11.3跟踪模型度量指标//259
11,3.1;使用TensorBoard;限踪模型训练过程//260
11.3.2使用W&B及时跟踪模型训练过程//263
11，4本章小结//266