高级机器学习算法实战-当当网

重磅推荐

【产品特色】

【编辑推荐】

编辑推荐
●Excel中构建算法，清晰看到算法实现
●亲自动手构建算法理解算法如何工作
●通过实战项目掌握如何更好调整模型
●本书在理解算法如何工作和如何更好地调整模型之间架起一座桥梁

本书将帮助你掌握开发主要机器学习模型的技能，包括监督和无监督学习（其中包括线性/对率回归）、决策树、随机森林、梯度提升机（GBM）、神经网络、k均值聚类、主成分分析和推荐系统。
你将通过应用于文本挖掘的CNN、RNN和Word2vec接触到*新的深度学习，并学习相关理论和案例研究，如情感分类、欺诈检测、推荐系统和图像识别等，以便获得工业中使用的绝大多数机器学习算法的*佳理论和实践。除了学习算法，你还将接触到在所有主要云服务提供商上运行的机器学习模型。

你将会学到：
●深入了解主要机器学习和深度学习算法
●充分认识构建模型时要避免的陷阱
●掌握在云端实现机器学习算法
●通过研究算法案例开展实战
●掌握集成学习的技巧来构建更精确的模型
●夯实Python、R编程和Keras深度学习框架基础技能

【内容简介】

本书在理解算法如何工作和如何更好地调整模型之间架起一座桥梁。本书将帮助你掌握开发主要机器学习模型的技能，包括监督和无监督学习（其中包括线性/对率回归）、决策树、随机森林、梯度提升机（GBM）、神经网络、k均值聚类、主成分分析和推荐系统。
你将通过应用于文本挖掘的CNN、RNN和Word2vec接触到*新的深度学习，并学习相关理论和案例研究，如情感分类、欺诈检测、推荐系统和图像识别等，以便获得工业中使用的绝大多数机器学习算法的*佳理论和实践。除了学习算法，你还将接触到在所有主要云服务提供商上运行的机器学习模型。
本书适合从事AI行业的工程师，以及希望从事数据科学工作的IT人员阅读，并可以供数据科学家工作时参考使用。

【作者简介】

作者简介
V Kishore Ayyadevara对任何有关数据的东西都充满热情。十多年来，他一直致力于技术、数据和机器学习的交叉领域，以便能够识别、沟通和解决业务问题。
他曾在美国运通（American Express）公司的风险管理部门和亚马逊公司的供应链分析团队中工作，目前正在领导一家初创公司的数据产品开发工作，负责实施各种分析解决方案并建立强大的数据科学团队。
Kishore是一个积极的学习者，他的兴趣包括识别可以使用数据解决的业务问题，简化数据科学中的复杂性，以及跨领域转移技术以实现可量化的业务结果。

【目录】

目录
译者序
原书前言
作者简介
技术评审员简介
第1章机器学习基础
1.1回归和分类
1.1.1训练数据和测试数据
1.1.2对于验证数据集的需求
1.1.3精度测量
1.1.4AUC值和ROC曲线
1.2无监督学习 //
1.3建立模型的典型方法
1.3.1数据从哪里获取
1.3.2需要获取哪些数据
1.3.3数据预处理
1.3.4特征交互
1.3.5特征生成
1.3.6建立模型
1.3.7模型生产化
1.3.8构建、部署、测试和迭代
1.4总结
第2章线性回归
2.1线性回归介绍
2.1.1变量：自变量和因变量
2.1.2相关性
2.1.3因果关系
2.2简单线性回归与多元线性回归
2.3形式化简单线性回归
2.3.1偏差项
2.3.2斜率
2.4求解一个简单线性回归
2.5求解简单线性回归更通用的方法
2.5.1平方差总和小化
2.5.2求解公式
2.6简单线性回归的工作细节
2.6.1让简单线性回归复杂化一点
2.6.2达到优系数值
2.6.3方均根误差介绍
2.7在R中运行简单线性回归
2.7.1残差
2.7.2系数
2.7.3残差（残余偏差）的SSE
2.7.4零偏差
2.7.5R平方
2.7.6F统计量
2.8在Python中运行简单线性回归
2.9简单线性回归的常见缺陷
2.10多元线性回归
2.10.1多元线性回归的工作细节
2.10.2R中的多元线性回归
2.10.3Python中的多元线性回归
2.10.4模型中的非重要变量问题
2.10.5多重共线性问题
2.10.6多重共线性的数学直觉
2.10.7有关多元线性回归的其他注意事项
2.11线性回归的假设
2.12总结
第3章对数几率回归
3.1为什么线性回归对离散结果无效
3.2一个更普遍的解决方案：Sigmoid曲线
3.2.1形式化Sigmoid曲线（Sigmoid激活）
3.2.2从Sigmoid曲线到对率回归
3.2.3对率回归的解释
3.2.4对率回归的工作细节
3.2.5估算误差
3.2.6小二乘法与线性假设
3.3在R中运行对率回归
3.4在Python中运行对率回归
3.5确定兴趣的度量
3.6常见陷阱
3.6.1预测和事件发生之间的时间
3.6.2自变量中的异常值
3.7总结
第4章决策树
4.1决策树的构成部分
4.2存在多个离散自变量的分类决策树
4.2.1信息增益
4.2.2计算不确定性：熵
4.2.3计算信息增益
4.2.4原始数据集中的不确定性
4.2.5衡量不确定性的改善
4.2.6哪些特定值进入左侧或右侧节点
4.2.7分裂过程何时停止
4.3连续自变量的分类决策树
4.4有多个自变量时的分类决策树
4.5存在连续自变量和离散自变量时的分类决策树
4.6如果响应变量是连续的怎么办
4.6.1连续因变量与多个连续自变量
4.6.2连续因变量与离散自变量
4.6.3连续因变量与离散、连续自变量
4.7在R中实现决策树
4.8在Python中实现决策树
4.9创建树的常见技术
4.10可视化树的构建
4.11异常值对决策树的影响
4.12总结
第5章随机森林
5.1一个随机森林的场景
5.1.1Bagging
5.1.2随机森林的工作细节
5.2在R中实现随机森林
5.2.1随机森林中的参数调整
5.2.2树的深度对AUC的影响
5.3在Python中实现随机森林
5.4总结
第6章梯度提升机
6.1梯度提升机介绍
6.2GBM的工作细节
6.3收缩率
6.4AdaBoost
6.4.1AdaBoost理论
6.4.2AdaBoost的工作细节
6.5GBM的附加功能
6.6在Python中实现GBM
6.7在R中实现GBM
6.8总结
第7章人工神经网络
7.1神经网络的结构
7.2训练神经网络的工作细节
7.2.1前向传播
7.2.2应用激活函数
7.2.3反向传播
7.2.4计算反向传播
7.2.5随机梯度下降
7.2.6深入了解梯度下降
7.2.7为什么要有学习率
7.3批量训练
7.3.1Softmax的概念
7.4不同的损耗优化函数
7.4.1缩放数据集
7.5在Python中实现神经网络
7.6利用正则化避免过拟合
7.7将权重分配给正则化项
7.8在R中实现神经网络
7.9总结
第8章 Word2vec
8.1手工构建词向量
8.2构建词向量的方法
8.3Word2vec模型中需要注意的问题
8.3.1常用词
8.3.2负采样
8.4在Python中实现Word2vec
8.5总结
第9章卷积神经网络
9.1传统神经网络的问题
9.1.1场景1
9.1.2场景2
9.1.3场景3
9.1.4场景4
9.2了解CNN中的卷积
9.2.1从卷积到激活
9.2.2从卷积激活到池化
9.2.3卷积和池化有什么帮助
9.3使用代码创建CNN
9.4CNN的工作细节
9.5深入研究卷积/内核
9.6从卷积和池化到扁平化：完全连接层
9.6.1从一个完全连接层到另一个完全连接层
9.6.2从完全连接层到输出层
9.7连接点：前馈网络
9.8CNN的其他细节
9.9CNN中的反向传播
9.10将各层放在一起
9.11数据增强
9.12在R中实现CNN
9.13总结
第10章递归神经网络
10.1理解架构
10.2RNN的解释
10.3RNN的工作细节
10.3.1时间步骤1
10.3.2时间步骤2
10.3.3时间步骤3
10.4实现RNN:SimpleRNN
10.4.1编译模型
10.4.2验证RNN的输出
10.5实现RNN：生成文本
10.6RNN中的嵌入层
10.7传统RNN的问题
10.7.1梯度消失问题
10.7.2梯度爆炸问题
10.8LSTM
10.9在keras中实现基本LSTM
10.10实现LSTM进行情感分类
10.11在R中实现RNN
10.12总结
第11章聚类
11.1聚类介绍
11.1.1构建用于性能比较的商店簇
11.1.2理想聚类
11.1.3在没有聚类和过多聚类之间取得平衡：k均值聚类
11.2聚类过程
11.3k均值聚类算法的工作细节
11.3.1k均值算法在数据集上的应用
11.3.2k均值聚类算法的性质
11.4在R中实现k均值聚类
11.5在Python中实现k均值聚类
11.6主要指标的意义
11.7确定优的k
11.8自上向下与自下向上的聚类
11.8.1层次聚类
11.8.2层次聚类的主要缺点
11.9k均值聚类的行业使用案例
11.10总结
第12章主成分分析
12.1PCA的直观理解
12.2PCA的工作细节
12.3在PCA中缩放数据
12.4将PCA扩展到多变量
12.5在R中实现PCA
12.6在Python中实现PCA
12.7将PCA应用于MNIST
12.8总结
第13章推荐系统
13.1了解k近邻
13.2基于用户的协同过滤的工作细节
13.2.1欧氏距离
13.2.2余弦相似度
13.3基于项目的协同过滤
13.4在R中实现协同过滤
13.5在Python中实现协同过滤
13.6矩阵分解的工作细节
13.7在Python中实现矩阵分解
13.8在R中实现矩阵分解
13.9总结
第14章在云中实现算法
14.1谷歌云平台
14.2微软Azure
14.3亚马逊网络服务
14.4将文件传输到云实例
14.5从本地计算机运行实例Jupyter Notebook
14.6在实例上安装R
14.7总结
附录 Excel、R和Python基础
A.1 Excel基础
A.2 R语言基础
A.3 Python基础

【前言】

原书前言
机器学习技术现在已被广泛地应用于各种程序中。随着机器学习技术应用的增加，对于程序开发人员来说，需要学习并了解此技术的底层算法，更为重要的是，要理解各种算法如何从原始数据中学习的模式，以便能被有效利用。
本书面向有兴趣在各种机器学习算法的框架下进行研究的数据科学家和分析师。当你开发核心的机器学习模型和对模型进行评估时，本书会为你讲解技术并带给你信心。
为了真正理解机器学习算法正在学习什么，以及它们是如何学习的，我们首先会在Excel中构建算法，以便我们能窥探算法这个黑匣子内部是如何工作的。通过这种方式，读者可以了解算法中的各种手段是如何影响终结果的。
一旦我们了解了算法的工作原理，就可以使用Python或R实现它们。然而，本书不是一本关于Python或R的书，所以我希望读者首先对编程能有所了解。即便如此，本书的附录中也介绍了Excel、R和Python的基础知识。
第1章介绍了数据科学的基础知识，并且讨论了数据科学项目的典型工作流程。
第2～10章讲解了业界中使用的一些主要的监督机器学习算法和深度学习算法。
第11章和第12章讲解了主要的无监督学习算法。
在第13章中，我们实现了推荐系统中使用的各种技术，以预测用户喜欢某种商品的可能性。
后在第14章中，介绍了如何使用3个重要的云服务提供商，分别是谷歌云平台、微软Azure和亚马逊网络服务。
本书中使用的所有数据集和代码均可在GitHub上找到：https://github.com/kishore-ayyadevara/Pro-Machine-Learning。