重磅推荐
【编辑推荐】

·在滚滚而来的数据洪流中沙里淘金,挖掘大数据背后的价值洼地,为企业带来下一个增长红利。

·本书作者是国际知名的商务分析与数据挖掘专家、俄克拉何马州立大学斯皮尔斯商学院管理科学与信息系统教授杜尔森·德伦博士。

·一本文本及网页挖掘、情感分析以及大数据的*入门指南;

·全面的数据挖掘框架:过程、方法、技术、评估、工具等;

·简明教程与现代化案例分析揭秘复杂概念;

·适合管理者、分析团队成员、资质认证考生及学生。


【作者简介】
杜尔森·德伦博士
  国际知名的商务分析与数据挖掘专家,经常受邀参加全国乃至国际会议,就数据与文本挖掘、商务情报、决策支持系统、商业分析以及知识管理等话题发表演讲。
  德伦博士是威廉姆·斯皮尔斯和尼尔·帕特森商务分析荣誉主席、健康系统创新中心的研究主任,俄克拉何马州立大学斯皮尔斯商学院管理科学与信息系统教授。现已出版多部关于商务分析与数据挖掘方面的著作。
  丁晓松(译者)
  北京外国语大学国际商学院管理科学与工程系教授,主要的研究领域包括库存管理、模糊决策分析、*化算法、供应链绩效评估等。迄今为止,丁晓松教授已在国内外知名学术期刊发表论文多篇,并出版《大数据供应链》等多部译著和专著。
【免费在线读】
杜尔森·德伦博士的著作简明清晰、内容丰富,为渴望了解数据分析、数据挖掘和“大数据”的读者提供了实用的学习工具。在商业活动越来越复杂、越来越趋向全球化的今天,决策者必须依靠现有的信息采取快速准确的行动,现代数据挖掘和分析是制定决策所必不可少的。本书明确了该领域当前的做法,向读者——主要是学生和从业者——展示了如何应用数据的挖掘与分析发现数据隐含的规律与联系,如何利用这些信息改进并提升整个决策过程。
  作者选取了适量的概念、技术和案例帮助读者真正理解数据挖掘技术的运行原理。这些技术包括:数据挖掘过程、方法与技术,数据的作用与管理,工具与量表,文本与网页挖掘,情感分析,以及接下来与大数据分析方法的整合。
  在第1 章中,作者巧妙地将数据分析的源头追溯到了第二次世界大战时期(见图1—2),使用下列期刊的读者信息作为数据:20 世纪70 年代的《决策支持系统》(Decision Support Systems)、20 世纪80 年代的《企业/ 高管IS 系统》(Enterprise/Executive IS Systems)以及我们都听说过的20 世纪90 年代和21世纪初期的《商务智能》(Business Intelligence),后还有当前的《分析》(Analytics)和《大数据时代》(Big Data)。第1 章的内容为后续即将论述的数据挖掘打下基础。
  在第2 章中,作者对数据挖掘进行了简明易懂的描述,并进行了准确的分类,将数据挖掘与其他几个相关的术语区分开来,明确表示了数据挖掘的实际意义是发现知识。认识到数据挖掘实质上是在坚持许多原则的基础上解决问题与制定决策,无疑是思维上的一次洗礼,许多人都认为数据挖掘本身是一种新概念。这一章运用现实生活中的真实案例、具有启发性的图表以及平实的语言,向广大读者揭开了数据挖掘的神秘面纱。这种方法十分巧妙,将数据挖掘这样看似复杂而又富有技术含量的话题介绍给了普罗大众。
  在第3 章中,德伦博士以浅显易懂的形式向读者展示了规范数据挖掘过程的不同方法。该章介绍的种方法是数据库知识获取(Knowledge Discovery in Database,KDD),这种方法由业界先驱尤萨马·法雅德(Usama Fayyad)首创。德伦博士在讨论中展示了KDD 技术,并用图表加以说明(见图3—1),清楚地显示了运用KDD 技术进行数据挖掘的过程。与此同时,这一章还介绍了众多团体或个人提出的其他数据挖掘方案,这些方案共同构成了数据挖掘这一领域基本思想的沿革发展。为了显示这些方案的实用性,德伦博士还在后提供了一个案例研究——“挖掘癌症数据,获取知识”。
  第4 章主要研究数据挖掘中使用到的数据,包括目前越来越频繁使用的文本数据(即非结构化、非数字性的数据,占当今世界可用数据的近90%)。数据准备是数据挖掘重要的一步,要建立实际可用的模型,所用的数据必须经过处理统计,否则就像俗语中说的“无用输入,无用输出”。因此,在数据挖掘过程中近乎90% 以上的时间都花在了数据准备这一环节。德伦博士竭尽所能采取种种方法统计整理数据,为进一步的数据分析做好准备,这些准备包括打造数据链,测试数据组,为学习者提供人性化的k 倍交叉核实界面(见图4—6)。
  在第5 章中,德伦博士介绍了常见的数据挖掘运算,其讲解简明易懂,外行人也能看出门道。此外,他还全面介绍了神经网络与支持向量机(Support Vector Machines,SVM),使这些原本晦涩难懂的数学工具变得生动易学。其中,德伦博士亲自设计的演算示例也让本书物超所值。
  第6 章详细讲述了文本挖掘(即文本分析)。一开始,德伦博士引用了我们在2012 年出版的《实用数据挖掘》(Practical Data Mining,我本人是这本书的主编)首次使用的图表。博士成功地将我们1 100 页的著作浓缩成短短一章——事实上,这样的浓缩版本对初学者而言更有意义。干得漂亮,德伦!
  后,在第7 章中,德伦博士介绍了当前分析领域一个炙手可热的名词——大数据分析。我们几乎每天都能在新闻中听到“大数据”这个词,它到底是什么意思呢?对不同的人而言,这个词有着不同的含义。但作为一个在数据挖掘领域活跃了15 年以上的人,我可以说每时每刻都与大数据打交道。数据存储空间的成本越来越低,云存储逐渐进入人们的生活,一台小小的笔记本电脑都能够进行数据分析中的分配步骤和多线程运算。轻薄的平板电脑甚至能够胜过几十年前存放在开着冷气的库房中的主服务器。现在人们甚至可以用智能手机管理几个服务器和云存储。数据正日渐变“大”,而处理数据所需的物理实体却越来越“小”。
  但是大多数人对大数据都存在着误解,至少在我看来是这样的。许多人认为数据挖掘必须用到大
【目录】

第1章分析学入门
分析学与分析有区别吗
数据挖掘该归何处
分析学何以突然受到追捧
分析学的应用领域
分析学面临的主要挑战
分析学的发展历史
分析学的简单分类
分析学的前沿技术--以IBMWatson为例
第2章数据挖掘入门
数据挖掘是什么
哪些不属于数据挖掘
数据挖掘常见的应用
数据挖掘能够发现怎样的规律
常用的数据挖掘工具
数据挖掘的负面影响:隐私问题
第3章数据挖掘过程
数据库知识获取过程
跨行业标准化数据挖掘流程
SEMMA
数据挖掘六西格玛方法
哪种方法好
第4章数据与数据挖掘的方法
数据挖掘中的数据属性
数据挖掘中的数据预处理
数据挖掘方法
预测法
分类法
决策树
数据挖掘中的聚类分析
K均值聚类算法
关联法
Apriori算法
对数据挖掘的误解与事实
第5章数据挖掘算法
近邻算法
评估相似性:距离度量
人工神经网络
支持向量机
线性回归
逻辑回归
时间序列预测
第6章文本分析和情感分析
自然语言处理
文本挖掘应用
文本挖掘的流程
文本挖掘工具
情感分析
第7章大数据分析学
大数据从何而来
定义"大数据"的V们
大数据的关键概念
大数据分析处理的商业问题
大数据科技
数据科学家
大数据和流分析法
数据流挖掘
译者后记


【内容简介】
在数据洪流中沙里淘金,挖掘大数据背后的价值洼地,为企业带来下一个增长红利。
  在互联网风气云涌的时代,很多企业拥有数据金矿,却很少能挖出真金白银。数据本身不产生价值,企业只有分析和利用大数据,才能将散落在各个平台中的数据的真正商业价值挖掘出来。数据挖掘已成为解决复杂商业问题、抓住商机的常用工具。
  《大数据掘金》一书介绍了数据挖掘与分析领域的*案例,揭示了如何系统运用数据,找出其中隐含的模式与联系,帮助你更好的利用收集到的数据为自己服务。
  在这本书中,你将见识数据挖掘过程、方法与技巧当前在商业领域广阔的应用,学习使用有效的数据管理方法、工具和矩阵,认识文本和网页数据挖掘,进行大数据整合以及更多相关数据分析知识:
  分析:实用、有效的分类;
  数据挖掘:将数据转化为信息和知识;
  应用:涉及市场营销、金融、医疗卫生、国防等领域;
  方法与标准:KDD、CRISP-DM、SEMMA以及六西格玛(Six Sigma DMAIC)方法;
  数据与方法:处理结构化、非结构化、半结构化的数据;
  算法与统计:邻近算法、神经网络算法、SVMs;
  文本分析与挖掘:情感分析、自然语言分析;
  大数据:数量、种类、速度、真实性、可变性及价值。

【媒体评论】

杜尔森·德伦博士的《大数据掘金》简明清晰、内容丰富,为渴望了解数据分析、数据挖掘和“大数据”的读者提供了实用的学习工具。在商业活动越来越复杂、越来越趋向全球化的今天,决策者必须依靠现有的信息采取快速准确的行动,而这必须依靠现代数据挖掘和分析。《大数据掘金》明确了该领域当前的*做法,向读者展示了如何应用数据的挖掘与分析发现数据隐含的规律与联系,如何利用这些信息改进并提升整个决策过程。

加里·麦尼 博士

戴尔信息管理集团软件事业部

高级分析师、医疗保健应用专家


返回顶部