出版社:清华大学出版社
年代:2015
定价:59.0
本书综合大数据分析与数据挖掘的理论、技术和实际案例,以丰富的产学合作实务案例,深入浅出地剖析从大数据中掏金的秘诀。全书内容涵盖大数据分析与数据挖掘的基本概念、数据准备、大数据分析的方法与实证及相关的进阶运用,并佐以R语言及例题实作,提升读者的数据挖掘实战能力,开拓对大数据分析的洞察视野。
第1篇大数据分析与数据挖掘导论
第1章大数据分析与数据挖掘概论
1.1前言
1.2大数据分析的应用
1.3数据挖掘与数字决策
1.4数据挖掘和大数据分析架构与步骤
1.4.1问题定义与架构
1.4.2数据准备
1.4.3建立挖掘模式
1.4.4结果解释与评估
1.5数据挖掘的问题类型
1.5.1分类
1.5.2预测
1.5.3聚类
1.5.4关联规则
1.6数据挖掘模式
1.7结论
1.8本书架构
问题与讨论
第2章数据与数据准备
2.1数据取得
2.2大数据分析的基础:Hadoop
2.2.1Hadoop架构
2.2.2Hadoop分布式文件系统
2.2.3MapReduce
2.3数据类型
2.4数据尺度
2.5数据检查
2.6数据探索与可视化
2.7数据整合与清理
2.8数据转换
2.8.1数据数值转换
2.8.2数据属性转换
2.9数据归约
2.9.1数据维度归约
2.9.2数据数值归约
2.10数据分割
2.11应用实例——半导体厂制造技术员人力资源管理质量提升
2.11.1案例背景
2.11.2数据准备
2.12结论
问题与讨论
第2篇数据挖掘方法与实证
第3章关联规则
3.1关联规则的定义与说明
3.2关联规则的衡量指针
3.3关联规则的类型
3.4关联规则算法
3.4.1Apriori算法
3.4.2Partition算法
3.4.3DHP算法
3.4.4MSApriori算法
3.4.5FP—Growth算法
3.5多维度关联规则
3.6多阶层关联规则
3.7关联规则的应用
3.8R语言与关联规则分析
3.9应用实例——电力公司配电事故定位的研究
3.9.1案例背景
3.9.2数据准备
3.9.3关联规则推导
3.10结论
问题与讨论
第4章决策树分析
4.1决策树的建构
4.1.1数据准备
4.1.2决策树的分支准则
4.1.3决策树修剪
4.1.4规则提取
4.2决策树的算法
4.2.1CART
4.2.2C4.5/C5.0
4.2.3CHAID
4.3决策树分类模型评估
4.4R语言与决策树分析
4.4.1CART决策树分析
4.4.2C5.0决策树分析
4.4.3CHAID决策树分析
4.5应用实例——建构cDNA生物芯片的数据挖掘模式
4.5.1案例背景
4.5.2数据准备
4.5.3生物芯片数据的决策树构建
4.5.4规则解释与评估
4.6结论
问题与讨论
第5章人工神经网络
5.1人工神经网络的基本结构
5.2网络学习法
5.3反向传播人工神经网络
5.3.1网络架构
5.3.2学习算法
5.3.3反向传播人工神经网络步骤
5.3.4反向传播人工神经网络范例
5.4自组织映射网络
5.4.1网络架构
5.4.2学习算法
5.4.3SOM人工神经网络步骤
5.4.4自组织映射图网络范例
5.5自适应共振理论人工神经网络
5.5.1网络架构
5.5.2ART1网络算法
5.5.3适应性共振网络范例
5.6R语言与人工神经网络
5.6.1反向传播人工神经网络
5.6.2自组织映射网络
5.6.3自适应共振理论人工神经网络
5.7应用实例——半导体生产周期时间预测与管控
5.7.1案例简介
5.7.2数据分群
5.7.3数据配适与预测
5.7.4信息整合与敏感度分析
5.7.5案例小结
5.8结论
问题与讨论
第6章聚类分析
6.1聚类分析法简介
6.1.1聚类分析的阶段
6.1.2相似度的衡量
6.1.3聚类分析方法
6.2层次聚类分析法
6.3划分聚类分析法
6.3.1K平均法
6.3.2K中心点法
6.4以密度为基础的分群算法
6.5以模式为基础的分群算法
6.5.1期望最大化算法
6.5.2自组织映射图网络
6.6R语言与聚类分析
6.7应用实例——黄光机台聚类分析
6.7.1案例简介
6.7.2验证两阶段分群算法
6.7.3案例小结
6.8结论
问题与讨论
第7章朴素贝叶斯分类法与贝叶斯网络
7.1贝叶斯定理
7.2朴素贝叶斯分类法
7.3贝叶斯网络
7.3.1贝叶斯网络的理论基础
7.3.2贝叶斯网络的不一致性修正
7.4R语言与贝叶斯分类
7.5应用实例——电力公司馈线事故定位系统
7.5.1案例简介与问题架构
7.5.2数据整理与贝叶斯网络图构建
7.5.3给定贝叶斯推理网络的参数
7.5.4验证贝叶斯推理网络
7.5.5案例小结
7.6结论
问题与讨论
第8章粗糙集理论
8.1粗糙集理论
8.2粗糙集理论基本概念
8.2.1信息系统与决策表
8.2.2等价关系
8.2.3近似空间
8.2.4近似集合的准确率
8.2.5分类的准确率与属性相依程度
8.2.6简化
8.3粗糙集理论产生分类规则
8.4粗糙集理论与其他分类方法的比较
8.5R语言与粗糙集理论
8.5.1决策表与等价关系
8.5.2近似空间
8.5.3简化与规则推演
8.6应用实例——TFT—LCD数组事故诊断
8.6.1案例简介
8.6.2分析过程
8.6.3案例小结
8.7结论
问题与讨论
第9章预测与时间数据分析
9.1回归分析
9.1.1回归分析基本介绍
9.1.2参数估计
9.1.3回归模型解释与评估
9.1.4多重回归分析
9.1.5共线性
9.2逻辑回归
9.2.1概率与胜算
9.2.2逻辑回归模式
9.3时间序列分析
9.4时间数据的分析步骤
9.5模式选择与建立
9.5.1时间序列平滑法
9.5.2平稳型时间序列
9.5.3无定向型时间序列
9.5.4趋势型、季节型与介入事件型时间序列
9.6阶次选取与参数估计
9.7模式评估
9.7.1拟合优度检定
9.7.2预测误差衡量
9.8R语言与时间数据分析
9.9应用实例——半导体光罩需求预测
9.9.1案例简介与问题架构
9.9.2数据准备与数据处理
9.9.3需求波动侦测分析过程
9.9.4案例小结
9.10结论
问题与讨论
第10章集成学习与支持向量机
10.1集成学习
10.1.1Bagging
10.1.2Boosting
10.2支持向量机
10.2.1可区分情况(separable case)
10.2.2不可分状况(non—separable case)
10.2.3非线性分类
10.3R语言与随机森林集成学习模型
10.3.1利用随机森林进行分类
10.3.2利用随机森林评估变量重要性
10.4结论
问题与讨论
……
第3篇数据挖掘进阶运用
参考文献
随着移动通信和行动装置普及、物联网和网络发展,以及云端技术的不断进步,现今数据产生、搜集和储存方式比以往更为方便。数据挖掘与大数据分析可以从海量数据中,找到值得参考的样型或规则,转换成有价值的信息、洞察或知识,创造更多新价值。本书主要介绍数据挖掘与大数据分析的理论方法与实践应用,并加入丰富的实务案例介绍,具体说明如何应用数据挖掘与大数据分析技术以解决真实问题,深入浅出地剖析从数据中掏金的秘诀。全书共分为13章,内容涵盖数据挖掘基本概念与数据准备、数据挖掘的方法与实证、数据挖掘的进阶运用;书中也提供R语言与编程实例辅以说明,使读者更能融会贯通地应用数据挖掘方法,进而提升大数据分析和数字决策能力。
《大数据分析与数据挖掘》由简祯富,许嘉裕编著,清华大学出版社出版。
甘枥元, 余兰, 朱寿华, 主编
(美) 梅内里 (Minelli,M.) , (美) 钱伯斯 (Chambers,M.) , (美) 帝拉吉 (Dhiraj,A.) , 著
(美) 伊森 (Isson,J.P.) , (美) 哈里奥特 (Harriott,J.S.) , 著
史春联, 刘志高, 著
(美) 奎斯塔 (Cuesta,H.) , 著
(美) 迈克尔·S.刘易斯-贝克, 著
邵晶晶, 著
(美) 赫克托·奎斯塔 (Hector Cuesta) , (美) 桑帕斯·库马尔 (Dr.Sampath Kumar) , 著
(美) 刘易斯-贝克, 著