目 录
第1章 大数据分析概论 1
课前自学 2
一、数据及其分类 2
二、大数据的概念 3
三、大数据产生的原因 4
四、大数据的作用 5
五、大数据对科学研究的影响 6
课中实训:岗位数据采集与分析 7
任务1:人才供需现状分析 8
任务2:数据采集与处理 9
任务3:词频统计与分析 11
课后拓展 13
本章小结 16
第2章 需求分析与指标体系构建 17
课前自学 18
一、数据分析的基本流程 18
二、数据分析指标体系 19
三、基础数据分析方法 22
四、描述统计 25
课中实训 26
任务1:城市跨境电商指标体系设计
(以W市为例) 26
任务2:设置数据分析工具库 28
任务3:跨境电商数据描述统计 30
课后拓展 32
一、常见的数据分析方法论模型 32
二、数据分析指数 35
本章小结 37
第3章 大数据存储与管理 38
课前自学 39
一、数据库基础知识 39
二、SQL查询基础知识 40
课中实训 41
任务1:MySQL数据库安装与
配置 41
任务2:使用Navicat Premium
管理MySQL数据库 45
任务3:数据表结构设计 45
任务4:数据库查询操作 49
课后拓展 51
一、MongoDB的安装与数据模型
介绍 51
二、HBase数据库简介 52
本章小结 52
第4章 云计算与大数据的集成应用 53
课前自学 54
一、云计算的概念 54
二、云计算概念模型的特点 55
三、云计算的部署模式 56
四、云计算的服务模式(IaaS、PaaS
和SaaS) 59
五、云计算与大数据架构:
以Google为例 60
课中实训 62
任务1:配置单台虚拟机环境 63
任务2:安装CentOS 7操作系统
并配置网络 66
任务3:克隆并配置多台虚拟机 69
任务4:Linux的常见操作 72
任务5:设置主机之间的免密登录 74
任务6:在Liunx平台下安装JAVA
运行环境 75
任务7:配置hadoop环境 77
任务8:基于HDFS的MapReduce
词频数据分析 83
课后拓展 86
本章小结 91
第5章 网页结构分析与Python编程
基础 92
课前自学 93
一、网页的基本结构 93
二、Python简介与特点 95
三、Python基础语法 96
课中实训 97
任务1:Python开发环境配置 97
任务2:Python基础案例 100
任务3:网页数据的请求与响应 103
任务4:使用Python连接MySQL
数据库 106
课后拓展 108
本章小结 109
第6章 大数据采集 110
课前自学 111
一、大数据采集技术 111
二、Scrapy框架简介 112
课中实训 113
任务1:安装并启动Scrapy爬虫
框架 113
任务2:通过XPath对网页进行
解析 115
任务3:获取电商平台类目信息 119
课后拓展 120
本章小结 121
第7章 大数据预处理 122
课前自学 123
一、数据处理过程中的常见问题
及原因 123
二、数据预处理的流程与方法 124
课中实训 128
任务1:使用Excel进行数据
预处理 128
任务2:使用OpenRefine进行数据
预处理 130
任务3:使用Python进行数据
预处理 137
课后拓展 140
一、读取数据文件的常用方法 140
二、Python中常见的数据预处理
函数 141
本章小结 141
第8章 大数据与机器学习基础 142
课前自学 143
一、大数据分析方法与方法论 143
二、数据分析与数据挖掘相关
概念 144
三、机器学习:让系统更聪明 146
课中实训 152
任务1:Python机器学习库配置 152
任务2:基于跨境电商数据的特征
分析 155
任务3:基于Apriori算法的金融
产品组合 158
课后拓展 160
本章小结 162
第9章 大数据可视化 163
课前自学 164
一、数据可视化基础 164
二、典型图表介绍 165
课中实训 171
任务1:基于ECHARTS和Excel的
图表可视化 171
任务2:使用Matplotlib绘制
折线图 173
任务3:使用Matplotlib绘制
散点图 175
任务4:读取数据并绘制散点图 176
任务5:对短视频数据进行探索性
分析 177
课后拓展 184
本章小结 185
第10章 金融客户数据案例分析 186
课前自学 187
一、需求分析 187
二、数据挖掘分析相关技术 188
课中实训 189
任务1:探索性分析 189
任务2:数据预处理:判断异常值
和降维处理 189
任务3:K最近邻算法分析 193
任务4:逻辑回归算法分析 194
任务5:决策树算法分析 196
课后拓展 199
本章小结 200
第11章 交通大数据综合案例分析 201
课前自学 202
一、数据集类型 202
二、交通大数据处理需求分析 203
课中实训 204
任务1:数据分析流程设计 204
任务2:数据预处理 208
任务3:模型训练与数据预测 212
任务4:数据输出 214
课后拓展 215
本章小结 218
参考文献 219