图书目录

目    录

第1章  大数据分析概论 1

课前自学 2

一、数据及其分类 2

二、大数据的概念 3

三、大数据产生的原因 4

四、大数据的作用 5

五、大数据对科学研究的影响 6

课中实训:岗位数据采集与分析 7

任务1:人才供需现状分析 8

任务2:数据采集与处理 9

任务3:词频统计与分析 11

课后拓展 13

本章小结 16

第2章  需求分析与指标体系构建 17

课前自学 18

一、数据分析的基本流程 18

二、数据分析指标体系 19

三、基础数据分析方法 22

四、描述统计 25

课中实训 26

任务1:城市跨境电商指标体系设计

(以W市为例) 26

任务2:设置数据分析工具库 28

任务3:跨境电商数据描述统计 30

课后拓展 32

一、常见的数据分析方法论模型 32

二、数据分析指数 35

本章小结 37

第3章  大数据存储与管理 38

课前自学 39

一、数据库基础知识 39

二、SQL查询基础知识 40

课中实训 41

任务1:MySQL数据库安装与

配置 41

任务2:使用Navicat Premium

管理MySQL数据库 45

任务3:数据表结构设计 45

任务4:数据库查询操作 49

课后拓展 51

一、MongoDB的安装与数据模型

介绍 51

二、HBase数据库简介 52

本章小结 52

第4章  云计算与大数据的集成应用 53

课前自学 54

一、云计算的概念 54

二、云计算概念模型的特点 55

三、云计算的部署模式 56

四、云计算的服务模式(IaaS、PaaS

和SaaS) 59

五、云计算与大数据架构:

以Google为例 60

课中实训 62

任务1:配置单台虚拟机环境 63

任务2:安装CentOS 7操作系统

并配置网络 66

任务3:克隆并配置多台虚拟机 69

任务4:Linux的常见操作 72

任务5:设置主机之间的免密登录 74

任务6:在Liunx平台下安装JAVA

运行环境 75

任务7:配置hadoop环境 77

任务8:基于HDFS的MapReduce

词频数据分析 83

课后拓展 86

本章小结 91

第5章  网页结构分析与Python编程

基础 92

课前自学 93

一、网页的基本结构 93

二、Python简介与特点 95

三、Python基础语法 96

课中实训 97

任务1:Python开发环境配置 97

任务2:Python基础案例 100

任务3:网页数据的请求与响应 103

任务4:使用Python连接MySQL

数据库 106

课后拓展 108

本章小结 109

第6章  大数据采集 110

课前自学 111

一、大数据采集技术 111

二、Scrapy框架简介 112

课中实训 113

任务1:安装并启动Scrapy爬虫

框架 113

任务2:通过XPath对网页进行

解析 115

任务3:获取电商平台类目信息 119

课后拓展 120

本章小结 121

第7章  大数据预处理 122

课前自学 123

一、数据处理过程中的常见问题

及原因 123

二、数据预处理的流程与方法 124

课中实训 128

任务1:使用Excel进行数据

预处理 128

任务2:使用OpenRefine进行数据

预处理 130

任务3:使用Python进行数据

预处理 137

课后拓展 140

一、读取数据文件的常用方法 140

二、Python中常见的数据预处理

函数 141

本章小结 141

第8章  大数据与机器学习基础 142

课前自学 143

一、大数据分析方法与方法论 143

二、数据分析与数据挖掘相关

概念 144

三、机器学习:让系统更聪明 146

课中实训 152

任务1:Python机器学习库配置 152

任务2:基于跨境电商数据的特征

分析 155

任务3:基于Apriori算法的金融

产品组合 158

课后拓展 160

本章小结 162

第9章  大数据可视化 163

课前自学 164

一、数据可视化基础 164

二、典型图表介绍 165

课中实训 171

任务1:基于ECHARTS和Excel的

图表可视化 171

任务2:使用Matplotlib绘制

折线图 173

任务3:使用Matplotlib绘制

散点图 175

任务4:读取数据并绘制散点图 176

任务5:对短视频数据进行探索性

分析 177

课后拓展 184

本章小结 185

第10章  金融客户数据案例分析 186

课前自学 187

一、需求分析 187

二、数据挖掘分析相关技术 188

课中实训 189

任务1:探索性分析 189

任务2:数据预处理:判断异常值

和降维处理 189

任务3:K最近邻算法分析 193

任务4:逻辑回归算法分析 194

任务5:决策树算法分析 196

课后拓展 199

本章小结 200

第11章  交通大数据综合案例分析 201

课前自学 202

一、数据集类型 202

二、交通大数据处理需求分析 203

课中实训 204

任务1:数据分析流程设计 204

任务2:数据预处理 208

任务3:模型训练与数据预测 212

任务4:数据输出 214

课后拓展 215

本章小结 218

参考文献 219