内容简介

"本书以Python为基础,深入讲解HDFS分布式文件系统和PySpark3编程。全书共9章,内容包括Docker环境下Hadoop与Spark的配置、HDFS操作技巧、RDD编程方法、Spark SQL应用、Spark架构及运行机制、Pandas on Spark使用及Spark ML编程实践。本书通过实际操作案例,帮助读者掌握Hadoop和PySpark的环境搭建与应用编程,附带丰富的教学资源,包括教案、教学课件、练习题、源代码、数据集及核心知识点视频讲解及实验指导,为读者提供强大支持。

本书适合作为全国高等学校计算机、软件工程、数据科学与大数据技术、人工智能等专业的教材,同时对大数据应用开发者和技术从业者亦有参考价值。

"