清华大学出版社--图书简介

内容简介

"本书以Python为基础，深入讲解HDFS分布式文件系统和PySpark3编程。全书共9章，内容包括Docker环境下Hadoop与Spark的配置、HDFS操作技巧、RDD编程方法、Spark SQL应用、Spark架构及运行机制、Pandas on Spark使用及Spark ML编程实践。本书通过实际操作案例，帮助读者掌握Hadoop和PySpark的环境搭建与应用编程，附带丰富的教学资源，包括教案、教学课件、练习题、源代码、数据集及核心知识点视频讲解及实验指导，为读者提供强大支持。

本书适合作为全国高等学校计算机、软件工程、数据科学与大数据技术、人工智能等专业的教材，同时对大数据应用开发者和技术从业者亦有参考价值。

关于我们

新闻资讯

服务支持

关于我们

新闻资讯

服务支持

内容简介