图书前言

前言

党的二十大报告高瞻远瞩地指出了“加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群”的战略方向,这一重大决策不仅彰显了我国对于数字经济发展的高度重视,更凸显了数据要素在数字经济中的核心地位。

在信息化浪潮席卷全球的今天,数据已经成为推动经济社会发展的重要引擎,加快挖掘数据潜能,不仅有助于盘活全社会生产要素存量,更能够进一步创造全社会生产要素增量,为实现创新驱动发展提供源源不断的动力。数据挖掘技术,作为从海量数据中提取有价值信息的核心技术,正逐渐成为现代社会不可或缺的一部分。通过数据挖掘,我们能够深入探索数据的内在规律和潜在价值,为管理决策提供科学依据,为科学研究提供有力支撑,为人们的生产生活带来便利与智能。因此,数据挖掘不仅是激活数据要素价值的关键途径,更是推动数字经济蓬勃发展的重要驱动力。在此背景下,大数据人才的需求呈现出持续增长的趋势。

高校作为人才培养的摇篮,肩负着培养具备高素质和高技能的大数据人才的重要使命。本书正是在这样的背景下应运而生,本书旨在带领读者逐步掌握数据挖掘技术,从基本概念到具体方法,从理论阐述到实践应用,力求为读者呈现相对完整的数据挖掘知识与技术体系。本书共分为11章。第1章为绪论,介绍了数据挖掘的基本概念、发展历程和应用领域,基于Python的本地环境以及天池AI实训平台,为后续章节打下基础。第2章为数据可视化,介绍如何使用Python的可视化库,将数据通过图表、图像等形式直观化,帮助读者更好地理解数据的分布和特征。第3章为数据预处理,详细讲解了数据清洗、集成、变换等预处理技术。第4~10章先后介绍了回归分析、关联规则分析、聚类分析、随机森林、神经网络、贝叶斯分类和文本挖掘等数据挖掘的核心技术和方法,通过丰富的案例和实践练习,读者可以在学习中不断提升自己的数据挖掘技能。第11章为综合案例实战,通过一个完整的数据挖掘项目案例,将前面所学的知识和技术融会贯通,帮助读者提升解决实际问题的能力。

本教材撰写团队包括了浙江工商大学统计与数学学院和人工智能学院的师资,加入了人工智能与大数据的最新应用元素,预期成为大数据专业、统计专业、人工智能专业人才培养的核心课程,也可供其他专业需要数据挖掘方法的人员使用。

阿里云为本教材提供了优秀的天池AI实训平台,让实验环境得以部署并服务于广大读者。结合天池AI实训平台的实验环境,团队配套录制了在线实验指导视频,希望通过这些资源,能够进一步提升数据挖掘实战课程的教学效果,让更多的读者受益。

在教材编撰过程中,清华大学出版社的黄芝主任为编者提供了很多建议并给予了鼓励,浙江工商大学教务处为本书的编撰提供了良好的条件,使得本书最终成稿。在教材的编写过程中,我们参考与吸收了一些同类教材的成果,在此一并表示衷心的感谢。

希望本书能够成为读者学习数据挖掘的良师益友,为读者的学习和实践提供有力的支持和帮助。

由于编者水平有限,书中难免存在不足之处,敬请广大读者批评指正,共同推动数据挖掘领域的发展与进步。

编者2025年4月