





定价:39.5元
印次:1-1
ISBN:9787302493662
出版日期:2018.04.01
印刷日期:2018.03.06
图书责编:张瑞庆
图书分类:教材
《数据分析与数据挖掘》主要介绍数据挖掘和数据分析的基本概念和方法,包括数据的基本属性和概念、数据预处理技术、数据立方体和OLAP技术、频繁模式挖掘、回归分析、分类、聚类、离群点分析。书中涉及到的模型和算法均给予了相应的实例。
数据分析与数据挖掘是一门跨学科的计算机科学分支,是人工智能、机器学习、概率论、统计学和数据库知识的交叉学科。数据挖掘的目标是从一个或多个数据集中通过数据处理,结合一定的算法模型最终挖掘出有价值的信息。随着科技的发展,数据量呈爆炸式增长,数据挖掘在工业界和学术界都得到了越来越多的重视。国际知名的互联网公司和科研单位都在大力发展数据科学,在我国,数据科学的发展受到了极大的关注,通过数据分析与数据挖掘帮助决策,进而推动经济发展。本书主要介绍数据分析与数据挖掘的基本概念和方法,包括数据的基本属性和概念、数据预处理技术、数据仓库和OLAP技术、回归分析、频繁模式挖掘、分类、聚类、离群点分析。每一部分先介绍基本概念、理论基础,再给出应用实例,便于读者更好的理解和应用算法,最后给出习题。本书所讲述的内容均为数据分析与数据挖掘过程中常用方法和模型,目的是让爱好数据科学的计算机专业、统计学专业以及相关专业的学生熟悉数据挖掘的过程,掌握数据分析与数据挖掘过程中常用的算法模型及数据处理方式。本书知识点的介绍通过基础理论及概念介绍、应用例题、习题三部分进行,部分章节涉及算法应用实例。通过对数据分析与数据挖掘知识点的基础理论讲解,对数据分析与数据挖掘有整体的认识及了解;通过应用例题,能够对算法的过程有深刻的理解;通过习题,能够巩固对相应知识点掌握。本书适用于数据分析与数据挖掘领域的初学者,可以作为相关专业本科及研究生教材。书中算法由浅入深、由原理到应用,有利于初学者的学习和理解。本书也可作为数据分析与数据挖掘相关专业人士的参考用书。
前言 “数据分析与数据挖掘”是一门跨学科的计算机科学分支课程,是人工智能、机器学习、概率论、统计学和数据库知识的交叉学科。数据挖掘的目标是在一个或多个数据集中通过数据处理和结合一定的算法模型,最终挖掘出有价值的信息。随着科技的发展,数据量呈爆炸式增长,数据挖掘在工业界和学术界都得到了越来越多的重视。国际知名的互联网公司和科研单位都在大力发展数据科学。在我国,数据科学的发展受到了极大的关注,通过数据分析与数据挖掘可以帮助决策,进而推动经济发展。 本书内容均为数据分析与数据挖掘过程中常用方法和模型,目的是让爱好数据科学的计算机专业、统计学专业以及相关专业的学生熟悉数据挖掘的过程,掌握数据分析与数据挖掘过程中常用的算法模型及数据处理方式。本书知识点的介绍通过基础理论及概念讲解、应用例题、习题三部分进行,部分章节涉及算法应用实例。通过对数据分析与数据挖掘知识点的基础理论讲解,对数据分析与数据挖掘形成整体的认识及了解;通过应用例题,能够对算法的过程有深刻的理解;通过习题,能够巩固相应知识点。本书注重基础理论的介绍,使读者能够快速掌握数据分析与数据挖掘的基本过程和基础算法,为后续学习打下坚实的基础。 参与本书构思、撰写、审稿、应用实例的上机验证及截图校对的人员如下: 喻梅、于健、王庆节、王建荣、于瑞国、陈军、邸海波、尚鸿运、孟莹、成基元、赵永伟、李鑫、曹雅茹、郭佳、刘凯、邢文涛。 本书在撰写过程中得到了清华大学出版社张瑞庆编审的大力支持,在此表示衷心感谢。 由于时间仓促、编者水平有限,书中难免有不当之处,敬请读者批评、指正。 编者 2018年1月
第1章概述1
1.1数据分析与数据挖掘1
1.1.1数据分析1
1.1.2数据挖掘1
1.1.3区别和联系3
1.2分析与挖掘的数据类型3
1.3数据分析与数据挖掘的方法7
1.4数据分析与数据挖掘使用的技术9
1.5应用场景及存在的问题12
1.5.1数据分析与数据挖掘的应用12
1.5.2存在的主要问题13
1.6本书结构概述14
1.7习题14
第2章数据15
2.1数据对象与属性类别15
2.1.1属性的定义15
2.1.2属性的分类15
2.2数据基本统计描述16
2.2.1中心趋势度量17
2.2.2数据散布度量19
2.2.3数据的图形显示20
2.3数据的相似性和相异性度量25
2.3.1数据矩阵与相异性矩阵25
2.3.2标称属性的邻近性度量25
2.3.3二元属性的邻近性度量26
2.3.4数值属性的相异性27
2.3.5序数属性的邻近性度量29
2.3.6余弦相似性30
2.4习题30目录数据分析与数据挖掘第3章数据预处理32
3.1数据预处理及任务32
3.1.1数据预处理的必要性32
3.1.2数据预处理的主要任务34
3.2数据清理35
3.2.1缺失值、噪声和不一致数据的处理35
3.2.2数据清理方式38
3.3数据集成39
3.4数据归约42
3.4.1直方图43
3.4.2数据立方体聚集44
3.4.3属性子集选择45
3.4.4抽样46
3.5数据变换与数据离散化47
3.5.1数据变换策略及分类47
3.5.2数据泛化47
3.5.3数据规范化...
本书主要介绍数据分析与数据挖掘的基本概念和方法,包括数据的基本属性和概念、数据预处理技术、数据仓库和OLAP技术、回归分析、频繁模式挖掘、分类、聚类、离群点分析。每一部分先介绍基本概念、理论基础,再给出应用实例,便于读者更好的理解和应用算法,最后给出习题。
本书所讲述的内容均为数据分析与数据挖掘过程中常用方法和模型,目的是让爱好数据科学的计算机专业、统计学专业以及相关专业的学生熟悉数据挖掘的过程,掌握数据分析与数据挖掘过程中常用的算法模型及数据处理方式。本书知识点的介绍通过基础理论及概念介绍、应用例题、习题三部分进行,部分章节涉及算法应用实例。通过对数据分析与数据挖掘知识点的基础理论讲解,对数据分析与数据挖掘有整体的认识及了解;通过应用例题,能够对算法的过程有深刻的理解;通过习题,能够巩固对相应知识点掌握。
本书适用于数据分析与数据挖掘领域的初学者,可以作为相关专业本科及研究生教材。书中算法由浅入深、由原理到应用,有利于初学者的学习和理解。本书也可作为数据分析与数据挖掘相关专业人士的参考用书。