随着大数据时代的来临,来自互联网、安全、金融、医疗、科学观测等众多领域的数据呈爆发式增长。在享受巨量数据提供的丰富信息的同时,我们也淹没在数据的海洋中,很难挖掘出急需的信息和最有用的知识。要解决这一矛盾,一个重要的策略是利用机器学习。
机器学习发源于人工智能,近三十年来已经逐渐发展成为一门相对完备且独立的学科,广受计算机科学、统计学、认知科学等相关领域的关注。在理论方面,针对数据采样分布与真实分布的差异,形成了概率近似逼近(PAC)的学习机制,并在此基础上发展了传统的统计学习理论。为避免数据预测中目标函数的病态问题,一系列正则化理论被提出,如侧重于可解释性的稀疏学习技术、侧重于保持数据非线性几何结构的流形正则化理论、期望保持最优分类性能的最大间隔正则技术等。不仅如此,应用驱动的机器学习也推动了众多新兴研究方向的产生,如考虑无标签数据的半监督学习,考虑不同数据分布的迁移学习、领域自适应学习,考虑数据“多”特性的多标签、多示例、多视角、多任务学习,考虑网络数据标记策略的众包学习等。与优化技术如随机梯度下降、半正定规划等的融合,也促进了对大规模数据的处理和对全局最优化求解。值得一提的是,近年来深度(神经网络)学习通过逐阶递减的特征提取技术以及大数据的训练策略,在多个层面如图像、语音甚至文本分类性能上都超越了统计学习为主导的机器学习方法。这使得神经网络在经历了近二十多年的低谷后,再次把广大研究人员的眼球重新吸引回来。它不仅掀起了机器学习的新一轮热潮,也直接导致了工业界对机器学习的研究和发展前所未有的关注。
2002年,陆汝钤院士在复旦大学智能信息处理实验室发起组织了“智能信息处理系列研讨会”,并将“机器学习及其应用”列为当年支持的研讨会之一。2002年11月,研讨会成功举行,并确定了会议不征文、不收费、报告人由组织者邀请,以及“学术至上,其他从简”的办会宗旨。2004年11月,在复旦大学举行了第二届“机器学习及其应用”研讨会,两天半的会议一直有100余人旁听。2005年起,研讨会由南京大学软件新技术国家重点实验室举办。2005年11月举办的第三届研讨会吸引了来自全国近10个省市的250余人旁听;2006年11月、2007年11月分别由南京航空航天大学信息科学与技术学院、南京师范大学数学与计算机学院协办第四届和第五届研讨会,两次均吸引了来自全国10余个省市的约300人旁听;2008年11月举行的第六届研讨会,适逢南京大学计算机学科建立50周年,吸引了来自全国10余个省市的380余人旁听;此后在2009年11月和2010年11月在南京大学分别举行了第七、八届研讨会,均有约400人旁听。2011年11月和2012年11月由清华大学自动化系、智能科学与系统国家重点实验室、清华大学信息科学与技术国家实验室(筹)举办第九届和第十届研讨会,两次会议均有500多人旁听。2013年11月由复旦大学计算机科学技术学院和上海市智能信息处理实验室举行了第十一届研讨会,2014年11月在西安电子科技大学举办了第十二届研讨会,这两次会议均有600多人旁听。可以说,“机器学习及其应用”研讨会已经成为机器学习及其相关领域研究人员的盛会。
本书是对第十一届和十二届中国机器学习及其应用研讨会的一个总结,共邀请了会议中的10位专家就其研究领域撰文,以综述的形式探讨了机器学习不同分支及相关领域的研究进展。全书共分10章,内容分别涉及稀疏学习、众包数据中的隐类别分析、演化优化、深度学习、半监督支持向量机、差分隐私保护等技术,以及机器学习在图像质量评价、图像语义分割、多模态图像分析等方面的应用,此外,还介绍了新硬件寒武纪神经网络计算机的研究进展。
其中,龚平华博士与张长水教授在第1章研究了稀疏学习在鲁棒多任务特征学习和多阶段多任务特征学习中的理论和算法。田天博士与朱军教授在第2章综述了众包标注问题和标注整合的两种基本模型后,提出了众包学习中的隐类别结构模型。针对多数演化算法常依赖于启发式算法的不足,俞扬教授在第3章分析了演化优化的理论基础。通过借鉴深度学习的多层结构框架,陈渤教授在第4章发展了层次化贝叶斯分析以及在线变分贝叶斯推断方法。李宇峰博士与周志华教授在第5章从“多”“快”“好”“省”四个方面详细讨论和分析了半监督支持向量机近十年来的研究新进展。考虑到多数机器学习算法是建立在包含用户敏感信息的数据集上,王立威教授与郑凯博士在第6章分析现有隐私保护模型的优势和不足后,并基于差分隐私策略提出了针对光滑查询的隐私保护机制。作为视觉大数据中最重要的载体之一,图像的质量评价是视觉信息质量评价的基本问题。高新波教授与何立火博士在第7章引入了基于特征表示、回归分析和贝叶斯推理等机器学习方法对图像质量进行了客观评价,提出了一系列的无参考型图像质量评价的测度。除此以外,考虑到图像的高层语义提取一直是计算机视觉中的“难”问题,薛向阳教授在第8章从特征融合、深度网络、弱监督策略等方面分析了图像语义分割问题。在脑图像分析中,多种采集设备可形成多模态的图像。为了有效融合多模态异质脑图像数据,张道强教授与程波博士等人在第9章从多任务学习、多模态流形正则迁移学习、多视图分类的角度分析了机器学习在多模态脑图像分析的应用。最后,陈天石与陈云霁教授从硬件的角度探讨了机器学习固化的可能性,并对中国科学院计算技术研究所研发的寒武纪系列处理器进行了简要介绍。
本书概括了国内机器学习及其应用的最新研究进展,可供计算机、自动化、信息处理及相关专业的研究人员、教师、研究生和工程技术人员参考,也可作为人工智能、机器学习课程的辅助内容,希望对有志于从事机器学习研究的人员有所帮助。
高新波张军平
2015年7月