2002年,复旦大学智能信息处理开放实验室(即现在的复旦大学上海市智能信息处理重点实验室)成立之时,陆汝钤老师建议实验室组织“智能信息处理系列研讨会”作为实验室的一项重要学术活动,并将“机器学习及其应用”列为当年支持的研讨会之一。在2002年11月的第一个周末,研讨会成功举行,并确定了会议不征文、不收费、报告人由组织者邀请,以及“学术至上,其他从简”的办会宗旨。在2004年的研讨会上,两天半的会议保持100余人的旁听者,这令与会专家深受鼓舞,并商定从这次会议开始,将“机器学习及其应用”发展成为一个系列研讨会,在每年11月第一个周末举行。本书就是清华大学出版社为这次会议出版的文集。随着各行各业大量数据的涌现,如何使得这些数据变为提高管理水平、发展产业效益与保障社会与信息安全的重要资源,成为当前重要且不得不解决的重要问题,这就需要分析或阅读这些数据。数据分析与机器学习是完成上述任务的重要途径,就“分析与阅读数据”而言,它们的目标是一致的,其区别仅仅是学者为了区分研究方法而使用了不同的术语。因此,一般地说,从解决“分析与阅读数据”的角度,我们可以对此不加区分,事实上,“机器学习及其应用”系列研讨会,同样欢迎数据分析的研究报告。正是由于各行各业需求的推动,近几年,机器学习得到了学术界的充分重视,例如,2005年国际人工智能联合会议(IJCAI'05)收录的文章中将近一半或多或少地与机器学习研究有关,这与以往的国际人工智能联合会议上“机器学习”只有一两个分组会议有天壤之别。目前,机器学习研究大致可以分为三种不同的途径:其一,将以往机器学习研究整理并上升为理论,例如,统计机器学习理论整理了感知机、Duda的统计模式识别理论等,Reduct理论整理了符号机器学习的各种方法,集成机器学习(ensemble)整理了各种局部模型的方法等。这类研究非常重要,假设空间、线性描述以及边缘与复杂性等均派生于此。这类研究至今还十分活跃,其中重要的结果将机器学习研究提升到一个新的高度。这个论文集并没有包含所有重要的研究结果,我们相信,在以后这个系列会议上,将有更多的研究报道。其二,近几年,各类机器学习范式层出不穷,几乎一两年就有一种范式流行起来,例如,多示例学习、Ranking学习、数据流学习等等。这类研究的特点是应用需求驱动的,大多数范式的理论基础尚在发展之中,其中包括首先将其他已有的理论基础加以改造,使之适应面临问题的需要。这是一类重要的研究途径,也许其中某些范式将会发展出自己独特的理论,并成为独立的研究课题。应该指出的是,这类研究如此重要,因为它是理论提出与发展所必需的观察,因此,不过分地说,它是机器学习新理论、新技术产生之母。其三,如果将上述两类研究理解为机器学习研究的两个极端,则还存在介于两者之间的一类研究。说其介于两者之间,一方面,其起源完全来自实际问题的需要,而又不能完全纳入某个已有机器学习的理论框架,例如,关系学习,其来源是对关系数据库数据的学习,由于关系数据库无法表示为命题逻辑形式,人们不得不发展新的理论与方法。流形学习、强化学习以及半监督学习等均属于这类研究。有趣的是半监督学习,在前几年的研究中,这类范式的学习还应该属于第二类,近两年,人们发现这类范式的学习可以建立在谱流形上,并与“转导”问题联系在一起,这似乎建立了自己一套理论基础。对这类学习范式还有一个特点,就是尽管已经有了自己的理论,但是,还远远不够完善,在科学意义上,还需要雕琢,还需要进一步证明其价值。换句话说,目前发展的理论,还远远不及机器学习第一类的研究扎实,今天被人们热捧的理论,也许明天就被证明是行不通甚至是不重要的。当然,一旦被实践证明这类研究中的某个理论是有意义的,它将自然被归类于第一类研究。机器学习的另一个重要趋势,是考虑给定数据集合自身的性质,1995年出现的“没有免费午餐定理”,近几年得到机器学习研究者的重视,因为任何一般性的方法在面临非线性问题时,如果处理不当,不得不面对“维数灾难”问题,这个问题只有在理论框架下嵌入特定数据集合的特定性质才有可能解决。对这个问题,本论文集并没有仔细讨论,但是,在本系列2005年南京大学会议上,已有探讨。机器学习及其应用本论文集所收集的每篇文章将讨论一个问题,并使用综述的形式,将报告人自己的研究合理地嵌入在之中,这是本系列会议的一个特殊要求,其目的是尽可能地全面反映机器学习的研究现状,并为同行提供一种观点与索引(请注意,本论文集的每篇文章绝不是一篇研究情况的报道,它们均反映了作者对所研究问题的观点,当然,这些观点并不能完全代表清华大学出版社、研讨会组织和主持者,以及本书(形式上和事实上的)编者及其他各章作者的学术观点)。但是,应该指出,这还不是一个对上述所有机器学习问题均涉及的论文集,一方面,有些机器学习研究范式还不够成熟,另一方面,则是我们的能力还有局限。我们正在面临如此重大且困难的问题(网络信息、生物信息与金融经济信息),它们要求我们必须认真对待并有效解决。目前,包括科学、技术、安全、军事与金融经济等众多的领域均在关心机器学习的研究进展,这为机器学习研究者提供了大量的机会,机器学习的研究者正在进入激动人心的时代,因为他们的任何有意义的成果,就可能为社会与科学带来进步。有一利必有一弊,在面临如此困难问题的面前,机器学习研究者的危机同时出现,指望通过写程序或改进已有结果的方式获得成功,已十分困难。不同领域的研究者正在悄然侵入我们的领地,以接替我们。应用者正在关注着这种新陈代谢,他们已经等待太久了,急不可耐了。本书共分13章。第1章是关于机器学习的一个全局性综述。第2至第6章分别对统计学习、非监督学习、符号学习、强化学习和流形学习进行了综述,并穿插了作者的一些精彩工作。第7和第8章分别介绍了作者在集成学习和进化学习中某一具体话题上的研究成果。第9和第10章对数据挖掘中的一些问题进行了介绍和讨论。第11至第13章则对机器学习在模式识别、视频信息处理等领域的应用做了介绍。需要说明的是,陈松灿教授、封举富教授和吴高巍博士在研讨会上曾做了精彩的报告,但遗憾的是,由于时间紧迫,他们的文章没有来得及收入本书。最后,我们衷心感谢陆汝钤老师对这个系列会议一贯的指导与支持,没有陆老师的指导与支持,我们是不可能将这个系列会议办下去。我们也感谢复旦大学上海智能信息处理重点实验室对“机器学习及其应用’04”的支持,他们为组织这次会议作了大量卓有成效的工作。参加本论文集编写的作者感谢不同国家项目对他们研究的支持,没有这些项目的资助,这些研究者也无法完成这些研究。