影印版序
本书利用不动点理论问题的紧密关联性,阐述以总成本为目标的序贯决策问题的核心理论和算法的最新研究进展,重点讨论以动态规划为基础的抽象映射,并定义了相关的数学特征。本书聚焦于抽象映射的两个基本性质——单调性和(加权超范数)压缩性。事实上,动态规划理论分析和算法的本质主要取决于这两种属性是否存在,而问题的其余结构在很大程度上是无关紧要的。除了极特别的情况,本书将始终假设单调性成立,围绕抽象映射的压缩性特点研究了四类主要模型: 压缩模型、半压缩模型、非压缩模型、受限策略和Borel空间模型。
本书第1版,在压缩模型部分,主要讨论折扣随机最优控制问题; 在半压缩模型部分,主要讨论随机最短路问题; 在非压缩模型部分,主要讨论经典动态规划问题; 在受限策略和Borel空间模型部分,主要讨论连续概率空间的随机最优控制问题,令其允许策略和动态规划映射具有某种可测特性。
本书第2版,主要是扩展了第1版第3、4章的半压缩模型,在第3章中讨论的半压缩模型中只需使用平稳正则策略。在第4章中,将正则性的概念推广到了非平稳策略,旨在探索贝尔曼方程解集的结构以及最优控制问题的最优性与其他结构性质的联系,如讨论了连续空间确定性最优控制中最优性与经典稳定性、可控性的关系等。
本书以动态规划为基础,运用抽象映射的单调性和压缩映射理论研究近似动态规划或动态规划的若干典型问题,主要特点是: 不涉及所讨论问题的随机特性,也不涉及特殊类型的动态规划问题的某些有趣特征。本书中展示的理论方法位居随机运筹学和随机最优控制领域的学科前沿,其严谨的分析方法和处理技巧具有重要的理论价值,在数学与人工智能科学的交叉研究领域具有广阔的应用前景。
本书作者Dimitri P.Bertsekas曾在希腊国立雅典技术大学机械和电子工程系学习,并在麻省理工学院获得系统科学专业博士学位。Bertsekas教授先后在斯坦福大学、伊利诺伊大学执教,自1979年以来一直在麻省理工学院电机工程与计算机科学系执教,其研究涉及多个领域,包括优化理论、控制理论、大规模计算和数据通信网络等,目前已著有14本教材和专著。Bertsekas教授凭借其与合作者在运筹优化和计算科学交叉领域的合作专著NeuroDynamic Programming的杰出贡献而获得1997年INFORMS 奖,2001年当选美国国家工程院院士。
本书可作为人工智能科学、系统与控制科学、经济与管理科学等相关专业的高年级本科生或研究生的教学参考书,也可供从事相关领域研究工作的专业技术人员参考。
宋士吉、王书宁 教授
清华大学自动化系
2021年10月