清华大学出版社--图书详情

+教师申领样书

首页 > 图书 > 图书详情

策略前展、策略迭代与分布式强化学习

本书目的是从作者最近出版的《强化学习与**控制》教科书中更深入地发展一些方法。特别是，提出了有关涉及多个代理，分区架构和分布式异步计算的系统的新研究。本书还将详细讨论该方法在挑战离散/组合优化问题（例如路由、调度，分布式和混合整数规划）中的应用，包括在这些情况下使用神经网络近似。

作者：[美]德梅萃·P. 博赛卡斯（Dimitri P. Bertsekas）著

丛书名：国际知名大学原版教材——信息技术学科与电气工程学科系列

定价：139元

印次：1-1

ISBN：9787302599388

出版日期：2022.04.01

印刷日期：2022.03.11

图书责编：崔彤

图书分类：教材

电子书

在线购买

京东天猫电子书

内容简介

作者简介

前言序言

资源下载

查看详情查看详情查看详情

本书目的是从作者最近出版的《强化学习预**控制》教科书中更深入地发展一些方法。特别是，提出了有关涉及多个代理，分区架构和分布式异步计算的系统的新研究。本书还将详细讨论该方法在挑战离散/组合优化问题（例如路由，调度，分配和混合整数编程）中的应用，包括在这些情况下使用神经网络近似。本书可作为计算机科学与技术、控制科学与技术、电子科学与技术等相关领域研究生和高年级本科生的教学参考书，也可供信息、通信、控制、优化等领域的科研人员参考。

Dimitri P. Bertsekas,德梅萃 P.博塞克斯（Dimitri P. Bertseka）,美国MIT终身教授，美国国家工程院院士，清华大学复杂与网络化系统研究中心客座教授。电气工程与计算机科学领域国际知名作者，著有《非线性规划》《网络优化》《动态规划》《凸优化》《强化学习与**控制》等十几本畅销教材和专著。

影印版序本书作者德梅萃·P.博赛卡斯(Dimitri P.Bertsekas)是美国麻省理工学院教授和亚利桑那州立大学教授，也是美国工程院院士。本书是作者近年来相关研究成果的总结。强化学习，也称为近似动态规划、神经元动态规划。本书的内容围绕强化学习中的策略迭代这一核心概念展开。策略迭代指从某个策略出发，不断产生改进策略的过程。如果仅仅生成一步改进策略，就称为策略前展（Rollout）。大量经验表明，策略前展是当前用得最广、最为可靠的强化学习方法之一。主要内容：第1章为动态规划原理；第2章为策略前展与策略改进；第3章为专用策略前展算法；第4章为值和策略的学习；第5章为无限时间分布式和多智能体算法。横空出世的围棋软件AlphaZero算法对本书有很大影响。本书内容同样基于策略迭代、值网络和策略网络的神经网络近似表示、并行与分布式计算和前瞻最小化约简技术的核心框架构建，并对算法的适用范围做了拓展。本书的特色在于给出了分布式计算和多智能体系统框架下的强化学习策略改进计算的效率提升技术，建立了一步策略改进策略前展方法同控制系统中广泛使用的模型预测控制（MPC）设计方法之间的联系，并描述了策略前展方法在复杂离散和组合优化问题方面的应用。　　通过阅读本书，读者可以了解强化学习中的策略迭代，特别是策略前展方法在分布式和多智能体框架下的最新进展和应用。本书可用作人工智能或系统与控制科学等相关专业的高年级本科生或研究生的教材，也适合开展相关研究工作的专业技术人员作为参考书。赵千川 ...