马尔可夫决策过程引论 - 中国高校教材图书网

中国大学出版社协会 | 首页 | 宏观指导 | 出版社天地 | 图书代办站 | 教材图书信息 | 教材图书评论 | 在线订购 | 教材征订

搜索新闻图书 ISBN 作者音像出版社代办站教材征订

购书请登录免费注册客服电话:010-62510665 62510769

购书指南购物车我的订单征订单存书架小团购二手书优惠活动关于我们

图书查询索引 版别索引分类索引中图法分类专业分类用途分类制品类型读者对象自分类最新畅销推荐特价教材征订

准确查询综合查询

马尔可夫决策过程引论 - 中国高校教材图书网

	书名：	马尔可夫决策过程引论
	ISBN：	7-5606-0830-2	条码：
	作者：	胡奇英相关图书	装订：	0
	印次：	1-1	开本：	0
	定价：	￥28.00　折扣价：￥26.60 折扣：0.95 节省了1.4元	字数：	451千字
	出版社：	西安电子科技大学出版社	页数：
	发行编号：	110100	每包册数：
	出版日期：	2000-07-01
	    

小团购订购咨询推荐打印放入存书架

内容简介：
马尔可夫决策过程是研究马氏型序贯(动态)决策问题的工具。本书提供了处理离散时间、连续时间、半马氏等三类基本马氏决策过程模型的一般化方法。在此基础上，本书研究了状态部分可观察、多目标、带约束条件等一般化马氏决策过程以及处于随机变化环境中的马氏决策过程。本书最后还提供了马氏决策过程在排队/通信系统控制、生产/存贮系统控制、系统最优更换/维修、质量控制、序贯搜索、柔性制造系统控制等方面的应用例子。本书可作为运筹学、管理科学、自动控制、通信、制造自动化等专业的大学生与研究生的教材，也可作为有关领域科技人员的参考书。
作者简介：

章节目录：
第1章引论 (1) 1.1 离散时间马尔可夫决策过程模型 (1) 1.2 报酬过程与准则函数 (2) 1.3 历史 (6) 参考文献 (7) 第2章有限阶段 (10) 2.1 有限阶段最优方程 (10) 2.2 应用 (13) 2.3 模函数与单调策略 (16) 文献注释 (22) 参考文献 (22) 第3章折扣准则 (23) 3.1 折扣最优方程 (23) 3.2 (ε)最优策略的性质和结构 (30) 3.3 逐次逼近法与策略迭代法 (35) 3.4 线性规划法 (45) 3.5 状态逼近法 (47) 3.6 Blackwell最优准则 (52) 3.7 非可数决策集 (56) 文献注释 (58) 参考文献 (59) 第4章总报酬准则 (62) 4.1 模型缩减 (62) 4.2 报酬函数和准则函数的有限性 (63) 4.3 充分条件 (69) 4.4 最优方程与(ε)最优策略 (72) 4.5 逐次逼近法 (76) 文献注释 (77) 参考文献 (77) 第5章平均准则 (78) 5.1 引言和反例 (78) 5.2 平均准则最优方程 (82) 5.3 多链马尔可夫决策过程 (89) 5.4 策略迭代法 (97) 5.5 逐次逼近法 (101) 5.6 线性规划法 (108) 5.7 最优不等式 (112) 文献注释 (120) 参考文献 (122) 第6章半马尔可夫决策过程 (125) 6.1 半马尔可夫决策过程模型 (125) 6.2 转换为离散时间马尔可夫决策过程 (132) 文献注释 (139) 参考文献 (140) 第七章连续时间马尔可夫决策过程 (141) 7.1 连续时间马尔可夫决策过程模型 (141) 7.2 期望折扣总报酬准则 (144) 7.3 平均准则 (149) 7.4 非平稳期望总报酬准则 (151) 文献注释 (158) 参考文献 (158) 第8章一般化马尔可夫决策过程 (160) 8.1 状态部分可观察的马尔可夫决策过程 (160) 8.2 约束马尔可夫决策过程 (169) 8.3 多目标马尔可夫决策过程 (180) 8.4 摄动马尔可夫决策过程 (190) 文献注释 (199) 参考文献 (201) 第9章随机环境马尔可夫决策过程 (206) 9.1 半氏环境连续时间马尔可夫决策过程 (206) 9.2 半马尔可夫环境半马尔可夫决策过程 (223) 9.3 半马尔可夫环境混合马尔可夫决策过程 (230) 文献注释 (238) 参考文献 (239) 第10章在排队/通信系统中的应用 (240) 10.1 排队系统的到达控制 (240) 10.2 排队系统服务控制 (246) 10.3 排队网络控制 (250) 10.4 通信网络控制 (253) 文献注释 (255) 参考文献 (255) 第11章在其他方面的应用 (257) 11.1 生产/存贮系统最优控制 (257) 11.2 系统最优更换/维修 (259) 11.3 质量控制 (266) 11.4 目标的最优搜索 (268) 11.5 柔性制造系统最优路径控制 (270) 文献注释 (272) 参考文献 (272)
精彩片段：

书　　评：
马尔可夫决策过程(Markov Decision Processes,简记为MDP，也称马尔可夫决策规划或马尔可夫控制系统等)是研究一类随机序贯决策问题的理论。所谓随机序贯决策问题，是指在一系列相继的或连续的时刻(称之为决策时刻)点上作出决策，在每个决策时刻点，决策者根据观察到的状态从可用的若干个决策中选择一个；将决策付诸实施后，系统将获得与所处状态和所采取决策有关的一项报酬(或费用等)并影响系统在下一决策时刻点所处的状态。系统在下一决策时刻点处的状态是随机的。在这一新的决策时刻点上，决策者要观察系统所处的新的状态(即收集新的信息)并采取新的决策，如此一步一步进行下去。在每一决策时刻采取的决策都会影响下一决策时刻系统的运行(状态，决策)，并以此影响将来。决策的目的是使系统的运行在某种意义下(称为准则)达到最优。马尔可夫决策过程就是研究这种马尔可夫型随机序贯决策问题的一门学科，是(确定性)动态规划与马尔可夫过程相结合的产物。它不像动态规划那样以Bellman的“最优化原理”作为研究的出发点，而是从一些简单的、易于验证的条件(或公理)出发来严格证明“最优化原理”。MDP既是随机运筹学的一门分支，也是应用概率的一门分支，同时，作为马尔可夫型系统最优控制的理论，它亦属于随机系统最优控制的范畴。MDP与近年来兴起的计算机集成制造系统中的系统理论——离散事件动态系统理论密切相关。实际上，它是随机型离散事件动态系统的唯一的动态控制方法，与离散事件动态系统的逻辑控制方法也有着密切的关系。 MDP中的一些概念可以说在1960年之前已经产生，但1960年Howard所著的《动态规划与马尔可夫过程》一书奠定了MDP作为独立学科的基础，1962年Blackwell的文章则为在这一领域进行进一步的研究提供了动力。MDP中基本的模型有离散时间马氏决策过程、连续时间马氏决策过程和半马氏决策过程，在此基础上，考虑更为接近实际问题的模型有状态部分可观察的、多目标的、自适应的、带约束条件的以及作者近年提出的随机环境MDP。从准则函数来说，有折扣准则、平均准则、期望总报酬准则、加权准则、折扣矩最优准则、样本路径准则等等。马氏决策过程的应用领域十分广泛，这些领域有:生产存贮系统、系统更换/维修、制造系统的调度控制、计算机/通信网络系统控制、动态资产定价、广告优化、商品与服务的定价、质量控制、序贯搜索、水资源管理、森林管理、航空订票、高速公路管理等等。 MDP产生至今已近40年，国内的研究自中科院应用数学所已故研究员、作者的导师董泽清老师(1978)至今已有20余年，已有的研究内容相当丰富，应用领域也十分广泛。但仍有需进一步研究、探讨和开垦的应用领域。作者在三项国家自然科学基金的资助下，先后对MDP的多个方面进行了系统的研究，与合作者一起已发表和待发表的论文近80篇，主要的工作包括以下几个方面:(１)在基本模型的离散时间MDP方面，运用初等方法进行了系统的讨论。对折扣准则，证明了其最优方程有定义时就成立，提出了一种无界报酬条件，其中准则函数值空间中的范数不再有限，以至通常的算子方法失效，在最优策略性质与算法等方面也作了系统的研究;对平均准则，研究了Bellman最优性原理、最优方程、最优不等式，对它们成立的条件作了充分的弱化。(２）在一般化马氏决策过程的状态部分可观察、多目标、带约束条件等方面作了较为系统和深入的研究;提出和研究了模型中的参数随环境的变化而变化的一类新模型——随机环境MDP模型，系统地研究了具有折扣准则和总报酬准则的随机环境连续时间MDP模型、半MDP模型等的结构、性质、模型的逼近、算法等，从而在很大的程度上推广了MDP的研究领域和应用领域。(３）研究了MDP中模型间的转换关系，将复杂难处理的模型转换为较简单易处理的模型，从而可将后者中的大量结果直接推广到前者中去，为研究复杂模型开辟了一条简捷的途径，如对连续时间马氏决策过程、半马氏决策过程、随机环境马氏决策过程等，同时将折扣矩最优准则转化为一系列的折扣准则。(４）研究了MDP在存贮系统最优控制、设备最优更换/维修、bandit问题等中的应用，得到了具有简单结构的易于实施的最优策略。本书第1章到第5章研究离散时间马氏决策过程。其中第1章介绍基本模型，第2章介绍有限阶段期望总报酬准则，它与动态规划中的情况比较类似，其重点放在若干应用例子上。第3章系统地介绍了折扣准则，包括基本内容方面的折扣准则最优方程和(ε)最优平稳策略的存在性、性质，以及求解(ε)最优平稳策略的算法，讨论了罗朗级数展开以及Blackwell准则，并在最后一节讨论了非可数决策空间的情形，这对解决后面的一些应用问题是必不可少的。这些内容大部分是对报酬函数无界时给
其　　它：
相关评论发表评论

| 我的帐户 | 我的订单 | 购书指南| 关于我们 | 联系我们 | 敬告 | 友情链接 | 广告服务 |

版权所有 © 2000-2002 中国高校教材图书网京ICP备10054422号-7 京公网安备110108002480号出版物经营许可证：新出发京批字第版0234号
经营许可证编号：京ICP证130369号技术支持：云因信息