账号: 密码:
首页  |  宏观指导  |  出版社天地  |  图书代办站  |  教材图书信息 |  教材图书评论 |  在线订购 |  教材征订
  图书分类 - 中图法分类  专业分类  用途分类  自分类  制品类型  读者对象  版别索引 
搜索 新闻 图书 ISBN 作者 音像 出版社 代办站 教材征订
购书 请登录 免费注册 客服电话:010-62510665 62510769
图书查询索引 版别索引 分类索引 中图法分类 专业分类 用途分类 制品类型 读者对象 自分类 最新 畅销 推荐 特价 教材征订
综合查询
马尔可夫决策过程引论 - 中国高校教材图书网
相关类别图书
作 者:胡奇英
出版社:西安电子科技大学出版社
用 途:其他
中 图:综合性图书
专 业:其他
制 品:图书
读 者:普通读者
最新可供书目

战争与文明:从路易十四到拿破仑

中国人民大学出版社


一本书读懂30部管理学经典

清华大学出版社


算法传播十讲

苏州大学出版社


人文职场英语(第2版)学生用书

上海外语教育出版社


数字时代的银龄行动——亚太地区老年人数字素养与技能现状调研

国家开放大学出版社

书名: 马尔可夫决策过程引论
ISBN:7-5606-0830-2 条码:
作者: 胡奇英  相关图书 装订:0
印次:1-1 开本:0
定价: ¥28.00  折扣价:¥26.60
折扣:0.95 节省了1.4元
字数: 451千字
出版社: 西安电子科技大学出版社 页数:
发行编号:110100 每包册数:
出版日期: 2000-07-01
小团购 订购 咨询 推荐 打印 放入存书架 相关评论

内容简介:
马尔可夫决策过程是研究马氏型序贯(动态)决策问题的工具。本书提供了处理离散时间、连续时间、半马氏等三类基本马氏决策过程模型的一般化方法。在此基础上,本书研究了状态部分可观察、多目标、带约束条件等一般化马氏决策过程以及处于随机变化环境中的马氏决策过程。本书最后还提供了马氏决策过程在排队/通信系统控制、生产/存贮系统控制、系统最优更换/维修、质量控制、序贯搜索、柔性制造系统控制等方面的应用例子。
本书可作为运筹学、管理科学、自动控制、通信、制造自动化等专业的大学生与研究生的教材,也可作为有关领域科技人员的参考书。

作者简介:
 
章节目录:
第1章 引 论 (1)
1.1 离散时间马尔可夫决策过程模型 (1)
1.2 报酬过程与准则函数 (2)
1.3 历史 (6)
参考文献 (7)
第2章 有限阶段 (10)
2.1 有限阶段最优方程 (10)
2.2 应用 (13)
2.3 模函数与单调策略 (16)
文献注释 (22)
参考文献 (22)
第3章 折扣准则 (23)
3.1 折扣最优方程 (23)
3.2 (ε)最优策略的性质和结构 (30)
3.3 逐次逼近法与策略迭代法 (35)
3.4 线性规划法 (45)
3.5 状态逼近法 (47)
3.6 Blackwell最优准则 (52)
3.7 非可数决策集 (56)
文献注释 (58)
参考文献 (59)
第4章 总报酬准则 (62)
4.1 模型缩减 (62)
4.2 报酬函数和准则函数的有限性 (63)
4.3 充分条件 (69)
4.4 最优方程与(ε)最优策略 (72)
4.5 逐次逼近法 (76)
文献注释 (77)
参考文献 (77)
第5章 平均准则 (78)
5.1 引言和反例 (78)
5.2 平均准则最优方程 (82)
5.3 多链马尔可夫决策过程 (89)
5.4 策略迭代法 (97)
5.5 逐次逼近法 (101)
5.6 线性规划法 (108)
5.7 最优不等式 (112)
文献注释 (120)
参考文献 (122)
第6章 半马尔可夫决策过程 (125)
6.1 半马尔可夫决策过程模型 (125)
6.2 转换为离散时间马尔可夫决策过程 (132)
文献注释 (139)
参考文献 (140)
第七章 连续时间马尔可夫决策过程 (141)
7.1 连续时间马尔可夫决策过程模型 (141)
7.2 期望折扣总报酬准则 (144)
7.3 平均准则 (149)
7.4 非平稳期望总报酬准则 (151)
文献注释 (158)
参考文献 (158)
第8章 一般化马尔可夫决策过程 (160)
8.1 状态部分可观察的马尔可夫决策过程 (160)
8.2 约束马尔可夫决策过程 (169)
8.3 多目标马尔可夫决策过程 (180)
8.4 摄动马尔可夫决策过程 (190)
文献注释 (199)
参考文献 (201)
第9章 随机环境马尔可夫决策过程 (206)
9.1 半氏环境连续时间马尔可夫决策过程 (206)
9.2 半马尔可夫环境半马尔可夫决策过程 (223)
9.3 半马尔可夫环境混合马尔可夫决策过程 (230)
文献注释 (238)
参考文献 (239)
第10章 在排队/通信系统中的应用 (240)
10.1 排队系统的到达控制 (240)
10.2 排队系统服务控制 (246)
10.3 排队网络控制 (250)
10.4 通信网络控制 (253)
文献注释 (255)
参考文献 (255)
第11章 在其他方面的应用 (257)
11.1 生产/存贮系统最优控制 (257)
11.2 系统最优更换/维修 (259)
11.3 质量控制 (266)
11.4 目标的最优搜索 (268)
11.5 柔性制造系统最优路径控制 (270)
文献注释 (272)
参考文献 (272)

精彩片段:
 
书  评:
马尔可夫决策过程(Markov Decision Processes,简记为MDP,也称马尔可夫决策规划或马尔可夫控制系统等)是研究一类随机序贯决策问题的理论。所谓随机序贯决策问题,是指在一系列相继的或连续的时刻(称之为决策时刻)点上作出决策,在每个决策时刻点,决策者根据观察到的状态从可用的若干个决策中选择一个;将决策付诸实施后,系统将获得与所处状态和所采取决策有关的一项报酬(或费用等)并影响系统在下一决策时刻点所处的状态。系统在下一决策时刻点处的状态是随机的。在这一新的决策时刻点上,决策者要观察系统所处的新的状态(即收集新的信息)并采取新的决策,如此一步一步进行下去。在每一决策时刻采取的决策都会影响下一决策时刻系统的运行(状态,决策),并以此影响将来。决策的目的是使系统的运行在某种意义下(称为准则)达到最优。马尔可夫决策过程就是研究这种马尔可夫型随机序贯决策问题的一门学科,是(确定性)动态规划与马尔可夫过程相结合的产物。
它不像动态规划那样以Bellman的“最优化原理”作为研究的出发点,而是从一些简单的、易于验证的条件(或公理)出发来严格证明“最优化原理”。MDP既是随机运筹学的一门分支,也是应用概率的一门分支,同时,作为马尔可夫型系统最优控制的理论,它亦属于随机系统最优控制的范畴。MDP与近年来兴起的计算机集成制造系统中的系统理论——离散事件动态系统理论密切相关。实际上,它是随机型离散事件动态系统的唯一的动态控制方法,
与离散事件动态系统的逻辑控制方法也有着密切的关系。
MDP中的一些概念可以说在1960年之前已经产生,但1960年Howard所著的《动态规划与马尔可夫过程》一书奠定了MDP作为独立学科的基础,1962年Blackwell的文章则为在这一领域进行进一步的研究提供了动力。MDP中基本的模型有离散时间马氏决策过程、连续时间马氏决策过程和半马氏决策过程,在此基础上,考虑更为接近实际问题的模型有状态部分可观察的、多目标的、自适应的、带约束条件的以及作者近年提出的随机环境MDP。从准则函数来说,有折扣准则、平均准则、期望总报酬准则、加权准则、折扣矩最优准则、样本路径准则等等。
马氏决策过程的应用领域十分广泛,这些领域有:生产存贮系统、系统更换/维修、制造系统的调度控制、计算机/通信网络系统控制、动态资产定价、广告优化、商品与服务的定价、质量控制、序贯搜索、水资源管理、森林管理、航空订票、高速公路管理等等。
MDP产生至今已近40年,国内的研究自中科院应用数学所已故研究员、作者的导师董泽清老师(1978)至今已有20余年,已有的研究内容相当丰富,应用领域也十分广泛。但仍有需进一步研究、探讨和开垦的应用领域。
作者在三项国家自然科学基金的资助下,先后对MDP的多个方面进行了系统的研究,与合作者一起已发表和待发表的论文近80篇,主要的工作包括以下几个方面:(1)在基本模型的离散时间MDP方面,运用初等方法进行了系统的讨论。对折扣准则,证明了其最优方程有定义时就成立,提出了一种无界报酬条件,其中准则函数值空间中的范数不再有限,以至通常的算子方法失效,在最优策略性质与算法等方面也作了系统的研究;对平均准则,研究了Bellman最优性原理、最优方程、最优不等式,对它们成立的条件作了充分的弱化。(2)在一般化马氏决策过程的状态部分可观察、多目标、带约束条件等方面作了较为系统和深入的研究;提出和研究了模型中的参数随环境的变化而变化的一类新模型——随机环境MDP模型,系统地研究了具有折扣准则和总报酬准则的随机环境连续时间MDP模型、半MDP模型等的结构、性质、模型的逼近、算法等,从而在很大的程度上推广了MDP的研究领域和应用领域。(3)研究了MDP中模型间的转换关系,将复杂难处理的模型转换为较简单易处理的模型,从而可将后者中的大量结果直接推广到前者中去,为研究复杂模型开辟了一条简捷的途径,如对连续时间马氏决策过程、半马氏决策过程、随机环境马氏决策过程等,同时将折扣矩最优准则转化为一系列的折扣准则。(4)研究了MDP在存贮系统最优控制、设备最优更换/维修、bandit问题等中的应用,得到了具有简单结构的易于实施的最优策略。
本书第1章到第5章研究离散时间马氏决策过程。其中第1章介绍基本模型,第2章介绍有限阶段期望总报酬准则,它与动态规划中的情况比较类似,其重点放在若干应用例子上。第3章系统地介绍了折扣准则,包括基本内容方面的折扣准则最优方程和(ε)最优平稳策略的存在性、性质,以及求解(ε)最优平稳策略的算法,讨论了罗朗级数展开以及Blackwell准则,并在最后一节讨论了非可数决策空间的情形,这对解决后面的一些应用问题是必不可少的。这些内容大部分是对报酬函数无界时给

其  它:
 

专业分类
经济学  公共课与文化课  政治法律  教育学  文学艺术  历史学  理学  工学  农学  医学  计算机/网络  管理学  其他  外语  哲学
用途分类
大学本科教材 大学本科以上教材 大学教学参考书 考研用书 自学考试教材 高职高专教材 中职、中专类教材 中小学教材、教辅
电大用书 学术专著 考试辅导类图书 工具书 培训教材 其他
中图法分类
医药、卫生  语言、文字  工业技术  交通运输  航空、航天  环境科学、安全科学  综合性图书  文学  艺术  历史、地理  自然科学总论  数理科学和化学  天文学、地球科学  生物科学  哲学、宗教  社会科学总论  政治、法律  军事  经济  马克思主义、列宁主义、毛泽东思想、邓小平理论  文化、科学、教育、体育  农业科学
版别索引
北京大学出版社 北京师范大学出版社 清华大学出版社 中国人民大学出版社
北京工业大学出版社 北京大学医学出版社 北京航空航天大学出版社 北京交通大学出版社
北京理工大学出版社 北京体育大学出版社 北京邮电大学出版社 中央音乐学院出版社
北京语言大学出版社 对外经济贸易大学出版社 国家开放大学出版社 首都经济贸易大学出版社
首都师范大学出版社 外语教学与研究出版社
更多...
网上购书指南
一、我的账户
用户注册
用户登录
修改用户密码
修改个人资料
二、查询图书
快速查询
分类查询
综合查询
三、订购图书
第一步点击“订购”按钮
第二步确定收货人信息
第三步提交订单
存书架
四、邮购方式
普通邮寄
特快专递
五、付款方式
支付宝
邮局汇款
六、我的订单
查询订单
修改或取消订单
联系我们

| 我的帐户 | 我的订单 | 购书指南| 关于我们 | 联系我们 | 敬告 | 友情链接 | 广告服务 |

版权所有 © 2000-2002 中国高校教材图书网    京ICP备10054422号-7    京公网安备110108002480号    出版物经营许可证:新出发京批字第版0234号
经营许可证编号:京ICP证130369号    技术支持:云因信息