无线传感器网络中基于MDP的MAS协作策略的优化及分布执行被引量：1

Optimization and Distributed Execution of MAS Cooperative Strategy Based on MDP in Wireless Sensor Networks

下载PDF

导出

摘要为降低马尔可夫决策模型生成MAS协作策略的复杂度,减少协作通信量,在无线传感器网络中利用agent状态之间存在的条件独立性与上下文独立性关系提出了一种新的优化方法。方法通过分解并优化SPI算法生成的策略树,使得MAS中处于独立状态的agent可以分布独立运行,只有在需要同其他agent协商时才进行通信。并在协作中采用Q分解机制实现共享资源的分配,减少资源使用冲突,获取更大奖励。使用STATLOGO软件对方法进行验证,实验结果表明该方法在MAS完成协作任务获取目标奖励的同时,具有产生通信量较小的优点。 In order to reduce the complexity created by MDP model and the cooperation traffic, the method of creating strategy tree by the model is improved. Using the context-specific and conditional independence existing among the agent states in wireless sensor networks, the tree created by SPI algorithm is decomposed and optimized. This makes the independent agents in MAS running independently, and only communicating with each other when cooperation is needed. During operation Q-decomposition approach is proposed for resource allocating. Simulation experiment was developed by STARLOGO. Simulation indicates that MAS applying the strategy not only accomplishes the task and gains the reward, but effectively reduces traffic simultaneously.

作者王晓伶慕德俊刘哲元

机构地区西北工业大学自动化学院

出处《传感技术学报》 CAS CSCD 北大核心 2009年第4期520-525,共6页 Chinese Journal of Sensors and Actuators

基金国防基础科研项目资助(C2720061361)

关键词多智能体系统马尔可夫决策过程无线传感器网络上下文独立条件独立 Q分解 MAS MDP wireless sensor network context-specific independence conditional independence Q-decomposition

分类号 TP393.15 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1Qi H, Xu Y. Mobile Agent Based Collaborative Signal and Information Processing in Sensor Networks. Proceeding of IEEE , 2003,91 (8) : 1172-1183.
2IL YAS M, MAHGOUB I. Handbook of Sensor Networks: Compact Wireless and Wired Sensing Systems [M]. USA : CRC Press ,2005.
3Bernstein D S, Givan R, Immerman N, and Zilberstein S. The Complexity of Centralized Control of Markov Decision Processes[J]. Mathematics of Operations Research, 2002.
4Goldman C V, Zilberstein S. Decentralized Control of Cooperative Systems: Categorization and Complexity Analysis [J]. Journal of Al Research, 2004.
5Maayan Roth, Reid Simmons and Manuela Veloso, Exploiting Factored Representations for Decentralized[J]. AAMAS07, 2007 : 469- 475.
6Boutilier C, Dearden R, and Goldszmidt M. Stochastic Dynamic Programming with Factored Representations[J]. Artificial Intelligence, 2000.
7Pierrick Plamondon, Brahim Chaib-draa and Abder Rezak Benaskeur. A Q-Decomposition and Bounded RTDP Approach to Resource Allocation[J]. AAMAS07, 2007 : 1212-1219.
8Stuart Russell, Andrew L. Zimdars. Q-Decomposition for Reinforcementlearning Agents[J]. Proceedings of the Twentieth International Conference on Machine Learning. 2003.
9王飞,刘大有,卢奕男,薛万欣.Bayesian网中的独立关系[J].计算机科学,2001,28(12):33-36. 被引量：2
10陈志,王汝传,孙力娟.一种无线传感器网络的多Agent系统模型[J].电子学报,2007,35(2):240-243. 被引量：14

二级参考文献26

1[1]Kumar S,Zhao F,shepherd D.Collaborative Ssignal and Information Processing in Microsensor Networks[J].IEEE Signal Processing Magazine,2002,9(2):13-14.
2[2]Zhao F,Zhin J,Reich J.Information-Driven Dynamic Sensor Collaboration for Tracking Applications[J].IEEE Signal Processing Magazine,2002,I9(2):61-72.
3[3]Guibas L J.Sensing,tracking,and Reasoning with Relations[J].IEEE Signal Processing Magazine,2002,19(2):73-85.
4[4]Qi H,Xu Y.Mobile-Agent-Based Collaborative Signal and Information Processing in Sensor Networks[J].Proc.IEEE,2003,91(8):1172-1183.
5Zhang N，Tech Report HKUSTCS98-09，1998年
6Zhang T，Proc of the Fifteenth ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems，1996年
7Zhang N，Journal of Artificial Intelligence Research，1996年，5卷，301页
8Zhang N，Proc of the Tenth Canadian Conf on Artificial Intelligence，1994年，171页
9Zhang N，UAI'98
10Bagnell J, Kakade S, Schneider J, et al. Policy Search by Dynamic Programming [M]. Neural Information Processing Systems, Cambridge: MIT Press, 2003.

共引文献17

1吴璞,王汝传.层次式无线传感器网络中的协商机制研究[J].计算机技术与发展,2008,18(3):5-8.
2付晓,于振华,刘宇.一种无线传感器网络形式化模型及应用研究[J].传感技术学报,2008,21(9):1623-1628. 被引量：3
3王晓伶,慕德俊,刘哲元,袁源.基于可分解MDP模型的MAS协作策略优化及分布执行[J].计算机科学,2009,36(1):39-42.
4唐伦,陈前斌,曾孝平.泛在网络的Multi-Agent系统模型[J].计算机工程与设计,2009,30(5):1080-1083. 被引量：2
5冯延蓬,仵博,蔡学军.一种基于多智能体系统的分布式规划系统[J].深圳职业技术学院学报,2009,8(5):18-21. 被引量：1
6陈志,史倢,章韵,王星波,金少华,扈罗全.基于Agent的无线传感器网络AUML交互模型[J].传感技术学报,2010,23(11):1617-1622. 被引量：2
7章韵,王静玉,陈志,鲍贵城,周峰,扈罗全.基于Q学习的无线传感器网络自组织方法研究[J].传感技术学报,2010,23(11):1623-1626. 被引量：5
8张宇晴,郑小建.基于Agent的高效无线传感网络路由算法[J].重庆科技学院学报（自然科学版）,2011,13(5):143-145.
9周淑俐,章韵,陈志,扈罗全,岳文静.基于Q学习的多Sink节点无线传感网路由机制研究[J].传感技术学报,2011,24(10):1479-1483. 被引量：4
10张国富,周鹏,蒋建国,苏兆品,田敬北,刘扬.基于虚拟联盟的重叠联盟形成算法[J].电子学报,2012,40(1):121-127. 被引量：8

同被引文献6

1聂云峰,舒坚,龚佳杰,谌业斌.基于RSSI的无线传感器网络通信覆盖研究[J].传感技术学报,2011,24(7):1066-1069. 被引量：6
2杨萍,杨卫,张文栋.基于单片机的无线传感器网络的通信节点设计[J].仪表技术与传感器,2012(12):84-85. 被引量：2
3徐征,张华,岳国栋,刘冲,王天娆.无线传感器网络中的传感器节点分组控制策略[J].传感器与微系统,2013,32(1):63-65. 被引量：3
4靳勇,白光伟,常晋义.无线传感器网络自适应多中继协作差错控制策略[J].小型微型计算机系统,2013,34(4):753-759. 被引量：1
5王旭,曾鹏,汪扬.双信道无线传感器网络自适应频率切换算法[J].仪表技术与传感器,2013(4):64-67. 被引量：2
6王奎英,魏义长,袁枫,董远.基于远距离通信模块的无线传感器网络设计[J].仪表技术与传感器,2014(9):106-110. 被引量：1

引证文献1

1孟玲玲.基于DSC-MIMO的无线传感器网络通信策略研究[J].仪表技术与传感器,2016(9):86-89.

1王晓伶,慕德俊,刘哲元,袁源.基于可分解MDP模型的MAS协作策略优化及分布执行[J].计算机科学,2009,36(1):39-42.
2廖善良,来嘉哲,杨帆.基于多Agent的网络防御建模与仿真[J].指挥控制与仿真,2013,35(6):71-75.
3杨晓庆.计算机系统与计算机网络中的动态优化:模型、求解与应用[J].计算机光盘软件与应用,2014,17(9):108-108. 被引量：3
4赵飞,刘宁,秦敏.计算机系统与计算机网络中的动态优化[J].山东工业技术,2016(6):142-142. 被引量：1
5舒云飞.你偷网站Logo 我来偷软件Logo[J].电脑爱好者,2009(23):38-38.
6李畅,聂定远,刘东.马尔可夫决策在Web服务选择中的应用[J].高等函授学报（自然科学版）,2007,20(2):38-40.
7储毅,赵敏.基于马尔可夫决策的动态电源管理技术[J].电子科技大学学报,2007,36(3):521-523. 被引量：3
8张国秀,邓宏彬,赵娜,王超.未知环境下基于模糊控制多机器人编队算法[J].指挥与控制学报,2016,2(3):182-187. 被引量：5
9刘甜甜,贾智平,Edwin H. -M. Sha.嵌入式通信系统中基于动态多因素的马尔可夫决策路由[J].上海交通大学学报,2007,41(10):1607-1607.
10李向鹏.基于马尔可夫决策过程的无线传感器网络速率控制[J].计算机与现代化,2012(7):152-154. 被引量：1

传感技术学报

2009年第4期

浏览历史

内容加载中请稍等...

无线传感器网络中基于MDP的MAS协作策略的优化及分布执行被引量：1

参考文献12

二级参考文献26

共引文献17

同被引文献6

引证文献1

相关作者

相关机构

相关主题

浏览历史

无线传感器网络中基于MDP的MAS协作策略的优化及分布执行 被引量：1

参考文献12

二级参考文献26

共引文献17

同被引文献6

引证文献1

相关作者

相关机构

相关主题

浏览历史

无线传感器网络中基于MDP的MAS协作策略的优化及分布执行被引量：1