Q学习算法在机会频谱接入信道选择中的应用被引量：4

Application of Q-Learning Algorithm in Channel Selection for Opportunistic Spectrum Access

下载PDF

导出

摘要针对"先听后传"的机会频谱接入中认知用户的信道选择问题,本文提出了一种基于Q学习的信道选择算法。在非理想感知的条件下,通过建立认知用户的信道选择模型并设计恰当的奖励函数,使智能体能够与未知环境不断交互和学习,进而选择长期累积回报最大的信道接入。在学习过程中,本文引入了Boltzmann实验策略,运用模拟退火思想实现了资源探索与资源利用之间的折衷。仿真结果表明,所提算法能够在未知环境先验知识条件下可以快速选择性能较好的信道接入,有效提高认知用户的接入吞吐量和系统的平均容量。 Considering the problem of channel selection for opportunistic spectrum access （OSA）,a Q-Learning based channel selection scheme was proposed for OSA in this paper.A secondary user detected the channels licensed to some primary users periodically before it decided whether to transmit in the OSA system.Under imperfect sensing circumstances,the construction of channel selection model of the secondary user and the designation of an appropriate reward function play a significant role in the continuous interaction and learning between the agent and unknown environment,thus selecting the channel with the maximum cumulative reward.During the learning stage,a Boltzmann learning rule using simulated annealing ideas was employed to realize the tradeoff between channel exploration and exploitation.As the simulation results show,the proposed algorithm can get access to suitable channel,and raise the average system capacity and throughput of the secondary user effectively in the absence of prior knowledge on the channel environment.

作者赵彪李鸥栾红志

机构地区信息工程大学信息系统工程学院

出处《信号处理》 CSCD 北大核心 2014年第3期298-305,共8页 Journal of Signal Processing

基金国家科技重大专项(2008ZX03006) 国家863计划(2012AA711)

关键词认知无线电机会频谱接入信道选择 Q学习 cognitive radio opportunistic spectrum access channel selection Q learning

分类号 TN929.5 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献13

1Choi K W, Hossain E. Opportunistic access to Spectrum holes between packet bursts; a learning-based approach[J]. IEEE Transactions on Wireless Communications, Aug. 2011, W( 8) ;2497-2509.
2MitolaJ. Cognitive radio for flexible mobile multimedia communications[J]. Mobile Networks and Applications, May 2001 ,6(5) ;435-441.
3Zhao Q, Tong L, Swami A, et al. Decentralized cogni?tive MAC for opportunistic spectrum access in ad hoc net?works; a POMDP framework[J]. IEEEJournal on Se?lected Areas in Communications, Mar. 2007, 25 ( 3 ) ; 589-600.
4Chen Y, Zhao Q, Swami A.Joint design and separation principle for opportunistic spectrum access in the presence of sensing errors[J]. IEEE Transactions on Information Theory, May 2008,54(5) ;2053-2071.
5Senthuran S, Anpalagan A, Das O. Throughput Analy?sis of Opportunistic Access Strategies in Hybrid Under?lay-Overlay Cognitive Radio Networks[J]. IEEE Trans?actions on Wireless Communications,Jun. 2012, 11 (6) ;2024-2035.
6Li B W, Yang P L, WangJ L, et al. Optimal Action Point for Dynamic Spectrum Utilization Under Rayleigh Fading[J]. Ad-hoc & Sensor Wireless Networks,Jan. 2013,17(1-2) :1-32.
7Wu L, Wang W, and Zhang Z. A POMDP-based optimal spectrum sensing and access scheme for cognitive radio networks with hardware limitation[J]. 2012 IEEE Wire?less Communications and Networking Conference (WC?NC), Shanghai, China, 2012, pp. 1281-1286.
8Wang Y, Ren P, Zhou S U. A POMDP based distributed adaptive opportunistic spectrum access strategy for cogni?tive ad hoc networks[J]. IEICE Transactions on Commu?nications,Jun. 2011,94(6) :1621-1624.
9张永靖,冯志勇,张平.基于Q学习的自主联合无线资源管理算法[J].电子与信息学报,2008,30(3):676-680. 被引量：9
10Reddy Y B. Detecting primary signals for efficient utiliza?tion of spectrum using Q-leaming[CJ //Information Tech?nology: New Generations, 2008. ITNG 2008, Fifth Inter?national Conference on. IEEE, 2008: 360-365.

二级参考文献25

1Song Q and Jamalipour A. Network selection in an integrated wireless LAN and UMTS environment using mathematical modeling and computing techniques[J]. IEEE Wireless Commun., 2005, 12(3): 42-48.
23GPP TR 25.881 v5.0.0. Improvement of RRM across RNS and RNS/BSS (Release 5) [OL]. http://www.3gpp.org, Dec. 2001.
3IST-2003-507995 Project E2R (End-to-End Reconfigurability) [OL]. http://e2r.motlabs.com, Jan. 2004.
4Agusti R, Salient O, and Perez-Romero J, et al.. A fuzzyneural based approach for joint radio resource management in a beyond 3G framework[C]. First Int. Conf. on Quality of Service in Heterogeneous Wired/Wireless Networks, Barcelona, Mar. 2004: 216-224.
5Luo J, Mohyeldin E, and Dillinger M, et al.. Performance analysis of joint radio resource management for reconfigurable terminals with multi-class circuit-switched services[C]. Wireless World Research Forum 12th Meeting, Toronto, Nov. 2004: 138-150.
6Zhang Y, Zhang K, and Ji Y, et al.. Adaptive threshold joint load control in an end-to-end reconfigurable systemiC]. IST Mobile and Wireless Summit 2006, Mykonos, Jun. 2006: 332-337.
7Kaelbling L P, Littman M L, and Wang X, et al..Reinforcement learning: a survey[J]. Journal of Artificial Intelligence Research, 1996, 4(2): 237-285.
8Nie J and Haykin S. A Q-learning-based dynamic channel assignment technique for mobile communication systems[J]. IEEE Trans. on Vehicular Technology, 1999, 48(5): 1676- 1687.
9Watkins C J C H and Dayan P. Q-learning[J]. Machine Learning, 1992, 8(3): 279-292.
10Radunovic B, Le Boudec J Y. Rate performance objectives of multihop wireless networks[J]. IEEE Trans. on Mobile Computing, 2004, 3(4): 334-349.

共引文献16

1吴启晖,刘琼俐.基于DAQL算法的动态频谱接入方案[J].解放军理工大学学报（自然科学版）,2008,9(6):607-611. 被引量：3
2李默,徐友云,蔡跃明.基于Q-Learning的认知无线电系统感知管理算法[J].电子与信息学报,2010,32(3):623-628. 被引量：3
3吴爱军,李屹.异构无线网络中支持端到端重配置的资源管理技术[J].信息化研究,2010,36(8):5-7. 被引量：1
4赵彦清,朱琦.基于Q学习的异构网络选择新算法[J].计算机应用,2011,31(6):1461-1464. 被引量：4
5江虹,伍春,刘勇.基于强化学习的频谱决策与传输算法[J].系统仿真学报,2013,25(3):565-570. 被引量：1
6薛伟,张东东,宋成君.认知用户基于预测的动态频谱接入算法[J].计算机应用研究,2015,32(7):2097-2100.
7冯陈伟,袁江南.基于强化学习的异构无线网络资源管理算法[J].电信科学,2015,31(8):99-106. 被引量：5
8冯陈伟,张璘.一种基于Q学习的网络接入控制算法[J].计算机工程,2015,41(10):99-104. 被引量：5
9朱江,陈红翠,熊加毫.基于赌博机模型的非时隙信道选择机制[J].电子技术应用,2016,42(1):91-94.
10徐昌彪,朱联军,崔恩东.基于动静态频谱相结合的接纳控制机制[J].电视技术,2016,40(7):70-75.

同被引文献12

1姜永,陈山枝,胡博.异构无线网络中基于Stackelberg博弈的分布式定价和资源分配算法[J].通信学报,2013,34(1):61-68. 被引量：41
2张士兵,王惠建,邹丽.基于POMDP模型的分布式机会频谱接入算法[J].南京邮电大学学报（自然科学版）,2014,34(1):10-16. 被引量：2
3金顺福,代羽.带有接入阈值和超时隙的认知无线网络频谱分配策略[J].电子与信息学报,2014,36(8):1817-1823. 被引量：7
4冯陈伟,张璘.一种基于Q学习的网络接入控制算法[J].计算机工程,2015,41(10):99-104. 被引量：5
5张磊,周金和,张元.基于Stackelberg博弈的云CDN缓存资源分配算法[J].计算机工程,2017,34(8):15-20. 被引量：2
6赵星宇,丁世飞.深度强化学习研究综述[J].计算机科学,2018,45(7):1-6. 被引量：59
7杨鸿杰,张君毅.基于强化学习的智能干扰算法研究[J].电子测量技术,2018,41(20):49-54. 被引量：15
8刘建伟,高峰,罗雄麟.基于值函数和策略梯度的深度强化学习综述[J].计算机学报,2019,42(6):1406-1438. 被引量：119
9胡文杰,钟良骥.基于深度强化学习的协作通信中继选择[J].电讯技术,2020,60(12):1425-1431. 被引量：5
10毛中杰,俞晖,麻智超,王政.基于Q-Learning的深度神经网络自适应退避策略[J].遥测遥控,2021,42(1):19-25. 被引量：1

引证文献4

1张亚洲,周又玲.基于Q-learning的动态频谱接入算法研究[J].海南大学学报（自然科学版）,2018,36(1):9-15. 被引量：1
2韩晨,牛英滔.基于分层Q学习的联合抗干扰算法[J].计算机工程,2019,45(5):279-284. 被引量：5
3马海波,俞力,周新,冯熳.基于Q-learning及其改进算法的信道决策方法[J].现代信息科技,2020,4(20):81-84.
4叶李.基于强化学习的资源受限传感器信号智能采集研究[J].自动化与仪器仪表,2024(1):12-16.

二级引证文献6

1宋军平,赵高丽.低功耗滴灌装置控制过程层的抗干扰通信仿真[J].计算机仿真,2020,37(7):208-212. 被引量：1
2郑娟毅,崔卓,苏海龙,殷帅帅,刘遥遥.基于改进GA-Elman的无线智能传播损耗预测方法[J].计算机工程,2021,47(7):155-160. 被引量：4
3周鑫,何攀峰,陈勇,钱鹏智.混合频谱共享方式下多用户动态频谱分配算法[J].电波科学学报,2021,36(6):977-985. 被引量：4
4韩晨,刘爱军,安康.卫星互联网抗干扰策略研究展望[J].天地一体化信息网络,2022,3(1):50-55. 被引量：3
5陈海涛,龚广伟,张姣,赵海涛,熊俊,魏急波,詹德川.基于NS3-gym框架的智能干扰规避系统设计与实现[J].计算机工程与应用,2023,59(4):252-260.
6张尊栋,王岩楠,周慧娟,张艺帆.Q学习演化博弈中决策机制对网络合作水平的影响[J].计算机工程,2023,49(6):99-106.

1黄影,严定宇,李男.动态频谱接入的Q学习优化算法[J].西安电子科技大学学报,2015,42(6):179-183. 被引量：1
2徐锦起,李侠,秦江敏,朱剑平.散度在雷达网目标检测数据融合中的应用[J].火控雷达技术,2003,32(1):53-56.
3孙德亮,刘召唤.电缆耦合干扰及其抑制措施[J].天津光电线缆技术,2016,0(1):8-11.
4吴启晖,刘琼俐.基于DAQL算法的动态频谱接入方案[J].解放军理工大学学报（自然科学版）,2008,9(6):607-611. 被引量：3
5刘涛.MIMO雷达技术及其应用研究[J].无线互联科技,2015,12(12):136-137. 被引量：1
6徐玉滨,陈佳美,马琳.基于Q学习的WLAN/WIMAX接入控制网络选择策略[J].华南理工大学学报（自然科学版）,2013,41(8):41-46. 被引量：1
7钱进,郭士增,王孝.基于Q学习异构网络干扰协调算法[J].现代电子技术,2016,39(23):13-16. 被引量：1
8赖利峰,张朝阳,管云峰,仇佩亮.无先验知识条件下DSSS信号的检测[J].电路与系统学报,2003,8(5):114-118. 被引量：1
9孙永,钱建生.井下认知无线电EWA信道选择算法[J].哈尔滨工业大学学报,2015,47(6):119-123. 被引量：1
10张雅男,乔瑞娟.基于ZigBee的认知路由协议研究[J].电子世界,2014(6):94-95.

信号处理

2014年第3期

浏览历史

内容加载中请稍等...

Q学习算法在机会频谱接入信道选择中的应用被引量：4

参考文献13

二级参考文献25

共引文献16

同被引文献12

引证文献4

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

Q学习算法在机会频谱接入信道选择中的应用 被引量：4

参考文献13

二级参考文献25

共引文献16

同被引文献12

引证文献4

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

Q学习算法在机会频谱接入信道选择中的应用被引量：4