基于Q-强化学习的多Agent协商策略及算法被引量：7

Strategy and Algorithm of Multi-Agent Negotiation Based on Q-reinforcement Learning

下载PDF

导出

摘要针对传统Agent协商策略学习能力不足,不能满足现代电子商务环境需要的问题,采用Q-强化学习理论对Agent的双边协商策略加以改进,提出基于Q-强化学习的Agent双边协商策略,并设计实现该策略的算法。通过与时间协商策略比较,证明改进后的Agent协商策略在协商时间、算法效率上优于未经学习的时间策略,能够增强电子商务系统的在线学习能力,缩短协商时间,提高协商效率。 As lack of sufficient learning ability in traditional negotiation strategy of Agents, Agents＇ techniques are still unable to meet the needs of modern E-commerce. Aiming at this problem, Q-reinforcement learning theory is adapted to improve the bilateral negotiation strategy of Agents and the corresponding negotiation algorithm is designed to achieve the negotiation strategies. Comparing with the negotiation strategy of time strategy, the proposed Agent negotiation strategy is better than time strategy in terms of negotiation time and algorithm efficiency. It shows that algorithm can strengthen online learning ability of E-commerce system, shorten the negotiation time, and improve the negotiation efficiency.

作者隋新蔡国永史磊

机构地区桂林电子科技大学计算机与控制学院

出处《计算机工程》 CAS CSCD 北大核心 2010年第17期198-200,共3页 Computer Engineering

基金广西省自然科学基金资助项目(0728089) 广西研究生教育创新计划基金资助项目(2009105950812M18)

关键词 Q-强化学习多AGENT 协商策略 Q-reinforcement learning multi-Agent negotiation strategy

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献5

1Stone P,Veloso M.Multi-Agent Systems:A Survey from a Machine Learning Perspective[J].Autonomous Robots,2000,8(3):345-383.
2Watkins C,Dayan P.Q-learning[J].Machine Learning,1992,8(3):297-292.
3张化祥,黄上腾.基于增强学习的代理谈判模型[J].计算机工程,2004,30(10):137-139. 被引量：7
4Zeng Dajuan,Sycara K.Benefits of Learning in Negotiation[C] //Proc.of National Conference on American Association for Artificial Intelligence.Menlo Park,CA,USA:[s.n.] ,1997.
5Sycara K P.Multi-agent Systems[J].AI Magazine,1998,19(2):79-90.

二级参考文献9

1[1]Paurobally S,Cunning Barm J.Formal Models for Negotiation Using Dynamic Logic. In:Sierra C,Digmm F(Editors),Springer Verlag,2000
2[2]Rubinstein A.Peffect Equilibrium in a Bargaining Model. Econometrica, 1982, 50, (I): 97-109
3[3]Ausubel L M,Cramton P C,Deneckere R J.Bargaining with Incomplete Information. Handbook of Game Theory, Amsterdam: Elsevier Science B.V., 2001-03
4[4]Cramton P C.Strategie Delay in Bargaining with Two-dided Uncertaihty. Review of Economic Studies, 1992,59:205-225
5[5]Zeus. Agent Development Toolkit. http://www, labs.bt.com/pro jects/agents, htm, 2001
6[6]Mictchill T M. Machine Learning. The McGraw-Hill Companies, Inc.,1997:367-386
7[7]Sridharan M, Tesauro G. Multi-agent Q-learning and Regression Trees for Automated Pricing Decisions. Proc. ICML-00, 2000
8[8]Tesauro G, Kephart G O. Pricing in Agent Economies Using Multiagent Q-learning. Autonomous Agents and Multi-agent Systems.2002, (5):299-304
9[9]Oliver J R. A Machine Learning Approach to Automated Negotiation and Prospects for Electronic Commerce. Journal of Management Information Systems, 1997, 13(3): 83-112

共引文献6

1孙天昊,朱庆生,李双庆,周明强.一种优化的基于增强学习协商策略[J].计算机工程与应用,2008,44(30):24-25. 被引量：2
2纪淑娟,梁永全,张纯金,田启家.通用的个性化自动谈判服务框架及其实现[J].计算机工程,2009,35(17):11-13. 被引量：1
3张森林,屈少青,陈皓勇,张浩,荆朝霞,匡卫洪.大用户直购中基于Q学习算法的多代理两阶段谈判策略[J].电力系统自动化,2010,34(6):37-41. 被引量：11
4孙天昊,邓俊昆,陈飞,朱庆生.基于增强学习协商策略的研究及优化[J].计算机工程与应用,2012,48(23):44-46. 被引量：1
5张科,罗军,邓俊昆.基于改进增强学习算法的双边多协议协商策略[J].计算机科学,2014,41(1):290-292. 被引量：2
6张京敏,董红斌.基于中介Agent的强化学习优化协商模型[J].计算机科学,2017,44(1):53-59. 被引量：3

同被引文献55

1张化祥,黄上腾.基于增强学习的代理谈判模型[J].计算机工程,2004,30(10):137-139. 被引量：7
2谢君,胡容兵.供应链的合作伙伴选择方法综述[J].价值工程,2005,24(1):43-46. 被引量：34
3牛晓太,王洋,邓其军.一种基于GA的自动谈判问题解决方案[J].计算机工程与应用,2005,41(24):197-200. 被引量：6
4贺红燕,朱军勇,许丽红,王媛.供应商选择方法综述[J].河北工业科技,2005,22(5):308-311. 被引量：21
5刘常昱,胡晓峰,司光亚,罗批.基于小世界网络的舆论传播模型研究[J].系统仿真学报,2006,18(12):3608-3610. 被引量：80
6聂兰顺,徐晓飞,战德臣.MTO型供应链的价格/交货期协商支持模型[J].信息与控制,2007,36(2):129-135. 被引量：4
7Regan H M,Colyvan M,Markovchick N L.A Formal Model for Consensus and Negotiation in Environmental Management[J].Journal of Environmental Management,2006,80(2):167-176.
8TAH J,NDUMU D.Using software agents for preplanning and tendering[J].Proceedings of the Institution of the ICE-Civil Engineering,2002,150(6):51-55.
9KHEDRO T,GENESERETH M.Progressive negotiation for resolving conflicts among distributed heterogeneous cooperatingagents[C]//12th National Conference on Artificial Intelligence,[s.l.]:John Wiley-Sons Ltd,1994:381-386.
10PENA-MORA F.A collaborative negotiation methodology for large scale civil engineering and architectural projects[C].AI in structural engineering,Lecture Notes in AI.Berlin:Springer,1998:271-294.

引证文献7

1伍京华,孙华梅,张新刚,孟海亮.Agent劝说中的积极舆论模型及其评价[J].计算机工程,2011,37(9):204-206. 被引量：4
2罗志伟.多学科协同设计系统的协商策略模型[J].厦门理工学院学报,2012,20(1):47-51.
3蒋国瑞,胡应兰.基于D-S证据理论的多Agent辩论谈判策略研究[J].计算机工程与应用,2013,49(12):36-40.
4邓佳宾,廉佐政,王海珍,李耀成,韩江.基于记忆模型学习的商务Agent协商设计[J].齐齐哈尔大学学报（自然科学版）,2014,30(6):38-40.
5武玉英,李豪,蒋国瑞.基于RBF神经网络和强化学习算法的供应链产销协同计划冲突消解研究[J].计算机应用研究,2015,32(5):1335-1338. 被引量：5
6张京敏,董红斌.基于中介Agent的强化学习优化协商模型[J].计算机科学,2017,44(1):53-59. 被引量：3
7陈畴镛,陈春娣.供应链协同采购议价及其冲突消解策略研究[J].杭州电子科技大学学报（社会科学版）,2018,14(5):1-10. 被引量：1

二级引证文献12

1武玉英,胡喆,何喜军,蒋国瑞.公平关切下的供应链产销协同自适应协商策略[J].计算机工程,2016,42(4):160-167. 被引量：2
2庞婷,马俊峰,何喜军.基于Adaboost-SVM的多Agent供应链产销协同自适应协商策略[J].黑龙江大学自然科学学报,2017,34(2):241-246. 被引量：3
3武玉英,严勇,蒋国瑞.基于动态选择性集成学习的供应链产销协商优化策略[J].计算机工程,2017,34(5):191-196. 被引量：1
4王玥.关系数据库中分布式大数据的集成冲突消解算法[J].科学技术与工程,2018,18(3):63-67. 被引量：3
5伍京华,许陈颖,张富娟.基于Agent的情感劝说的合作主体选择模型[J].管理工程学报,2019,33(1):230-237. 被引量：11
6陈红梅.基于互补神经网络级联模型的聚丙烯MFR预报[J].塑料科技,2019,47(7):28-35. 被引量：1
7伍京华,韩佳丽,王佳莹.基于Agent的情感劝说的决策过程及模型研究[J].管理工程学报,2020,34(2):231-238. 被引量：1
8伍京华,王竞陶,刘浩,叶慧慧.基于Agent的情感映射的劝说模型及系统[J].计算机集成制造系统,2020,26(4):1081-1096. 被引量：5
9伍京华,郄晓彤,王佳莹.基于Agent的提议修正的情感劝说交互模型[J].计算机集成制造系统,2020,26(5):1384-1396. 被引量：3
10伍京华,陈虹羽,汪文生.基于Agent的情感劝说的舆情交互及产生模型[J].计算机集成制造系统,2021,27(1):249-259. 被引量：2

1胡雯蔷,徐筱龙,徐国华.基于小脑模型关节控制器的水下机械手复合运动控制的研究及仿真[J].中国机械工程,2008,19(16):1891-1894. 被引量：3
2樊伟宏,杨文婷,王昊,张仕霆,甘晓炫.基于MVC模式的毕业论文(设计)管理系统设计与实现[J].软件导刊,2017,16(4):129-131. 被引量：7
3段勇,刘兴刚,徐心和.基于强化学习的机器人模糊控制系统设计[J].系统仿真学报,2006,18(6):1597-1600. 被引量：4
4郐媛媛.基于语义的文本相似度算法研究[J].计算机光盘软件与应用,2014,17(9):302-303. 被引量：2
5康晶,马宏,刘力雄.基于密度的优化数据流聚类算法[J].计算机工程与设计,2010,31(22):4756-4759. 被引量：3
6崔明义.FNN与混合遗传算法在智能优化的策略比较[J].计算机工程与应用,2005,41(17):62-64.
7叶伟.载波池设备特色功能及实现[J].福建电脑,2008,24(10):158-159.
8张文志,吕恬生.强化学习理论在机器人应用中的几个关键问题探讨[J].计算机工程与应用,2004,40(4):69-71. 被引量：2
9王伟林,陈松,王建中.基于冗余链路的校园网流量管理设计与实现[J].计算机安全,2013(8):56-59. 被引量：1
10包佃清,苏文.3PLM下计算机自适应选题策略比较[J].淮海工学院学报（自然科学版）,2010,19(2):20-23. 被引量：1

计算机工程

2010年第17期

浏览历史

内容加载中请稍等...

基于Q-强化学习的多Agent协商策略及算法被引量：7

参考文献5

二级参考文献9

共引文献6

同被引文献55

引证文献7

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于Q-强化学习的多Agent协商策略及算法 被引量：7

参考文献5

二级参考文献9

共引文献6

同被引文献55

引证文献7

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于Q-强化学习的多Agent协商策略及算法被引量：7