基于多策略优化的分治多层聚类算法的话题发现研究被引量：38

The Study of Topic Detection Based on Algorithm of Division and Multi-level Clustering with Multi-strategy Optimization

下载PDF

导出

摘要话题发现与跟踪是一项评测驱动的研究,旨在依据事件对语言文本信息流进行组织利用。自1996年提出以来,该研究得到了越来越广泛的关注。本文在研究已有成熟算法的基础上,提出了基于分治多层聚类的话题发现算法,其核心思想是把全部数据分割成具有一定相关性的分组,对各个分组分别进行聚类,得到各个分组内部的话题(微类),然后对所有的微类再进行聚类,得到最终的话题,在聚类的过程中采用多种策略进行优化,以保证聚类的效果。基于该算法的系统在TDT4中文语料上进行了测试,结果表明该算法属于目前结果最好的算法之一。 Topic Detection and Tracking is a research driven by evaluation, which intends to organize and utilize information stream of texts according to event. Since being brought forward in 1996,it comes under more and more attention. This paper an algorithm of division and multi-level clustering with multi-strategy optimization, which bases on study of today＇s mature algorithms. The core thought of the algorithm is to divide all data into groups （each group has intrinsic relevance）,and cluster in each group to produce micro-dusters,and then cluster on all micro-clusters to result in final topics. During the process, various strategies are employed to improve the effect of clustering. The system implemented with the algorithm has been tested on TDT4 corpus. The test indicates the algorithm is one tin,sent best algorithm.

作者骆卫华于满泉许洪波王斌程学旗

机构地区中国科学院计算技术研究所

出处《中文信息学报》 CSCD 北大核心 2006年第1期29-36,共8页 Journal of Chinese Information Processing

基金国家973资助项目(2004CB318109)

关键词计算机应用中文信息处理话题发现与跟踪分治多层聚类系统聚类 computer application Chinese information processing topic detection and tracking division and multi-level clustering hierarchical clustering

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1骆卫华刘群程学旗孙茂松陈群秀.话题检测与跟踪技术的发展与研究[A].孙茂松,陈群秀.全国计算语言学联合学术会议(JSCL-2003)论文集[C].北京:清华大学出版社,2003.560-566.
2Jonathan G. Fiscus, George R. Doddington. Topic Detection and Tracking Evaluation Overview[A]. In: James Allan.Topic Detection and Tracking, Event-based Infommtion Organization[C]. Norwell: Kluwer Academic Publishers,2002,17 - 31.
3Y.Yang, T. Pierce, J. Carbonell. A Study on Retrospective and Online Event Detection[A]. In: W. Bruce Croft,Alistair Moffat,C. J.van Rijsbergen, et al. Proceedings of the 21th Ann Int ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'98)[C]. New York: ACM Press, 1998, 28- 36.
4Brants, T., Chen, F. R., Farahat, A. O. A system for new event detection[A].in: Charles Clarke, et al. Proceedings of SIGIR 2003, the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval[C]. New York: ACM Press,2003,330- 337.
5Juha Makkonen, Helena Ahonen-Myka, and Marko Salmenkivi. Simple Semantics in Topic Detection and Tracking[J]. Information Retrieval, 2004, 7 (3-4): 347- 368.
6Y. Yang, J. Carbonell, C. Jin. Topic-conditioned novelty detection[A] .In: Hand D, et al. Proceedings of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining[C]. New York: ACM Press ,2002,688 - 693.

共引文献4

1洪宇,张宇,刘挺,李生.话题检测与跟踪的评测及研究综述[J].中文信息学报,2007,21(6):71-87. 被引量：153
2康小利.基于时序的突发事件跟踪研究[J].数字技术与应用,2011,29(4):73-74. 被引量：1
3韩小斌,于洪志,曹晖.面向藏文WEB的话题发现系统的设计[J].甘肃科技纵横,2011,40(6):17-19.
4胡福玲,吴国文,赵臣升.基于事件-时间关联模型的话题跟踪研究[J].智能计算机与应用,2016,6(1):26-30. 被引量：3

同被引文献486

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2李健,王作英.HMM转移概率的新的重估算法[J].电子学报,2001,29(z1):1833-1835. 被引量：5
3郭景峰,赵玉艳,边伟峰,李晶.基于改进的凝聚性和分离性的层次聚类算法[J].计算机研究与发展,2008,45(z1):202-206. 被引量：15
4戴媛,姚飞.基于网络舆情安全的信息挖掘及评估指标体系研究[J].情报理论与实践,2008,31(6):873-876. 被引量：75
5王昀,苑春法.基于转换的时间-事件关系映射[J].中文信息学报,2004,18(4):23-30. 被引量：19
6陈月生,于家琦.群体性突发事件发生、应急和预防机制与舆情[J].社科纵横,2006,21(7):135-137. 被引量：9
7陈越,李超零,黄惠新.网络舆情监测与预警中的知识库研究[J].图书情报工作,2011,55(S2):262-266. 被引量：7
8胡雄伟,张宝林,李抵飞.大数据研究与应用综述(下)[J].标准科学,2013(11):29-33. 被引量：24
9徐茜茜,朱进.网络虚拟社会的基本属性初探[J].公安研究,2008,0(3):23-30. 被引量：4
10陶雪娇,胡晓峰,刘洋.大数据研究综述[J].系统仿真学报,2013,25(S1):142-146. 被引量：338

引证文献38

1贺敏,王丽宏,杜攀,张瑾,程学旗.基于有意义串聚类的微博热点话题发现方法[J].通信学报,2013,34(S1):256-262. 被引量：12
2李生,赵铁军.Chinese Information Processing and Its Prospects[J].Journal of Computer Science & Technology,2006,21(5):838-846. 被引量：1
3洪宇,张宇,刘挺,李生.话题检测与跟踪的评测及研究综述[J].中文信息学报,2007,21(6):71-87. 被引量：153
4刘星星,何婷婷,龚海军,陈龙.网络热点事件发现系统的设计[J].中文信息学报,2008,22(6):80-85. 被引量：30
5潘渊,李弼程,张先飞.一种基于自适应重心向量的主题检测方法[J].计算机工程,2009,35(3):80-82. 被引量：2
6税仪冬,瞿有利,黄厚宽.周期分类和Single-Pass聚类相结合的话题识别与跟踪方法[J].北京交通大学学报,2009,33(5):85-89. 被引量：28
7高妮,周明全,耿国华,王学松,贺毅岳.基于文本挖掘的话题发现技术[J].计算机工程,2009,35(19):36-38. 被引量：5
8龙志祎,程葳,沈俊辉.TDT中新发现话题的分类研究与实现[J].武汉理工大学学报（信息与管理工程版）,2009,31(5):762-765. 被引量：2
9陆蓓,程肖,谌志群.互联网舆情挖掘研究述略[J].情报资料工作,2010,31(2):41-45. 被引量：16
10刘素芹,柴松.命名实体的网络话题K-means动态检测方法[J].智能系统学报,2010,5(2):122-126. 被引量：4

二级引证文献446

1徐建民,张丽青,王苗.基于贝叶斯网络的静态话题追踪模型[J].数据分析与知识发现,2020,4(2):200-206. 被引量：2
2胡哲,查先进,严亚兰.突发事件情境下在线健康社区用户交互行为研究[J].数据分析与知识发现,2019,3(12):10-20. 被引量：9
3赵旭剑,王崇伟,金培权,张晖,杨春明,李波.面向Web的故事脉络挖掘研究综述[J].中文信息学报,2021,35(11):13-33. 被引量：2
4骆梅柳.基于大数据的校园舆情热点话题跟踪研究[J].智能计算机与应用,2020(8):287-289. 被引量：1
5姜晓伟,王建民,丁贵广.基于主题模型的微博重要话题发现与排序方法[J].计算机研究与发展,2013,50(S1):179-185. 被引量：12
6金慧兰.网络舆情分析对体育管理工作的影响研究[J].浙江体育科学,2014,36(5):10-15.
7刘星星,何婷婷,龚海军,陈龙.网络热点事件发现系统的设计[J].中文信息学报,2008,22(6):80-85. 被引量：30
8鲁明羽,姚晓娜,魏善岭.基于模糊聚类的网络论坛热点话题挖掘[J].大连海事大学学报,2008,34(4):52-54. 被引量：20
9任晓东,张永奎,薛晓飞.基于K-Modes聚类的自适应话题追踪技术[J].计算机工程,2009,35(9):222-224. 被引量：13
10张晓艳,王挺.话题发现与追踪技术研究[J].计算机科学与探索,2009,3(4):347-357. 被引量：21

1薛峰,周亚东,高峰,刘霁,赵俊舟,党琪.一种突发性热点话题在线发现与跟踪方法[J].西安交通大学学报,2011,45(12):64-69. 被引量：23
2刘其云,李中言.信息抽取的功能和实现方法[J].情报杂志,2005,24(5):67-68. 被引量：4
3马志强,张泽广,闫瑞,刘利民,冯永祥,苏依拉.基于N-Gram模型的蒙古语文本语种识别算法的研究[J].中文信息学报,2016,30(1):133-139. 被引量：3
4邓霆.数据挖掘技术在电子商务中的应用[J].中国电子商务,2012(4):31-31. 被引量：2
5郑士贵.目标技术和应用程序[J].管理观察,1997,0(1):47-47.
6刘晓星.浅谈数据挖掘在电子商务系统中的应用[J].信息与电脑（理论版）,2011(1):160-160.
7计算机应用[J].中国学术期刊文摘,2006,12(8):170-184.
8高妮,周明全,耿国华,王学松,贺毅岳.基于文本挖掘的话题发现技术[J].计算机工程,2009,35(19):36-38. 被引量：5
9桑远超.网络舆情热点发现与跟踪研究[J].中国科技博览,2015,0(30):114-114. 被引量：1
10邱立坤,龙志祎,钟华,程葳.层次化话题发现与跟踪方法及系统实现[J].广西师范大学学报（自然科学版）,2007,25(2):157-160. 被引量：11

中文信息学报

2006年第1期

浏览历史

内容加载中请稍等...

基于多策略优化的分治多层聚类算法的话题发现研究被引量：38

参考文献6

共引文献4

同被引文献486

引证文献38

二级引证文献446

相关作者

相关机构

相关主题

浏览历史

基于多策略优化的分治多层聚类算法的话题发现研究 被引量：38

参考文献6

共引文献4

同被引文献486

引证文献38

二级引证文献446

相关作者

相关机构

相关主题

浏览历史

基于多策略优化的分治多层聚类算法的话题发现研究被引量：38