基于触发词指导的自相似度聚类事件检测被引量：12

Self-similarity Clustering Event Detection Based on Triggers Guidance

下载PDF

导出

摘要传统方法将事件检测任务看作分类问题,将词作为实例来训练分类器,容易导致训练正反例不平衡,同时,在语料库规模较小时存在一定的数据稀疏问题。首先避开以词为实例进行分类,在事件类别判断上引入聚类思想,在事件触发词的指导下,采用自相似度对K-means聚类算法中的K值进行自收敛,优化了聚类算法。然后结合命名实体及其位置信息,对事件类别进行详细定位,很好地解决了传统事件检测对类别模板的依赖性,所检测的事件在文本摘要、检索和主题检测与追踪上得到了很好的应用。 Traditional method of Event Detection and Characterization （EDC） regards event detection task as classificalion problem. It makes words as samples to train classifier, which can lead to positive and negative samples of classifier imbalance. Meanwhile, there is data sparseness problem of this method when the corpus is small. This paper didn＇t classify event using word as samples, but clustered event in judging event types. It adapted self-similarity to convergence the value of Kin K-means algorithm by the guidance of event triggers, and optimized clustering algorithm. hhen, combining with named entity and its comparative position information, the new method further ensures the pinpoint type of event.The new method avoids depending on template of event in tradition methods, and its result of event detection can well be used in automatic text summarization, text retrieval, and topic detection and tracking.

作者张先飞郭志刚刘嵩程磊田雨暄

机构地区解放军信息工程大学信息工程学院中国人民解放军

出处《计算机科学》 CSCD 北大核心 2010年第3期212-214,220,共4页 Computer Science

基金 863国家重点基金项目(2007AA01Z439)资助

关键词事件检测触发词自相似度命名实体聚类 Event detection, Trigger, Self-similarity, Named entity, Clustering

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1ACE(Automatic Content Extraction) Chinese Annotation Gui - delines for Events [M]. National Institute of Standards and Technology, 2005.
2Surdeanu M, Harabagiu S, Williams J, et al. Using Predicate-Argument Structures for Information Extraction[C]// Proceedings of ACL. 2003,8-15.
3Surdeanu M, Harabagiu S. Infrastructure for open-domain information extraction [C]//Proceedings of the Human Language Technology Conference. 2002 : 325-330.
4Chieu Hal Leong, Ng Hwee Tou. A Maximum entropy Ap - proach to Information Extraction from Semi-Structured and Free Text[C]//Proceedings of the 18th National Conference on Artificial Intelligence. 2002:786-791.
5Ahn D. The Stages of Event Extraction[C]//Proceedings of the Workshop on Annotations and Reasoning about Time and Events. 2006 : 1-8.
6赵妍妍,秦兵,车万翔,刘挺.中文事件抽取技术研究[J].中文信息学报,2008,22(1):3-8. 被引量：106
7Ding C, He Xiaofeng. Cluster Merging and Splitting in Hierarchical Clustering Algorithms [A] // Proceedings of the 2002 IEEE International Conference on Data Mining[C]. Maebashi City,Japan: Maebashi TERRSA, 2002 : 139-146.
8Ding C, He X, Zha H, et al. A Min-Max Cut Algorithm for Graph Partitioning and Data Clustering[A]//Proceedings of the IEEE Internationl Conference [C]. San Jose, California, USA:Data Mining,2001 ; 107-114.

二级参考文献9

1Naomi Daniel,Dragomir Radev and Timothy Allison.Sub-event based Multi-document Summarization[A].In:Proceedings of the HLT-NAACL Workshop on Text Summarization[C].2003.9-16.
2Elena Filatova and Vasileios Hatzivassiloglou.Event-based Extractive summarization[A].In:Proceedings of ACL Workshop on Summarization[C]].2004.104-111.
3Wenjie Li,Mingli Wu and Qin Lu.Extractive Summarization using Inter-and Intra-Event Relevance[A].In:Proceedings of the 44th Annual Meeting of the Association for Computational Liguistics[C].2006.369-376.
4David Ahn.The stages of event extraction[A].In:Proceedings of the Workshop on Annotations and Reasoning about Time and Events[C].2006.1-8.
5ACE (Automatic Content Extraction) Chinese Annotation Guidelines for Events.National Institute of Standards and Technology[R].2005.
6Mihai Surdeanu,Sanda Harabagiu,John Williams,et al.Using Predicate-Argument Structures for Information Extraction[A].In:Proceedings of ACL[C].2003.8-15.
7Mihai Surdeanu and Sanda Harabagiu.Infrastructure for Open-Domain Information Extraction[A].In:Proceedings of the Human Language Technology Conference[C].2002.325-330.
8Hai Leong Chieu,Hwee Tou Ng.A Maximum Entropy Approach to Information Extraction from SemiStructured and Free Text[A].In:Proceedings of the 18th National Conference on Artificial Intelligence[C].2002.786-791.
9来自ACE标准标注结果,分别对应着ACE的三项标注任务:实体识别、时间表达式识别和属性词识别.

共引文献105

1许荣华,吴刚,李培峰,朱巧明.基于指代消解的中文事件融合方法[J].计算机应用,2009,29(8):2264-2267. 被引量：3
2付剑锋,刘宗田,付雪峰,周文,仲兆满.基于依存分析的事件识别[J].计算机科学,2009,36(11):217-219. 被引量：19
3仲兆满,刘宗田,周文,付剑锋.事件关系表示模型[J].中文信息学报,2009,23(6):56-60. 被引量：23
4许荣华,吴刚,李培峰,朱巧明.基于事件框架的主题事件融合研究[J].计算机应用研究,2009,26(12):4542-4545. 被引量：6
5付剑锋,刘宗田,刘炜,单建芳.基于特征加权的事件要素识别[J].计算机科学,2010,37(3):239-241. 被引量：9
6许君宁,董萍,刘怀亮.基于知网的中文事件抽取研究[J].情报杂志,2009,28(B12):150-151. 被引量：2
7吴刚,许荣华,朱巧明,李培峰,钱培德.一种基于角色匹配的事件抽取方法[J].微计算机信息,2010,26(9):187-189. 被引量：3
8石振国,刘宗田,王杰华,冯达盛.事件网络模型与应用研究[J].南通大学学报（自然科学版）,2010,9(3):55-65.
9刘小明,樊孝忠,刘里.融合事件信息的复杂问句分析方法[J].华南理工大学学报（自然科学版）,2011,39(7):140-145. 被引量：7
10孙中友,李培峰,朱巧明.事件信息抽取中的数据预处理方法研究[J].计算机应用与软件,2011,28(8):35-37. 被引量：3

同被引文献144

1姜晓伟,王建民,丁贵广.基于主题模型的微博重要话题发现与排序方法[J].计算机研究与发展,2013,50(S1):179-185. 被引量：12
2贾自艳,何清,张海俊,李嘉佑,史忠植.一种基于动态进化模型的事件探测和追踪算法[J].计算机研究与发展,2004,41(7):1273-1280. 被引量：58
3姜吉发.一种跨语句汉语事件信息抽取方法[J].计算机工程,2005,31(2):27-29. 被引量：12
4夏天,樊孝忠,刘林.利用JNI实现ICTCLAS系统的Java调用[J].计算机应用,2004,24(B12):177-178. 被引量：24
5骆卫华,于满泉,许洪波,王斌,程学旗.基于多策略优化的分治多层聚类算法的话题发现研究[J].中文信息学报,2006,20(1):29-36. 被引量：38
6梁晗,陈群秀,吴平博.基于事件框架的信息抽取系统[J].中文信息学报,2006,20(2):40-46. 被引量：38
7宋丹,王卫东,陈英.基于改进向量空间模型的话题识别与跟踪[J].计算机技术与发展,2006,16(9):62-64. 被引量：23
8燕飞,秦世引.基于RBF神经网络和M距离的卫星故障诊断[J].航天控制,2006,24(6):61-66. 被引量：4
9张建萍,刘希玉.基于聚类分析的K-means算法研究及应用[J].计算机应用研究,2007,24(5):166-168. 被引量：124
10夏天.汉语词语语义相似度计算研究[J].计算机工程,2007,33(6):191-194. 被引量：63

引证文献12

1许旭阳,韩永峰,宋文政.事件抽取技术的回顾与展望[J].信息工程大学学报,2011,12(1):113-118. 被引量：9
2许旭阳,李弼程,张先飞,韩永峰.基于事件实例驱动的新闻文本事件抽取[J].计算机科学,2011,38(8):232-235. 被引量：12
3王政霄,黄征.一种中文微博观点抽取技术[J].信息安全与通信保密,2013,11(1):49-50. 被引量：2
4张怡文,程家兴,林京,岳丽华,王云.社交网络中分类推荐用户的设计与实现[J].贵州师范大学学报（自然科学版）,2013,31(1):94-97. 被引量：1
5张怡文,李倩,吴正,袁翠霞.一种基于Interest-Model的用户推荐算法[J].江苏师范大学学报（自然科学版）,2013,31(2):38-41.
6李楠,吉久明,孙济庆,郑荣廷.基于事件抽取的竞争情报系统[J].情报理论与实践,2014,37(5):77-82. 被引量：4
7褚衍杰,魏强,李云照.基于关键词语义与作用域扩展的事件检测[J].计算机工程,2014,40(8):273-276. 被引量：2
8涂子令,周枫,余正涛,严馨,洪旭东.基于超图的汉越双语新闻话题要素提取[J].计算机应用研究,2017,34(8):2278-2281. 被引量：2
9张克明,蔡远文,任元.基于生成对抗网络的航天异常事件检测方法[J].北京航空航天大学学报,2019,45(7):1329-1336. 被引量：8
10程思伟,葛唯益,王羽,徐建.BGCN:基于BERT和图卷积网络的触发词检测[J].计算机科学,2021,48(7):292-298. 被引量：7

二级引证文献46

1范旭,周强,于忠清.基于生成式对抗卷积自编码器的滚动轴承故障诊断[J].工业技术创新,2021,8(4):94-103. 被引量：2
2何琳,何娟,沈耕宇,杨波,黄水清.一种通过文本挖掘发现实时定量聚合酶链式反应实验内参基因的方法研究[J].现代图书情报技术,2012(7):109-114.
3王政霄,黄征.一种中文微博观点抽取技术[J].信息安全与通信保密,2013,11(1):49-50. 被引量：2
4黄延炜,刘嘉勇.新浪微博数据获取技术研究[J].信息安全与通信保密,2013,11(6):71-73. 被引量：22
5张怡文,岳丽华,张义飞,李青,程家兴.基于共同用户和相似标签的好友推荐方法[J].计算机应用,2013,33(8):2273-2275. 被引量：17
6李楠,吉久明,孙济庆,郑荣廷.基于事件抽取的竞争情报系统[J].情报理论与实践,2014,37(5):77-82. 被引量：4
7虞金中,杨先凤,陈雁,李娟.基于混合模型的新闻事件要素提取方法[J].计算机系统应用,2018,27(12):169-174. 被引量：3
8冯戈利.跨文档事件检测算法[J].机械设计与制造工程,2015,44(1):6-10. 被引量：1
9官思发,李宗洁.美国竞争情报系统研究及对我国的启示[J].图书情报工作,2015,59(4):83-92. 被引量：7
10仇培元,张恒才,陆锋.互联网文本蕴含道路交通信息抽取的模式匹配方法[J].地球信息科学学报,2015,17(4):416-422. 被引量：10

1郭鑫,李云,黄云,周清平.最小闭树特征集的聚类与分类方法[J].计算机应用,2010,30(2):423-426. 被引量：5
2胡艳.基于邻近样本类别判断的不平衡数据分类算法[J].科技通报,2013,29(10):58-60. 被引量：2
3张玉宁,樊银芳.基于相似度聚类与免疫危险理论的入侵检测方法研究[J].宁夏师范学院学报,2008,29(6):54-57.
4何信振,胡维华,郑秋华.一种基于警报数据关联的入侵检测系统模型[J].计算机工程与科学,2009,31(8):30-32. 被引量：3
5罗崇伟,张立臣.基于车联网的虚假数据检测模型[J].计算机工程与设计,2013,34(6):2272-2276. 被引量：1
6王丽娜,徐巍,刘铸.基于相似度聚类分析方法的异常入侵检测系统的模型及实现[J].小型微型计算机系统,2004,25(7):1333-1336. 被引量：16
7胡三宁.一种基于相似度的混合推荐方法[J].三门峡职业技术学院学报,2015,14(2):140-144. 被引量：2
8张立伟,刘培玉,朱振方.一种基于改进Rocchio的网络信息过滤反馈算法研究[J].山东科学,2009,22(1):31-34. 被引量：1
9张先飞,郭志刚,李弼程,孙显著.自动内容抽取中的中文事件标注[J].情报学报,2011,30(1):61-68. 被引量：1
10王晓英,靳力,王晓青,黄维通.基于序列匹配的作业相似度检测系统[J].计算机工程,2012,38(24):53-56. 被引量：9

计算机科学

2010年第3期

浏览历史

内容加载中请稍等...

基于触发词指导的自相似度聚类事件检测被引量：12

参考文献8

二级参考文献9

共引文献105

同被引文献144

引证文献12

二级引证文献46

相关作者

相关机构

相关主题

浏览历史

基于触发词指导的自相似度聚类事件检测 被引量：12

参考文献8

二级参考文献9

共引文献105

同被引文献144

引证文献12

二级引证文献46

相关作者

相关机构

相关主题

浏览历史

基于触发词指导的自相似度聚类事件检测被引量：12