基于要素提取关联词对的中文报道关系检测被引量：2

Chinese story link detection based on extraction of elements correlative word

下载PDF

导出

摘要针对现有中文报道关系检测的检测代价即误报率和丢失率较高的问题,在多向量空间模型基础上提取不同向量的要素(时间、地点、人物和内容)特征词组成关联词对,使用支持向量机(SVM)方法整合关联词对相似度和余弦相似度,从而提出了一种提取要素关联词对报道关系检测方法。所提方法补充表示了报道内容,为检测提供了更多的比较依据,识别代价降低了将近11%。实验结果验证了算法的有效性。 At present, the cost of Chinese story link detection is high, since the miss rate and false rate are high. Concerning this problem, based on multi-vector space model, the paper joined elements （ time, site, people, content） correlative word to represent the relevance of the different elements, integrated coherence similarity and cosine similarity with Support Vector Machine （SVM）, and then proposed an algorithm which was based on the extraction of elements correlative word. The proposed algorithm complementally expressed the story and provided more evidence for detection; the detection cost was decreased by nearly 11%. Finally, the experimental results show the validity of the proposed algorithm.

作者陈智敏蒙祖强林啟锋

机构地区广西大学计算机与电子信息学院

出处《计算机应用》 CSCD 北大核心 2013年第1期182-185,共4页 journal of Computer Applications

基金国家自然科学基金资助项目(61063032) 广西自然科学基金资助项目(2012GXNSFAA053225)

关键词报道关系识别检测关联词对报道要素多向量空间模型 story link detection correlative word story elements multi-vector space model

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献13

1李保利,俞士汶.话题识别与跟踪研究[J].计算机工程与应用,2003,39(17):7-10. 被引量：61
2张晓艳,王挺.话题关联识别中报道信息的动态扩充研究[J].计算机科学,2009,36(11):200-203. 被引量：2
3KUMARAN G, ALLAN J. Text classification and named entities for new event detection [ C]// Proceedings of the 27th Annual Interna- tional ACM SIGIR Conference on Research and Development in In- formation Retrieval. New York: ACM Press, 2004:297 -304.
4LEE C, LEE G G, JANG M. Dependency structure language model for topic detection and tracking [ J]. Information Processing and Management, 2007, 43(5): 1249-1259.
5宋丹,王卫东,陈英.基于改进向量空间模型的话题识别与跟踪[J].计算机技术与发展,2006,16(9):62-64. 被引量：23
6张晓艳,王挺,陈火旺.基于多向量和实体模糊匹配的话题关联识别[J].中文信息学报,2008,22(1):9-14. 被引量：5
7王强,张永奎.基于SVM的中文报道关系识别方法研究[J].计算机工程与应用,2008,44(33):141-143. 被引量：3
8赵华,邓攀,张建伟.基于关联词对动态抽取的报道关系检测技术研究[J].计算机科学,2010,37(6):237-239. 被引量：2
9van der WALT C, BARNARD E. Data characteristics that deter- mine classifier performance [ J]. SAIEE Africa Research Journal, 2007, 98(3): 87-93.
10GARCIA E. Description advantages and limitations of the classic vector space model [ EB/OL]. [2012-03-25]. http://www, miisl- ita. com/term-vector/term-vector-3, html.

二级参考文献64

1胡佳妮,徐蔚然,郭军,邓伟洪.中文文本分类中的特征选择算法研究[J].光通信研究,2005(3):44-46. 被引量：47
2金珠,林鸿飞,赵晶.基于HowNet的话题跟踪及倾向性分类研究[J].情报学报,2005,24(5):555-561. 被引量：21
3陈瑞芬.一种结合反馈方法的中文文本分类算法[J].计算机应用,2005,25(12):2862-2864. 被引量：9
4罗杰,陈力,夏德麟,王凯.基于新的关键词提取方法的快速文本分类系统[J].计算机应用研究,2006,23(4):32-34. 被引量：17
5宋丹,王卫东,陈英.基于改进向量空间模型的话题识别与跟踪[J].计算机技术与发展,2006,16(9):62-64. 被引量：23
6赵华,赵铁军,张姝,王浩畅.基于内容分析的话题检测研究[J].哈尔滨工业大学学报,2006,38(10):1740-1743. 被引量：20
7赵华,赵铁军,于浩,张姝.面向动态演化的话题检测研究[J].高技术通讯,2006,16(12):1230-1235. 被引量：17
8Lavrenko V,Allan J,DeGuzman E,et al.Relevance models for topic detection and tracking[C]//Proceedings of Human Ianguage Technologies Conference, HLT, 2002 : 104-110.
9Chen F,Farahat A,Brants T.Multiple measures and source-pair information in story link detection[C]//Proceedings of HLT-NAACL, 2004: 313-320.
10Farahat A,Chen F,brants T.Optimizing story link detection is not equivalent to optimizing new event detection[C]//Proceedings of ACL, 2003 : 232-239.

共引文献88

1雷亚莉.档案文献主题探测方法探讨[J].黑龙江史志,2015(7):88-89.
2金珠,林鸿飞,赵晶.基于HowNet的话题跟踪及倾向性分类研究[J].情报学报,2005,24(5):555-561. 被引量：21
3莫倩,刘书家,李凯.主题追踪系统的研究与实现[J].计算机工程与应用,2006,42(2):179-181. 被引量：5
4莫倩,刘书家.主题新闻信息门户系统的设计与实现[J].计算机工程,2006,32(10):265-267. 被引量：5
5宋丹,王卫东,陈英.基于改进向量空间模型的话题识别与跟踪[J].计算机技术与发展,2006,16(9):62-64. 被引量：23
6施凡,陆余良,刘金红,夏阳.对象迁移自动机在TDT中的聚类研究[J].安徽大学学报（自然科学版）,2007,31(1):27-30.
7宋丹,林鸿飞,杨志豪.基于内容计算和链接分析的Web话题跟踪方法[J].情报学报,2007,26(4):555-560. 被引量：3
8周亚东,孙钦东,管晓宏,李卫,陶敬.流量内容词语相关度的网络热点话题提取[J].西安交通大学学报,2007,41(10):1142-1145. 被引量：27
9洪宇,张宇,刘挺,李生.话题检测与跟踪的评测及研究综述[J].中文信息学报,2007,21(6):71-87. 被引量：153
10曾依灵,许洪波,白硕.改进的OPTICS算法及其在文本聚类中的应用[J].中文信息学报,2008,22(1):51-55. 被引量：29

同被引文献30

1贾自艳,何清,张海俊,李嘉佑,史忠植.一种基于动态进化模型的事件探测和追踪算法[J].计算机研究与发展,2004,41(7):1273-1280. 被引量：58
2赵华,赵铁军,于浩,张姝.面向动态演化的话题检测研究[J].高技术通讯,2006,16(12):1230-1235. 被引量：17
3Allan J. Introduction to topic detection and tracking//Allan J ed. Topic Detection and Tracking. New York, USA: Springer US, 2002: 1-16.
4Fiscus J G, Doddington G R. Topic detection and tracking evaluation overview//Allan J ed. Topic Detection and Tracking. New York, USA: Springer US, 2002: 17-31.
5Kaur K, Gupta V. A survey of topic tracking techniques. International Journal of Advanced Research in Computer Science and Software Engineering, 2012, 5(2): 383-392.
6Mohd M, Crestani F, Ruthven I. Evaluation of an interactive topic detection and tracking interface. Journal of Information Science, 2012, 38(4): 383-398.
7Pons-Porrata A, Berlanga-Llavori R, Ruiz-Shuleloper J. Topic discovery based on text mining techniques. Information Processing: Management, 2007, 43(3): 752-768.
8Aggarwal C C, Zhai C X. A survey of text classification algorithms//Aggarwal C C, Zhai C X eds. Mining Text Data. New York, US: Springer US, 2012: 163-222.
9Gohr A, Spiliopoulou M, Hinneburg A. visually summarizing semantic evolution in document streams with topic table// Fred Ana ed. Knowledge Discovery, Knowledge Engineering and Knowledge Management. Heidelberg, Germany: Springer Berlin Heidelberg, 2013:136-150.
10Mimno D, Blei D. Bayesian checking for topic models// Proceedings of the Conference on Empirical Methods in Natural Language Processing. Stroudsburg, USA, 2011:227-237.

引证文献2

1陈智敏,蒙祖强,林啟锋.基于改进KNN的话题跟踪算法[J].小型微型计算机系统,2014,35(8):1722-1725. 被引量：2
2周亚东,刘晓明,杜友田,管晓宏,刘霁.一种网络话题的内容焦点迁移识别方法[J].计算机学报,2015,38(2):261-271. 被引量：14

二级引证文献16

1刘玉文,王凯.面向地域的网络话题识别方法[J].数据分析与知识发现,2020,4(2):173-181. 被引量：2
2陈福集,马梅兰.网络舆情事件的话题演化分析——以成都女司机为例[J].情报杂志,2016,35(5):58-64. 被引量：6
3林江豪,周咏梅,阳爱民,王伟.结合词向量和聚类算法的新闻评论话题演进分析[J].计算机工程与科学,2016,38(11):2368-2374. 被引量：15
4杨臻,张明慧,肖汉.基于多特征的网络水军识别方法[J].激光杂志,2016,37(12):110-113. 被引量：3
5王萌萌,左万利,王英,王鑫.一种基于加权非负矩阵分解的多维用户人格特质识别算法[J].计算机学报,2016,39(12):2562-2577. 被引量：6
6刘玉文,郭强,吴宣够,张钰.基于TSSCM模型的新闻舆情演化识别[J].情报杂志,2017,36(2):115-121. 被引量：6
7徐娜,唐海芳,张煊.基于ISM方法的舆情管理人员胜任力结构模型分析[J].情报杂志,2017,36(3):104-108. 被引量：5
8刘玉文,吴宣够,郭强.网络热点新闻焦点识别与演化跟踪[J].小型微型计算机系统,2017,38(4):738-743. 被引量：4
9王娟丽.网络社会公共危机影响因素的实证分析[J].图书馆,2017(5):40-46. 被引量：3
10李湘东,阮涛,潘练.融合去噪技术和动态主题数的新闻话题分析框架研究[J].情报科学,2018,36(4):14-21. 被引量：4

1赵华,邓攀,张建伟.基于关联词对动态抽取的报道关系检测技术研究[J].计算机科学,2010,37(6):237-239. 被引量：2
2王振宇,吴泽衡,唐远华.基于多向量和二次聚类的话题检测[J].计算机工程与设计,2012,33(8):3214-3218. 被引量：3
3陈海光,韩鹏,吴华峰,高传善.无线传感器网络中基于多向量的拥塞控制[J].通讯和计算机（中英文版）,2007,4(2):38-41.
4祝烈煌,周洞汝.数字流域的三维可视化及基本要素提取[J].计算机应用,2000,20(S1):27-29. 被引量：9
5王慧强,赖积保,胡明明,梁颖.网络安全态势感知关键实现技术研究[J].武汉大学学报（信息科学版）,2008,33(10):995-998. 被引量：24
6赖积保,王颖,王慧强,郑逢斌,周兵.基于多源异构传感器的网络安全态势感知系统结构研究[J].计算机科学,2011,38(3):144-149. 被引量：25
7解皎虹,吴彦民,严浩.分布式数据融合模型的网络安全态势要素提取的研究[J].机场工程,2008(4):54-58.
8徐永红,洪文学,高直.模式特征的几何代数多向量表示方法[J].燕山大学学报,2010,34(2):119-122. 被引量：1
9蔡东风,王智超,季铎,张桂平.基于边界距离的多向量文本聚类方法[J].计算机工程与应用,2008,44(3):198-201.
10周学广,高飞,孙艳.基于依存连接权VSM的子话题检测与跟踪方法[J].通信学报,2013,34(8):1-9. 被引量：10

计算机应用

2013年第1期

浏览历史

内容加载中请稍等...

基于要素提取关联词对的中文报道关系检测被引量：2

参考文献13

二级参考文献64

共引文献88

同被引文献30

引证文献2

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于要素提取关联词对的中文报道关系检测 被引量：2

参考文献13

二级参考文献64

共引文献88

同被引文献30

引证文献2

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于要素提取关联词对的中文报道关系检测被引量：2