基于SVM的中文报道关系识别方法研究被引量：3

Research on Chinese story link detection based on SVM

下载PDF

导出

摘要针对网络新闻的特点,从人名、时间名、地点名、组织机构名、内容五个方面抽取特征词形成特征向量。在此基础上,分别进行了相似度计算,其中,人名、组织机构名、内容采用余弦夹角的方法,时间和地点向量,相似度计算采用了引入报道时间和关联度计算。最后,使用这5个相似度作为特征,使用SVM进行训练,并在测试集上进行了测试。测试结果表明,这种方法可以有效地改善系统的性能。 Via analyzing the characteristic of news in the Web,construct the feature vector using features from five entity categories：persons,time,location,organizations,and content.Using story time and entity relatedness for temporal or place vector when calculating their similarity and cosine similarity for others.All the features together with the entity relatedness are integrated by Support Vector Machine（SVM）.Experimental results show that this method can improve system performance effectively.

作者王强张永奎

机构地区山西大学计算机与信息技术学院计算智能与中文信息处理省部共建教育部重点实验室

出处《计算机工程与应用》 CSCD 北大核心 2008年第33期141-143,共3页 Computer Engineering and Applications

基金国家自然科学基金No.60475022 山西省自然科学基金No.20041041 山西省回国留学人员基金(No.2002004)。~~

关键词报道关系识别话题检测与跟踪多向量表示模型 story link detection topic detection and tracking multi-vector mode

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1李保利,俞士汶.话题识别与跟踪研究[J].计算机工程与应用,2003,39(17):7-10. 被引量：61
2Lavrenko V,Allan J,DeGuzman E,et al.Relevance models for topic detection and tracking[C]//Proceedings of Human Ianguage Technologies Conference, HLT, 2002 : 104-110.
3Chen F,Farahat A,Brants T.Multiple measures and source-pair information in story link detection[C]//Proceedings of HLT-NAACL, 2004: 313-320.
4张晓艳,王挺,陈火旺.基于多向量和实体模糊匹配的话题关联识别[J].中文信息学报,2008,22(1):9-14. 被引量：5
5宋丹,王卫东,陈英.基于改进向量空间模型的话题识别与跟踪[J].计算机技术与发展,2006,16(9):62-64. 被引量：23
6Farahat A,Chen F,brants T.Optimizing story link detection is not equivalent to optimizing new event detection[C]//Proceedings of ACL, 2003 : 232-239.

二级参考文献25

1金珠,林鸿飞,赵晶.基于HowNet的话题跟踪及倾向性分类研究[J].情报学报,2005,24(5):555-561. 被引量：21
2James Allan,Jaime Carbonell,George Doddington et al.Topic Detection and Tracking Pilot Study:Final Report[C].In:Proceedings of the DARPA Broadcast News Transcription and Understanding Workshop,San Francisco ,CA,Morgan Kaufmann Publishers ,Inc, 1998:194-218.
3Yiming Yang,Jaime Carbonell,Ralf Brown et al.Learning Approaches for Detecting and Tracking News Events[J].IEEE Intelligent Systems:.Special Issue on Applications of Intelligent Information Retrieval,1999;14(4) :32-43.
4Wayne C.Multilingual Topic Detection and Tracking:Successful Research Enabled by Corpora and Evaluation[C].In:Language Resources and Evaluation Conference (LREC),2000 : 1487-1494.
5James Allan (ed.).Topic Detection and Tracking : Event-based Information Organization[M].Kluwer Academic Publishers,2002.
6James Allan,Victor Lavrenko,Hubert Jin.First Story Detection in TDT is Hard[C].In:Proceedings of 9th Conference on Information Knowledge Management CIKM ,2000: 374---381.
7Yiming Yang,Tom Ault,Thomas Pierce et al.Improving Text Categorization Methods for Event Tracking[C].In:Proeeedings of the 23rd International Conference on Research and Development in Information Retrieval ( SIGIR-2000),2000: 65-72.
8Alvin Martin,George Doddington,Terri Kamm et al.The DET Curve in Assessment of Detection Task Performance[C].In:Proceedings of Eurospeech 1997,1997:1895-1898.
9Ying-Ju Chen,Hsin-His Chen.NLP and IR Approaches to Monolingual and Multilingual Link Detection[C].In:Proceedings of the 19^th International Conference on Computational Linguistics(COLING 2002).
10李晓明，阎宏飞，王继民．搜索引擎[M]．北京：科学出版社，2005．

共引文献78

1雷亚莉.档案文献主题探测方法探讨[J].黑龙江史志,2015(7):88-89.
2金珠,林鸿飞,赵晶.基于HowNet的话题跟踪及倾向性分类研究[J].情报学报,2005,24(5):555-561. 被引量：21
3莫倩,刘书家,李凯.主题追踪系统的研究与实现[J].计算机工程与应用,2006,42(2):179-181. 被引量：5
4莫倩,刘书家.主题新闻信息门户系统的设计与实现[J].计算机工程,2006,32(10):265-267. 被引量：5
5宋丹,王卫东,陈英.基于改进向量空间模型的话题识别与跟踪[J].计算机技术与发展,2006,16(9):62-64. 被引量：23
6施凡,陆余良,刘金红,夏阳.对象迁移自动机在TDT中的聚类研究[J].安徽大学学报（自然科学版）,2007,31(1):27-30.
7宋丹,林鸿飞,杨志豪.基于内容计算和链接分析的Web话题跟踪方法[J].情报学报,2007,26(4):555-560. 被引量：3
8周亚东,孙钦东,管晓宏,李卫,陶敬.流量内容词语相关度的网络热点话题提取[J].西安交通大学学报,2007,41(10):1142-1145. 被引量：27
9洪宇,张宇,刘挺,李生.话题检测与跟踪的评测及研究综述[J].中文信息学报,2007,21(6):71-87. 被引量：153
10曾依灵,许洪波,白硕.改进的OPTICS算法及其在文本聚类中的应用[J].中文信息学报,2008,22(1):51-55. 被引量：29

同被引文献44

1陈炯,张永奎.一种基于词聚类的中文文本主题抽取方法[J].计算机应用,2005,25(4):754-756. 被引量：17
2王开选,张永奎.信息过滤中用户模型的表示方法[J].计算机工程,2006,32(5):205-206. 被引量：3
3宋丹,王卫东,陈英.基于改进向量空间模型的话题识别与跟踪[J].计算机技术与发展,2006,16(9):62-64. 被引量：23
4罗永莲,张永奎.基于发布时间的新闻网页去重方法研究[J].计算机工程与应用,2007,43(6):119-121. 被引量：3
5张永奎,张彦,安增波,刘睿.Web新闻语料分词和标注错误分析[J].计算机工程与应用,2007,43(15):166-169. 被引量：4
6陈炯.Web突发事件新闻个性化推荐方法的研究[D].太原:山西大学硕士学位论文,2005.
7赵园丁.突发事件语料多层次加工与语义表示方法研究[D].太原:山西大学硕士学位论文,2006.
8张晋.基于增量学习的用户兴趣模型更新方法研究[D].太原:山西大学硕士学位论文,2006.
9支红霞.基于GIS的山西省防治非典应急指挥系统开发技术研究[D].太原:山西大学硕士学位论文,2005.
10张彦.基于层次和聚类的用户兴趣模型构建方法研究[D].太原:山西大学硕士学位论文,2007.

引证文献3

1张永奎,张晴,王磊.面向信息处理的突发事件新闻语料库建设与应用研究[J].山西大学学报（自然科学版）,2009,32(4):546-551. 被引量：8
2张洋,何楚杰,段俊文,杨春程.微博舆情热点分析系统设计研究[J].信息网络安全,2012(9):60-64. 被引量：4
3陈智敏,蒙祖强,林啟锋.基于要素提取关联词对的中文报道关系检测[J].计算机应用,2013,33(1):182-185. 被引量：2

二级引证文献14

1钟丹,朱倩,李梅,程显毅.人称名词短语单复数信息和最大熵模型的指代消解[J].江南大学学报（自然科学版）,2009,8(6):666-669. 被引量：1
2田芬.英汉语经济类硬新闻的裁决系统对比研究[J].山东外语教学,2011,32(2):32-36. 被引量：3
3宋云霞,张大伟,孙卓,韦军.以语料库为载体的实践教学模式研究[J].实验技术与管理,2011,28(9):110-113. 被引量：3
4韩永峰,郭志刚,陈翰,许旭阳.基于领域特征词的突发事件层次分类方法[J].信息工程大学学报,2012,13(5):593-600. 被引量：3
5陈智敏,蒙祖强,林啟锋.基于改进KNN的话题跟踪算法[J].小型微型计算机系统,2014,35(8):1722-1725. 被引量：2
6周亚东,刘晓明,杜友田,管晓宏,刘霁.一种网络话题的内容焦点迁移识别方法[J].计算机学报,2015,38(2):261-271. 被引量：14
7王恒静,曹存根,高尚.基于词类和搭配的微博舆情文本聚类方法研究[J].南京师大学报（自然科学版）,2015,38(1):57-65. 被引量：2
8吴妮,赵捧未,秦春秀.基于语义分析和相似强度的微博热点发现方法[J].现代图书情报技术,2015(5):57-64. 被引量：12
9张钰莎,蒋盛益.微博公共事件演化分析研究综述[J].广东工业大学学报,2015,32(2):58-63. 被引量：1
10张春菊,张雪英,王曙,廖建平,陈晓丹.中文文本的事件时空信息标注[J].中文信息学报,2016,30(3):213-222. 被引量：12

1王凤玲.基于内容分析的报道关系识别方法研究[J].西藏大学学报（社会科学版）,2012,27(2):71-75.
2刘峰,李煜,吕学强,李卓.查询主题分类方法研究[J].现代图书情报技术,2015(4):10-17. 被引量：4
3赵艳,戴播,濮小佳,袁春风.基于话题要素相似度计算的报道关系识别方法[J].计算机应用与软件,2010,27(1):35-37.
4董丽丽,魏胜辉.一种面向机械领域文本分类器的设计[J].微电子学与计算机,2012,29(4):142-145. 被引量：2
5王静,将爱德.基于多特征融合的图像特征提取方法[J].科技信息,2009(16):75-76. 被引量：3
6陈智敏,蒙祖强,林啟锋.基于要素提取关联词对的中文报道关系检测[J].计算机应用,2013,33(1):182-185. 被引量：2
7刘高军,马砚忠,段建勇.基于维基百科的中文命名实体关联度计算[J].北方工业大学学报,2012,24(1):20-23.
8曲立平,刘大昕,杨静.面向方面的自动化重构方法[J].计算机工程,2008,34(6):43-44. 被引量：2
9张晓艳,王挺,陈火旺.基于多向量和实体模糊匹配的话题关联识别[J].中文信息学报,2008,22(1):9-14. 被引量：5
10魏登萍,王挺,王戟.融合描述文档结构和参引特征的Web服务发现[J].软件学报,2011,22(9):2006-2019. 被引量：11

计算机工程与应用

2008年第33期

浏览历史

内容加载中请稍等...

基于SVM的中文报道关系识别方法研究被引量：3

参考文献6

二级参考文献25

共引文献78

同被引文献44

引证文献3

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于SVM的中文报道关系识别方法研究 被引量：3

参考文献6

二级参考文献25

共引文献78

同被引文献44

引证文献3

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于SVM的中文报道关系识别方法研究被引量：3