基于核主成分分析的话题跟踪系统被引量：3

Kernel principal component analysis based topic tracking system

导出

摘要话题跟踪是信息处理中的一项重要技术,如何提取鲁棒的话题样本特征是其中的研究重点。针对样本中的话题偏移问题,提出一种基于核主成分分析的算法。该算法首先利用开发集的先验知识构建加权矩阵;然后采用核主成分分析对样本进行话题偏移补偿,从而有效地去除了话题偏移的影响,提升了样本特征的鲁棒性;最后通过K-最近邻(K-nearest neighbor,KNN)和Rocchio算法进行分类。在Fisher英文数据库的话题跟踪测试结果表明,相对于基线系统,该系统在检测代价上有15%～18%的相对降低。 Topic tracking is important in information processing with robust feature extraction as a key research point.This paper describes a topic tracking system based on kernel principal component analysis（KPCA） to resolve the topic drift problem.The algorithm first computes a weighted matrix using topic prior knowledge in the development set.The KPCA based algorithm is then used for each topic sample to compensate for drift and to enhance the robustness of the sample features.Finally,the K-nearest neighbor（KNN） and Rocchio methods are used as classifiers to track each topic sample.Tests using the Fisher English transcript corpus show that this system reduces the detection cost by 15%-18% compared with the baseline system.

作者刘权郭武

机构地区中国科学技术大学语音及语言信息处理国家工程实验室

出处《清华大学学报（自然科学版）》 EI CAS CSCD 北大核心 2013年第6期865-868,共4页 Journal of Tsinghua University(Science and Technology)

关键词话题跟踪核主成分分析话题偏移特征提取 topic tracking kernel principal component analysis topic drift feature extraction

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1洪宇,张宇,刘挺,李生.话题检测与跟踪的评测及研究综述[J].中文信息学报,2007,21(6):71-87. 被引量：153
2Allan J, Carbonell J G, Doddington G, et al. Topic detection and tracking pilot study: Final report [C]// Proc Broadcast News Transcription and Understanding Workshop. San Francisco, CA, USA: Morgan Kaufmann, 1998:194-218.
3Watanabe Y, Okada Y, Kaneji K, et al. Multimedia database system for TV newscasts and newspapers [C]// Advanced Multimedia Content Processing. Berlin, Germany: Springer, 1999: 208-220.
4Raghavan V V, Wong S K M. A critical analysis of vector space model for information retrieval [J]. Journal of the American Society for Information Science and Technology, 1986, 37(5): 279-287.
5Blei D, Ng A, Jordan M. Latent Dirichlet allocation [J]. The Journal of Machine Learning Research, 2003, 3: 993 - 1022.
6Lee C, Lee G G, Jang M. Dependency structure language model for topic detection and tracking [J]. InJormation Processing and Management, 2007, 43(5) : 1249 - 1259.
7Carbonell J, Yang Y, Lafferty J, et al. CMU report on TDT-2: Segmentation, detection and tracking [C]// Proc DARPA Broadcast News Workshop. San Francisco, CA, USA: Morgan Kaufmann, 1999: 117-120.
8Schultz J, Liberman M. Topic detection and tracking using IDF-weighted cosine coefficient [C]// Proc DARPA Broadcast News Workshop. San Francisco, CA, USA: Morgan Kaufmann, 1999:189 - 192.
9Allan J, Papka R, Lavrenko V. On-line new event detection and tracking [C]// Proc 21st Annual International ACM SIGtR Conference on Research and Development in Information Retrieval. New York, NJ, USA: ACM Press, 1998:37 - 45.
10Salton G, Wong A, Yang C S. A vector space model for automatic indexing [J]. Communications of the ACM, 1975, 18(11) : 613 -620.

二级参考文献68

1贾自艳,何清,张海俊,李嘉佑,史忠植.一种基于动态进化模型的事件探测和追踪算法[J].计算机研究与发展,2004,41(7):1273-1280. 被引量：58
2金珠,林鸿飞,赵晶.基于HowNet的话题跟踪及倾向性分类研究[J].情报学报,2005,24(5):555-561. 被引量：21
3骆卫华,于满泉,许洪波,王斌,程学旗.基于多策略优化的分治多层聚类算法的话题发现研究[J].中文信息学报,2006,20(1):29-36. 被引量：38
4于满泉,骆卫华,许洪波,白硕.话题识别与跟踪中的层次化话题识别技术研究[J].计算机研究与发展,2006,43(3):489-495. 被引量：49
5宋丹,王卫东,陈英.基于改进向量空间模型的话题识别与跟踪[J].计算机技术与发展,2006,16(9):62-64. 被引量：23
6赵华,赵铁军,张姝,王浩畅.基于内容分析的话题检测研究[J].哈尔滨工业大学学报,2006,38(10):1740-1743. 被引量：20
7赵华,赵铁军,于浩,张姝.面向动态演化的话题检测研究[J].高技术通讯,2006,16(12):1230-1235. 被引量：17
8骆卫华刘群程学旗孙茂松陈群秀.话题检测与跟踪技术的发展与研究[A].孙茂松,陈群秀.全国计算语言学联合学术会议(JSCL-2003)论文集[C].北京:清华大学出版社,2003.560-566.
9Tim Leek, Hubert Jin, Sreenivasa Sista, Richard Schwartz. The BBN Crosslingual Topic Detection and Tracking System[A]. In: Working Notes of the Third Topic Detection and Tracking Workshop[C]. 2000.
10Zhang Kuo, Li Juan Zi, Wu Gang. New Event Detection Based on Indexing-tree and Named Entity[A]. In: Sigir2007[C]. ACM: Amsterdam, 2007.

共引文献152

1骆梅柳.基于大数据的校园舆情热点话题跟踪研究[J].智能计算机与应用,2020(8):287-289. 被引量：1
2姜晓伟,王建民,丁贵广.基于主题模型的微博重要话题发现与排序方法[J].计算机研究与发展,2013,50(S1):179-185. 被引量：12
3刘星星,何婷婷,龚海军,陈龙.网络热点事件发现系统的设计[J].中文信息学报,2008,22(6):80-85. 被引量：30
4鲁明羽,姚晓娜,魏善岭.基于模糊聚类的网络论坛热点话题挖掘[J].大连海事大学学报,2008,34(4):52-54. 被引量：20
5任晓东,张永奎,薛晓飞.基于K-Modes聚类的自适应话题追踪技术[J].计算机工程,2009,35(9):222-224. 被引量：13
6张晓艳,王挺.话题发现与追踪技术研究[J].计算机科学与探索,2009,3(4):347-357. 被引量：21
7饶洋辉,叶良,常红旭,程洁.新话题监测研究进展[J].图书馆杂志,2009,28(7):60-63.
8程葳,龙志祎.面向互联网新闻的在线话题检测算法[J].计算机工程,2009,35(18):28-30. 被引量：8
9焦健,瞿有利.知网的话题更新与跟踪算法研究[J].北京交通大学学报,2009,33(5):132-136. 被引量：10
10龙志祎,程葳,沈俊辉.TDT中新发现话题的分类研究与实现[J].武汉理工大学学报（信息与管理工程版）,2009,31(5):762-765. 被引量：2

同被引文献36

1王自强,段爱玲,张德贤.基于支持向量数据描述的高效异常数据检测算法[J].吉林大学学报（工学版）,2009,39(2):499-503. 被引量：3
2李盼池,许少华.支持向量机在模式识别中的核函数特性分析[J].计算机工程与设计,2005,26(2):302-304. 被引量：98
3吴今培.基于核函数的主成分分析及应用[J].系统工程,2005,23(2):117-120. 被引量：28
4王国胜.核函数的性质及其构造方法[J].计算机科学,2006,33(6):172-174. 被引量：52
5周林峰,丁永生.基于遗传算法的Mercer核聚类方法[J].模式识别与人工智能,2006,19(3):307-311. 被引量：4
6张家凡,黄之初,王小明.基于支持向量异常检测算法的新故障检测[J].武汉理工大学学报,2006,28(12):109-112. 被引量：1
7赵晓翠,王来生.基于投影寻踪和支持向量机的模式识别方法[J].计算机应用研究,2007,24(2):86-88. 被引量：10
8许小东.管理者工作内源压力与外源压力的结构模型研究[J].管理工程学报,2007,21(1):36-40. 被引量：24
9邓乃杨田英杰.数据挖掘中的新方法-支持向量机[M].北京:科学出版社,2004..
10杜京义,候媛彬.基于核方法的故障诊断理论及方法的研究[M].北京:北京大学出版社,2010:55-110.

引证文献3

1黄炜,刘坤.面向信息特征模式识别的核方法研究综述[J].现代情报,2014,34(3):168-176. 被引量：7
2李树平,佟林,夏春艳.话题跟踪方法的研究[J].网友世界,2014,0(19):147-147.
3刘嘉琪,齐佳音.基于社会系统响应函数的在线群体分类研究[J].电子与信息学报,2016,38(9):2141-2149. 被引量：1

二级引证文献8

1冯秋燕,朱学芳.基于科学计量的信息技术融合分析[J].情报科学,2020,0(2):142-150. 被引量：4
2张波,徐蔚鸿,陈沅涛,朱玲.一种Hadoop平台下的树形聚类算法[J].小型微型计算机系统,2016,37(8):1770-1774. 被引量：1
3张波,徐蔚鸿,陈沅涛,朱玲.基于Hash改进的k-means算法并行化设计[J].计算机工程与科学,2016,38(10):1980-1985. 被引量：5
4刘嘉琪,刘慧丽,齐佳音.基于内源动力话题的在线群体形成机理研究[J].情报科学,2017,35(2):142-149. 被引量：1
5黄裕.基于多视角缺失补全算法的数据挖掘研究[J].计算技术与自动化,2018,37(2):67-72. 被引量：1
6李高峰,胡国强.基于区块链技术实现智能档案协查DAO[J].山西档案,2019,0(4):83-89. 被引量：4
7肖铮.支持向量机的异常检测应用研究[J].黄河科技学院学报,2020,22(8):67-69.
8王磊.社会化阅读平台中信息采纳的预测研究[J].情报工程,2020,6(6):65-83. 被引量：1

1李树平,佟林,夏春艳.话题跟踪方法的研究[J].网友世界,2014,0(19):147-147.
2庄琴生.智能电加工机床偏移补偿的程序实现[J].自动化技术,1990(1):34-39.
3蒋敏,周燕,乐思诗,贡金涛,张永春.大数据时代中英文数据库收录情况分析[J].电脑编程技巧与维护,2015(16):57-58. 被引量：1
4朱宁.谈数字图书馆存储系统管理策略[J].办公自动化（办公设备与耗材）,2013(7):42-43. 被引量：1
5徐世武.WSN中的时钟漂移与偏移补偿机制研究[J].单片机与嵌入式系统应用,2014,14(11):6-8. 被引量：1
6周朴雄.基于最优权重的神经网络集成文本分类研究[J].计算机应用研究,2008,25(10):2982-2983.
7朱晓枫,甘屹,陶益民.基于Ethernet Powerlink多轴伺服运动控制系统的同步性能研究[J].现代制造工程,2014(11):64-68. 被引量：2
8陈华,钱剑飞,俞瑞钊.主动peer-to-peer网络架构[J].浙江大学学报（工学版）,2004,38(5):554-558. 被引量：2
9杨光.瞄准细分市场——社区特色运营需求是如何得到满足的[J].中国计算机用户,2002(8):59-59.
10仇新军,赵璇,王凯.Oracle数据库中文字符集与英文字符集的转换[J].信息与电脑（理论版）,2012(11):65-66.

清华大学学报（自然科学版）

2013年第6期

浏览历史

内容加载中请稍等...

基于核主成分分析的话题跟踪系统被引量：3

参考文献14

二级参考文献68

共引文献152

同被引文献36

引证文献3

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于核主成分分析的话题跟踪系统 被引量：3

参考文献14

二级参考文献68

共引文献152

同被引文献36

引证文献3

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于核主成分分析的话题跟踪系统被引量：3