基于主题和特征的文本相似度算法研究

The Research of Texts' Similarity Algorithm Based on Topic and Features

下载PDF

导出

摘要本文提出了结合主题和各主题下关键特征的文本相似度算法,目的在于更准确的挖掘被描述对象的近邻对象集。本文首先介绍卡方统检验特征统计法,并利用改进的卡方检验,计算训练集中已知主题的文本的特征;而后介绍了最小编辑距离算法、余弦相似度算法和杰卡德相似系数,在论证了主题对文本相似度的重要性后,又针对难提取主题的文本加以改进,最终提出了基于主题和特征的文本相似度算法;然后对各个算法在测试集上的相似度计算结果进行分析,证明本文提出的算法在速度和精确度上明显优于其他算法;最后将该算法应用于股票的概念股题材标注上,分析结果并提出改进空间和不足之处。 In this paper, we proposes a texts' similarity algorithm based on the topic and features of each text, the purpose is to accurately mine the nearest neighbor texts of a given text. Firstly, we introduces the characteristics of CHI Square Statistics and gives improvement to features selection of training text which have known topic; and then compare the minimum edit distance algorithm(Leven Shtein Distance), Cosine Similarity Algorithm and Jaccard Similarity Coefficient, analyze principal defect of each algorithm and propose a new text similarity algorithm based on features and topic; after that we use the new algorithm on real data set and prove no matter in speed or accuracy the new one is better than others; In the end, the new algorithm is applied to stocks' subject tagging, from the analysis of results, we expound recent shortage and put forward the improvement.

作者药珍妮

机构地区北京邮电大学网络技术研究院

出处《软件》 2016年第10期123-126,共4页 Software

关键词数据挖掘文本相似度主题特征 Data mining The similarity between texts Topic Feature

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1李凡,鲁明羽,陆玉昌.关于文本特征抽取新方法的研究[J].清华大学学报（自然科学版）,2001,41(7):98-101. 被引量：78
2周水庚,关佶红,胡运发.隐含语义索引及其在中文文本处理中的应用研究[J].小型微型计算机系统,2001,22(2):239-243. 被引量：41
3孙爽,章勇.一种基于语义相似度的文本聚类算法[J].南京航空航天大学学报,2006,38(6):712-716. 被引量：18
4陈龙,范瑞霞,高琪.基于概念的文本表示模型[J].计算机工程与应用,2008,44(20):162-164. 被引量：16
5单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43(S1):319-324. 被引量：25
6柴加加,张德贤,耿瑞焕.基于TF-CA-CI算法的互信息特征选择改进研究[J].计算机应用与软件,2013,30(3):255-257. 被引量：3
7郑世卓,崔晓燕.基于半监督LDA的文本分类应用研究[J].软件,2014,35(1):46-48. 被引量：10
8郑晓健.面向领域主题的智能搜索引擎设计[J].软件,2014,35(3):4-5. 被引量：11
9赵旭剑,邓思远,李波,张晖,杨春明,喻琼,王耀彬.互联网新闻话题特征选择与构建[J].软件,2015,36(7):17-20. 被引量：8

二级参考文献41

1单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43(S1):319-324. 被引量：25
2徐建斌,施亚东.基于概念的文本自动分类研究的综述[J].福建电脑,2005,21(2):2-4. 被引量：3
3赵丰年,刘林,商建云.基于概念的文本过滤模型[J].计算机工程与应用,2006,42(4):186-188. 被引量：11
4闫蓉,张蕾.一种新的汉语词义消歧方法[J].计算机技术与发展,2006,16(3):22-25. 被引量：3
5苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：388
6Miller G A.Introduction to WordNet:an on-line lexical database[J]. International Journal of Lexicography, 1990,3 (4) : 235 -244.
7Kaski S.Statistical aspects of the WEBSOM system in organizing document eolleetions[J].Computer Science and Statistics, 1998(29): 281-290.
8Sebastiani F.Machine learning in automated text categorization[J]. ACM Computing Surveys, 2002,34( 1 ).
9Young P，学位论文，1994年
10Yang Y，http://citeseernjneccom/yang97comparativehtml，1997年

共引文献200

1刘俊杰,叶英豪,董立映.航空安全信息风险主题语义图谱构建[J].情报工程,2022,8(4):31-40. 被引量：1
2张脂平,林世平.Web文本挖掘中特征提取算法的分析及改进[J].福州大学学报（自然科学版）,2004,32(z1):63-66. 被引量：1
3于波,于慧娜,孙立镌.基于概念格的网站信息资源的知识抽取[J].科技资讯,2007,5(2). 被引量：1
4单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43(S1):319-324. 被引量：25
5陈淑珍.Web文本挖掘中的特征表示与特征提取技术[J].三明高等专科学校学报,2004,21(2):53-57. 被引量：2
6施洁斌.基于支持向量机的文本自动分类试验研究[J].现代图书情报技术,2004(7):27-29.
7钟茂生.WEB页面的模糊聚类[J].华东交通大学学报,2004,21(5):59-62. 被引量：2
8唐焕玲,孙建涛,陆玉昌.文本分类中结合评估函数的TEF-WA权值调整技术[J].计算机研究与发展,2005,42(1):47-53. 被引量：26
9张玉叶,李连,刘海见,王春歆.文本过滤中的特征抽取应用研究[J].海军航空工程学院学报,2005,20(1):139-141. 被引量：4
10谌志群,张国煊.文本挖掘研究进展[J].模式识别与人工智能,2005,18(1):65-74. 被引量：50

1曾泳泓,成礼智.论加强“科学计算”训练的重要性[J].高等教育研究（长沙）,1997,5(1):54-56.
2阴爱英.决策树ID3算法的一种改进[J].电子世界,2014(22):433-434. 被引量：1
3镜花水月.提取主题中的壁纸图片[J].电脑爱好者,2015,0(17):63-63.
4李连,朱爱红,苏涛.一种改进的基于向量空间文本相似度算法的研究与实现[J].计算机应用与软件,2012,29(2):282-284. 被引量：36
5袁晓峰.一种基于HNC理论的文本相似度算法[J].计算机时代,2014(11):40-41.
6陈晓晟.上市公司扎堆物联网概念[J].计算机光盘软件与应用,2010(18):52-54.
7傅正.工业4.0[J].信息化建设,2015,0(1):1-1.
8贾惠娟.一种改进的文本相似度算法在政务系统中的应用[J].信息技术与信息化,2016(7):49-52. 被引量：3
9党宏社,白梅,张娜.基于ReliefF特征加权和KNN的自然图像分类方法[J].电视技术,2015,39(19):10-13. 被引量：2
10黄贤英,刘英涛,饶勤菲.一种基于公共词块的英文短文本相似度算法[J].重庆理工大学学报（自然科学）,2015,29(8):88-93. 被引量：7

软件

2016年第10期

浏览历史

内容加载中请稍等...

基于主题和特征的文本相似度算法研究

参考文献9

二级参考文献41

共引文献200

相关作者

相关机构

相关主题

浏览历史