基于语义相关度的中文文本聚类方法研究被引量：9

Research on Chinese Text Clustering Method Based on Semantic Relevancy

下载PDF

导出

摘要 [目的/意义]在基于向量空间模型的文本聚类中,文本相似度计算忽略特征项间语义关联,针对此问题,提出一种改进的语义文本相似度计算方法。[方法/过程]新方法利用维基百科知识库计算语义相关度,结合特征项在文本中的表示权重,构造文本相似度语义加权因子,并进行K-means文本聚类实验。[结果/结论]与传统的余弦相似度相比,改进后的语义文本相似度应用在文本聚类上,能有效提高聚类的准确度。[局限]语义相关度的计算没有对词语进行消歧处理。 [Objective / significance] This paper proposes an improved semantic text similarity computation method to solve the problem of feature terms semantic association deficiency in text similarity computation for text clustering based on Vector Space Model.[Methods / process] Firstly,the new method uses Wikipedia to compute the semantic relevance.Secondly,the paper combines the weight of feature item in the text to construct semantic weighting factor of text similarity,and carry on the experiment of Kmeans text clustering as well.[Results / conclusion] By comparing with the traditional cosine similarity,experimental results show that the improved semantic text similarity used in the text clustering can effectively improve the accuracy of clustering.[Limitations] Word sense disambiguation is ignored in the process of the feature terms semantic relevancy computation.

作者杜坤刘怀亮王帮金

机构地区西安电子科技大学经济与管理学院

出处《情报理论与实践》 CSSCI 北大核心 2016年第2期129-133,共5页 Information Studies:Theory & Application

基金国家自然科学基金项目"基于复杂网络的中文文本语义相似度研究"的成果项目编号:71373200

关键词维基百科语义相关度文本相似度文本聚类 Wikipedia semantic relevancy text similarity text clustering

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1KUMAR N. Approximate string matching algorithm [ J]. Inter- national Journal on Computer Science and Engineering, 2010, 2 (3): 641-644.
2KO Y, PARK J, SEO J. Improving text categorization using the importance of sentences [ J]. Information Processing and Man- agement, 2004, 40 (1): 65-79.
3余刚,裴仰军,朱征宇,陈华月.基于词汇语义计算的文本相似度研究[J].计算机工程与设计,2006,27(2):241-244. 被引量：25
4马军红.分阶段融合的文本语义相似度计算方法[J].现代图书情报技术,2013(10):20-26. 被引量：4
5SALTON G, YANG C S. On the specification of term value in automatic indexing [J]. Journal of Documentation, 1973, 29 (4) : 351-372.
6SATLON G, WONG A, YANG C. A vector space model for automatic indexing [ J]. Communications of ACM, 1975, 18 (11) : 613-620.
7涂新辉,张红春,周琨峰,何婷婷.中文维基百科的结构化信息抽取及词语相关度计算方法[J].中文信息学报,2012,26(3):109-115. 被引量：24
8许云,樊孝忠,张锋.基于知网的语义相关度计算[J].北京理工大学学报,2005,25(5):411-414. 被引量：53
9汪祥,贾焰,周斌,丁兆云,梁政.基于中文维基百科链接结构与分类体系的语义相关度计算[J].小型微型计算机系统,2011,32(11):2237-2242. 被引量：18
10MILNE D, WITIEN I. An effective, low-cost measure of se- mantic relatedness obtained from Wikipedia links [ C ] //Pro- ceedings of the 23th Association for the Advancement of Artifi- cial Intelligence, 2008: 25-30.

二级参考文献42

1陆汝钤.知识科学与计算科学[M].北京：清华大学出版社,2002..
2董振东董强.知网简介[M].1999[EB/OL].http://www.keenage.com.,.
3龚劬.图论与网络最优化算法[M].重庆:重庆大学出版社,2000.87-96.
4Philip Resnik. Using information content to evaluate semantic simi- larity in a taxonomy [A]. In: C. Raymond Perrault, Chris S. Mellish, Renato deMori eds. Proceedings of the 14th International Joint Conference on Artificial InteUigence [ C]. Montreal: AAAI Press, 1995:448-453.
5George A Miller. WordNet: a lexical database for english [ C].Communications of the ACM, 1995:38( 11 ) :39-41.
6Ted Pedersen, Siddharth Patwardhan, Jason Michelizzi. WordNet: similarity: measuring the relatedness of concepts [ C ]. In: David Palmer, Joseph Polifroni, Deb Roy, eds. Proc. of Human Lan- guage Tectmology conference. Montteal: Association for Computa- tional Linguistics, 2004:38-41.
7Li Yun. Mining semantic knowledge from chinese Wikipedia [D]. Beijing University of Posts and Telecommunications,2009.
8Evgeniy Gabrilovich, Shaul Markovitch. Computing semantic relat edness using Wikipedia-based explicit semantic analysis [ A]. InI Manuela Veloso. Proceedings of the 20th International Joint Confe1 ence on Artificial Intelligence [ C ]. Hyderabad: AAAI Press 2007 : 1606-1611.
9David Milne, Ian H Witten. An effective, low-cost measure of se- mantic relatedness obtained from Wikipedia links [ A]. In: Taylor Matthew, Dfiessens Kurt, Fern Alan eds. Proc. of the 23th Associ- ation for the Advancement of Artificial Intelligence [ C ]. Chicago: AAAI Press,2008:25-30.
10Thomas K Landauer, Peter W Foltz, Darrell Laham. An introduc- tion to latent semantic analysis [ J]. Discourse Processes, 1998,25 (2-3) :259-284.

共引文献118

1周粉,夏幼明.一种改进的基于知网的语义相似度计算方法[J].云南大学学报（自然科学版）,2008,30(S2):215-218. 被引量：1
2秦春秀,赵捧未,刘怀亮.词语相似度计算研究[J].情报理论与实践,2007,30(1):105-108. 被引量：30
3陈冬林,聂规划,刘平峰.基于本体的B2B电子商务MAS模型及商品匹配算法[J].计算机工程与应用,2007,43(10):199-201. 被引量：13
4张柯,沈夏炯,董鑫,于俊洋.基于概念格的语义相关度计算[J].郑州轻工业学院学报（自然科学版）,2007,22(2):178-181. 被引量：1
5易彤,徐升华,万常选,吴方君.抄袭剽窃论文识别研究综述[J].情报学报,2007,26(4):567-573. 被引量：7
6廖剑,冷静,李艳燕,黄荣怀.知网的形式概念分析及概念相似度研究[J].计算机应用研究,2007,24(11):32-36. 被引量：3
7王广正,王喜凤.基于知网语义相关度计算的词义消歧方法[J].安徽工业大学学报（自然科学版）,2008,25(1):71-75. 被引量：10
8吴柳燕.加权的布尔型文本匹配算法研究[J].柳州职业技术学院学报,2008,8(1):133-136. 被引量：3
9梁龙昀,李明.面向Web应用的语义标注方法[J].计算机工程与设计,2008,29(12):3204-3207. 被引量：1
10JIA Keliang,PANG Xiuling,LI Zhinuo,FAN Xiaozhong.Query Expansion Based on Semantics and Statistics in Chinese Question Answering System[J].Wuhan University Journal of Natural Sciences,2008,13(4):505-508. 被引量：2

同被引文献92

1李乡儒,吴福朝,胡占义.均值漂移算法的收敛性[J].软件学报,2005,16(3):365-374. 被引量：88
2吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：218
3王荣波,池哲儒,常宝宝,柏晓静.基于词串粒度及权值的汉语句子相似度衡量[J].计算机工程,2005,31(13):142-144. 被引量：13
4段宇锋,邱均平.基于链接分析的网站评价研究[J].中国图书馆学报,2005,31(4):19-23. 被引量：26
5过仕明,王丽伟.主题门户理论研究[J].中国图书馆学报,2005,31(4):49-52. 被引量：4
6黄如花.学科信息门户信息组织的优化[J].图书情报工作,2005,49(7):11-15. 被引量：27
7张振亚,王进,程红梅,王煦法.基于余弦相似度的文本空间索引方法研究[J].计算机科学,2005,32(9):160-163. 被引量：54
8马张华.论中文信息动态自动聚类的特点和方法体系[J].中国图书馆学报,2006,32(6):73-78. 被引量：2
9孙爽,章勇.一种基于语义相似度的文本聚类算法[J].南京航空航天大学学报,2006,38(6):712-716. 被引量：18
10傅华忠,茅剑.基于DBSCAN聚类算法的Web文本挖掘[J].科技信息,2007(1):55-56. 被引量：5

引证文献9

1翟姗姗,许鑫,夏立新.融合链接分析和内容分析视角的主题门户网站信息组织研究——以国际组织WHO为例[J].情报学报,2017,36(8):821-833. 被引量：3
2高强.基于向量空间的文本聚类算法[J].电子世界,2017,0(20):61-62. 被引量：1
3宋凯,李秀霞,赵思喆.基于CTM模型与K-means算法融合的文本聚类研究[J].情报理论与实践,2017,40(11):135-138. 被引量：16
4董苑,钱丽萍.基于语义词典和词频信息的文本相似度计算[J].计算机科学,2017,44(B11):422-427. 被引量：8
5Zhang Yongtang,Fan Bo.Non-SPF routing algorithm based on ordered semi-group preference algebra[J].The Journal of China Universities of Posts and Telecommunications,2017,24(6):14-23. 被引量：2
6宋培彦,李丹丹.肿瘤领域关键词共现网络聚类方法研究[J].医学信息学杂志,2018,39(8):51-57. 被引量：1
7马思丹,刘东苏.基于加权Word2vec的文本分类方法研究[J].情报科学,2019,37(11):38-42. 被引量：23
8吴锦池,余维杰.融合知识库语义的文本聚类研究[J].情报杂志,2021,40(5):156-164. 被引量：7
9张京坤,王怡怡.Spark框架下均值漂移算法对舆情聚类的分析[J].软件导刊,2022,21(6):141-146. 被引量：1

二级引证文献61

1陆文超,崔海朋.一种基于融合自编码与神经网络的协同过滤算法[J].中国水运（下半月）,2022,22(3):18-20.
2孟旭,谢靖,李春旺.基于核心主题特征的作者身份识别研究[J].知识管理论坛,2023(5):351-364.
3袁丽莉,侯磊,张正平.LDA最大概率填充与BiLSTM模型的文本分类研究[J].智能计算机与应用,2021,11(12):32-36. 被引量：1
4李彪.霸权与调适:危机语境下政府通报文本的传播修辞与话语生产——基于44个引发次生舆情的“情况通报”的多元分析[J].新闻与传播研究,2019,26(4):25-44. 被引量：31
5江秋菊.融入主题和时间因素的文献影响力评价研究[J].情报科学,2019,37(6):96-100. 被引量：5
6庄建昌,武娇,顾兴全,洪彩凤.基于热词语义聚类的领域特征挖掘方法[J].中国计量大学学报,2019,30(2):210-218. 被引量：2
7张卫,朱晓峰,王昊,吴志祥.融合Logistic方程与Markov模型的开放政府用户参与行为分析[J].现代情报,2020,40(3):74-87. 被引量：1
8李秀霞,邵作运.内容信息与引文信息融合的作者影响力评价研究[J].情报理论与实践,2020,43(2):72-77. 被引量：3
9毛郁欣,邱智学.基于Word2Vec模型和K-Means算法的信息技术文档聚类研究[J].中国信息技术教育,2020,0(8):99-101. 被引量：3
10康耀龙,张景安,冯丽露.基于约束满足的大数据聚类中心调度算法仿真[J].计算机仿真,2020,37(3):385-388. 被引量：9

1王静.面向语义文本的WEB数据挖掘研究[J].硅谷,2009,2(14).
2李旭,董争鸣,吴洪森.面向隐含语义文本的WEB数据挖掘研究[J].中国人民公安大学学报（自然科学版）,2010,16(1):58-61.
3李冬晨,张献涛,樊扬,吴玺宏.融合词义消歧的汉语句法分析方法研究[J].北京大学学报（自然科学版）,2015,51(4):577-584. 被引量：2
4张玉峰,何超.基于领域本体的语义文本挖掘研究[J].情报学报,2011,30(8):832-839. 被引量：16
5秦永俊.有色金属交易信息特定属性挖掘算法研究[J].世界有色金属,2016,41(3):112-113.
6周洪,陈强.基于SC文法的英汉机译中消歧处理的研究[J].北京联合大学学报,1997,11(3):1-8.
7王哲.特征空间互信息区域划分语义离散度增强算法[J].计算机仿真,2015,32(5):266-269. 被引量：2
8林伟,孟凡荣,王志晓.基于概念特征的语义文本分类[J].计算机工程与应用,2011,47(28):139-142. 被引量：4
9王东,熊世桓.用不同语义单元度量的句子相似度计算[J].信阳师范学院学报（自然科学版）,2014,27(1):145-148. 被引量：2
10沈佳杰,江红,王肃.基于关键词的云计算语义文本自适应分类[J].计算机工程,2014,40(7):247-253.

情报理论与实践

2016年第2期

浏览历史

内容加载中请稍等...

基于语义相关度的中文文本聚类方法研究被引量：9

参考文献12

二级参考文献42

共引文献118

同被引文献92

引证文献9

二级引证文献61

相关作者

相关机构

相关主题

浏览历史

基于语义相关度的中文文本聚类方法研究 被引量：9

参考文献12

二级参考文献42

共引文献118

同被引文献92

引证文献9

二级引证文献61

相关作者

相关机构

相关主题

浏览历史

基于语义相关度的中文文本聚类方法研究被引量：9