基于核心词项平均划分相似度的短文本聚类算法

Core term based mean partition similarity for short text clustering

下载PDF

导出

摘要针对短文本特征极度稀疏、上下文依赖性强等特点,以自顶向下的策略,提出一种基于核心词项平均划分相似度的短文本聚类算法CTMPS。该方法首先在整个短文本语料库中计算词项之间的概率相关性,以此为基础对短文本中词项进行加权,将权值较大的词项作为最能代表该短文本的核心词项形成核心词项集;以信息论为基础,将核心词项作为划分依据计算平均划分相似度,选择平均划分相似度值最大包含该核心词项的短文本形成一类,用此策略反复迭代直到满足要求。最后,实验结果表明,本文提出的方法显著地提高了短文本聚类的性能。 Aiming at the characteristics of extreme sparse and context dependent features of short texts, we propose a novel core term based mean partition similarity for short text clustering algorithm （CTMPS） with top-down strategy. The CTMPS firstly determines probabilistic correlation among terms in the corpus. Secondly, based on the probabilistic correlation,terms in a short text are weighted. The terms with larger weight are considered as the most representative terms of the short text and they then form the core terms set. On the basis of information theory, mean partition similarity （MPS） is calculated via core terms, and the MPS with the maximum core terms in the short text forms one class. Finally, experimental results show that the CTMPS outperforms the baseline algorithm in term of performance and clustering efficiency.

作者马慧芳朱志强成玉丹贾俊杰

机构地区西北师范大学计算机科学与工程学院

出处《计算机工程与科学》 CSCD 北大核心 2017年第8期1562-1569,共8页 Computer Engineering & Science

基金国家自然科学基金(61363058) 甘肃省青年科技基金(145RJYA259) 甘肃省自然科学研究基金(145RJZA232 150RJZA127) 中国科学院计算技术研究所智能信息处理重点实验室开放基金(IIP2014-4) 2016本科生创新能力提升计划--学术科技创新团队资助项目 2016年甘肃省大学生创新创业训练计划(201610736040 201610736041)

关键词短文本聚类核心词项平均划分相似度概率相关性熵 short text clustering core terra mean partition similarity probabilistic correlation entropy

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1彭敏,黄佳佳,朱佳晖,黄济民,刘纪平.基于频繁项集的海量短文本聚类与主题抽取[J].计算机研究与发展,2015,52(9):1941-1953. 被引量：31
2杨震,王来涛,赖英旭.基于改进语义距离的网络评论聚类研究[J].软件学报,2014,25(12):2777-2789. 被引量：9
3马慧芳,曾宪桃,李晓红,朱志强.改进的频繁词集短文本特征扩展方法[J].计算机工程,2016,42(10):213-218. 被引量：6
4黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864. 被引量：221
5黄贤英,陈红阳,刘英涛,熊李媛.一种新的微博短文本特征词选择算法[J].计算机工程与科学,2015,37(9):1761-1767. 被引量：17

二级参考文献78

1彭京,杨冬青,唐世渭,付艳,蒋汉奎.一种基于语义内积空间模型的文本聚类算法[J].计算机学报,2007,30(8):1354-1363. 被引量：44
2化柏林.知识抽取中的停用词处理技术[J].现代图书情报技术,2007(8):48-51. 被引量：39
3Fung B C M,Wang K,Ester M.Hierarchical document clustering//Wang John ed.The Encyclopedia of Data Warehousing and Mining,idea Group.2005:970-975.
4Salton G.The SMART Retrieval System-Experiments in Automatic Document Processing.Englewood Cliffs,New Jersey:Prentice Hall Inc,1971.
5Wang Y,Julia H.Document clustering with semantic analysis//Proceedings of the 39th Hawaii International Conferences on System Sciences.Hawaii,US,2006:54-63.
6Hotho A,Staab S,Stumme G.Wordnet improves text document clustering//Proceedings of the Semantic Web Workshop at SIGIR-2003,26th Annual International ACM SIGIR Conference.Toronto,Canada,2003:541-550.
7Hall P,Dowling G.Approximate string matching.Computing Survey,1980,12(4):381-402.
8Coelho T,Calado P,Souza L,Ribeiro-Neto B,Muntz R.Image retrieval using multiple evidence ranking.IEEETransactions on Knowledge and Data Engineering,2004,16(4):408-417.
9Ko Y,Park J,Seo J.Improving text categorization using the importance of sentences.lnformation Processing and Management,2004,40(1):65-79.
10Erkan G,Radev D.Lexrank:Graph-based lexical centrality as salience in text summarization.Journal of Artificial Intelligence Research,2004,22(7):457-479.

共引文献273

1杨一,邹昀瑾.以机器学习应对信息“爆炸”时代:公共管理研究的降维可视化探析[J].中国行政管理,2021(1):105-113. 被引量：15
2杨捷,范美位,罗成臣,张思路.面向电力工单文本的服务失误识别[J].云南大学学报（自然科学版）,2020,42(S02):32-37. 被引量：1
3赵增涛,张豪,余益龙.应用于电网资产模型搜索的交叉权积文本相似度计算方法[J].水利水电技术（中英文）,2020,51(S02):209-214.
4孙红,黎铨祺,赵娜.基于双层树状支持向量机的观点挖掘与倾向分析[J].智能计算机与应用,2021,11(3):44-47. 被引量：3
5王鹏,郑贵省,郭强,贾蓓.基于网络爬虫的民用运力数据获取[J].军事交通学院学报,2020,22(1):87-90. 被引量：1
6高飞,鱼江,任芳,黄保瑞,次旺多吉.四维文档向量模型的k-means新闻文本聚类算法[J].西藏大学学报（社会科学版）,2013,28(4):109-112.
7皮靖,邵雄凯,肖雅夫.基于朴素贝叶斯算法的主题爬虫的研究[J].计算机与数字工程,2012,40(6):76-78. 被引量：7
8周亦鹏,杜军平.基于时空情境模型的主题跟踪[J].华南理工大学学报（自然科学版）,2012,40(8):82-87. 被引量：1
9杨传慧,吉根林,章志刚.AP算法在图像聚类中的应用研究[J].计算机与数字工程,2012,40(10):119-121. 被引量：6
10孙昌年,郑诚,夏青松.基于LDA的中文文本相似度计算[J].计算机技术与发展,2013,23(1):217-220. 被引量：23

1陈其洹.无处不在的Cache[J].微型计算机,2004(15):118-119.
2王静霞,唐建东.无线传感器网络中平均跳距修正的DV-Hop定位算法[J].数字技术与应用,2012,30(4):110-111. 被引量：2
3朱欣雨.游戏的交互性的发展方向[J].明日风尚,2017,0(6):40-41.
4常超,刘克胜,赵军,黄宁.基于复用代码检测的缺陷发现方法[J].系统工程与电子技术,2017,39(9):2157-2164. 被引量：4
5赵亮亮,张艳飞,朱雯彦,江会煜,裴蕾,肖志涛.三维编织复合材料预制件表面参数测量方法[J].电脑知识与技术（过刊）,2016,22(12X):292-295.

计算机工程与科学

2017年第8期

浏览历史

内容加载中请稍等...

基于核心词项平均划分相似度的短文本聚类算法

参考文献5

二级参考文献78

共引文献273

相关作者

相关机构

相关主题

浏览历史