一种基于《知网》的中文文本聚类算法的研究被引量：7

Research of novel Chinese text clustering algorithm based on HowNet

下载PDF

导出

摘要针对基于关键词集的中文文本聚类算法中存在的问题,将《知网》引入到中文文本的特征表示中,并在此基础上提出了一种基于《知网》的中文文本聚类算法。该算法在中文文本表示中加入了基于《知网》的概念特征,实验结果表明该算法能够更好地将语义相关的中文文档聚集在一起,与传统的基于关键词集的中文文本聚类算法相比,聚类质量得到了较大提高。 To settle the problem of Chinese text clustering algorithm based on keywords set,this paper introduces HowNet into the representation of Chinese text representation and presentes a Chinese text clustering algorithm based on HowNet.This algorithm adds the conceptual characteristic based on Hownet to the representation of Chinese text.Experimental results show that this algorithm can cluster the semantic relative Chinese text into the same cluster better and improve the quality of text clustering greatly.

作者赵鹏蔡庆生

机构地区安徽大学计算智能与信号处理教育部重点实验室中国科学技术大学计算机系

出处《计算机工程与应用》 CSCD 北大核心 2007年第12期162-163,共2页 Computer Engineering and Applications

基金安徽省教育厅资助科研课题(the research Project of Department of Education of Anhui Province China under Grant No.2004kj011) 安徽省高校青年教师基金项目(No.2006jq1040)

关键词向量空间模型本体论知网 Vector Space Model Ontology HowNet

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献6

1宫秀军,史忠植.基于Bayes潜在语义模型的半监督Web挖掘[J].软件学报,2002,13(8):1508-1514. 被引量：28
2傅伟鹏,吴斌,何清,史忠植.一种概念空间自生成方法[J].计算机工程与应用,2002,38(7):63-65. 被引量：8
3陈宁,陈安,周龙骧,贾维嘉,罗三定.基于模糊概念图的文档聚类及其在Web中的应用[J].软件学报,2002,13(8):1598-1605. 被引量：12
4Gruber T R.Toward principles for the design of ontologies used for knowledge sharing[J].Int Journal of Human and Computer Studies,1995:907-928.
5http://www.keenage.com.
6杨尔弘,张国清,张永奎.基于义原同现频率的汉语词义排歧方法[J].计算机研究与发展,2001,38(7):833-838. 被引量：26

二级参考文献20

1董振东.语义关系的表达和知识系统的建造[J].语言文字应用,1998(3):79-85. 被引量：59
2Abhitjit 徐勇等（译）.神经网络模式识别及其实现[M].电子工业出版社,1996,6..
3[1]Han, J., Cai, Y., Cercone, N. Knowledge discovery in databases: an attribute-oriented approach. In: Yuan, Le-yan, ed. Proceedings of the 18th International Conference on Very Large Data Bases. Vancouver: Morgan Kaufmann, 1992. 547～559.
4[2]Srikant, R., Agrawal, R. Mining generalized association rules. In: Umeshwar, D., Gray, P.M.D., Shojiro, N., eds. Proceedings of the 21st International Conference on Very Large Data Bases. Zurich: Morgan Kaufmann, 1995. 407～419.
5[3]Han, J., Fu, Y. Discovery of multiple-level association rules from large database. In: Umeshwar, D., Gray, P.M.D., Shojiro, N., eds. Proceedings of the 21st International Conference on Very Large Data Bases. Zurich: Morgan Kaufmann, 1995. 420～431.
6[4]Oren, Z., Oren, E., Omid, M., et al. Fast and intuitive clustering of web document. In: Heckerman, D., Mannila, H., Pregibon, D., eds. Proceedings of the 3rd International Conference on Knowledge Discovery and Data Mining (KDD'97). Newport Beach, CA: AAAI Press, 1997. 287～290.
7[5]Cheung, D.W., Kao, B., Lee, J. W. Discovering user access patterns on the world-wide-web. In: Lu Hong-jun, Motoda, H., Liu, Huan, eds. Proceedings of the 1st Pacific-Asia Conference on Knowledge Discovery and Data Mining. Singapore: World Scientific, 1997. 303～316.
8[6]Salton, G., Buckley, C. Term-Weighting approaches in automatic text retrieval. Information Processing and Management, 1988,24(5):513～523.
9[7]Oren, Z. Clustering web documents: a phrase-based method for grouping search engine results [Ph.D. Thesis]. Seattle, WA: University of Washington, 1999.
10[8]Bezedek, J.C. Pattern Recognition with Fuzzy Objective Function Algorithms. New York: Plenum Press, 1981.

共引文献62

1李虹,李磊.一种基于扩展概念图的词义识别算法[J].计算机科学,2004,31(7):171-174.
2赵心,蔡智,洪流,蔡庆生.一种基于关联规则的中文概念集生成算法[J].计算机科学,2004,31(7):175-177. 被引量：5
3刘壁松,李春平.一个可扩展的文本分类系统的设计与实现[J].计算机工程与应用,2004,40(30):102-106. 被引量：2
4叶家成,汤胤,彭宏,郑启伦.基于知识辞典的范例推理系统的规则提取模型[J].计算机科学,2004,31(8):107-109.
5郑庆华,王朝静,孙霞.一种基于结构化语料库的概念语义网络自动生成算法[J].计算机研究与发展,2005,42(3):478-485. 被引量：7
6陈涛,宋妍,谢阳群.基于IIG和LSI组合特征提取方法的文本聚类研究[J].情报学报,2005,24(2):203-209. 被引量：14
7傅向华,冯博琴,马兆丰,韩冰.基于核方法的Web挖掘研究[J].小型微型计算机系统,2005,26(5):727-731. 被引量：3
8王小英,赵海,林涛,张文波,尹震宇.基于信任的普适计算服务选择模型[J].通信学报,2005,26(5):1-8. 被引量：17
9余刚,陈华月,朱征宇,高原.基于词同现频率的文本特征描述[J].计算机工程与设计,2005,26(8):2180-2182. 被引量：8
10刘冬明,杨尔弘,方莹.汉英双语平行语料库的词义标注[J].中文信息学报,2005,19(6):50-56. 被引量：4

同被引文献67

1张虎,郑家恒,刘江.语料库词性标注一致性检查方法研究[J].中文信息学报,2004,18(5):11-16. 被引量：9
2董振东,董强.知网和汉语研究[J].当代语言学,2001,3(1):33-44. 被引量：57
3梅立军,周强,臧路,陈祖舜.知网与同义词词林的信息融合研究[J].中文信息学报,2005,19(1):63-70. 被引量：28
4马国俊,贠卫国.基于潜在语义索引的中文文本聚类的研究[J].现代电子技术,2005,28(10):58-59. 被引量：4
5袁晓峰.《知网》义原相似度计算的研究[J].辽宁大学学报（自然科学版）,2011,38(4):358-361. 被引量：5
6刘江,郑家恒,张虎.中文文本语料库分词一致性检验技术的初探[J].计算机应用研究,2005,22(9):52-54. 被引量：10
7荀恩东,颜伟.基于语义网计算英语词语相似度[J].情报学报,2006,25(1):43-48. 被引量：41
8索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
9孙景广,蔡东风,吕德新,董燕举.基于知网的中文问题自动分类[J].中文信息学报,2007,21(1):90-95. 被引量：41
10赵世奇,刘挺,李生.一种基于主题的文本聚类方法[J].中文信息学报,2007,21(2):58-62. 被引量：23

引证文献7

1吴启明,易云飞.文本聚类综述[J].河池学院学报,2008,28(2):86-91. 被引量：21
2时念云,孔静.基于语义和领域相关的聚类挖掘方法研究[J].微计算机应用,2008,29(11):25-28.
3马甲林,刘金岭,于长辉.一种高效中文文本聚类算法[J].计算机工程与科学,2013,35(2):103-108. 被引量：1
4孙程程,李爱平,黄九鸣.面向协调搜索的文本相似度计算方法[J].电脑知识与技术,2014,0(7):4460-4462.
5张万山,肖瑶,梁俊杰,余敦辉.基于主题的Web文本聚类方法[J].计算机应用,2014,34(11):3144-3146. 被引量：3
6张沪寅,刘道波,温春艳.基于《知网》的词语语义相似度改进算法研究[J].计算机工程,2015,41(2):151-156. 被引量：22
7刘阳光,岂凡超,刘知远,孙茂松.HowNet义原标注一致性检验方法研究[J].中文信息学报,2021,35(4):23-34. 被引量：7

二级引证文献54

1李众,梁志剑.一种改进的文本聚类算法[J].陕西科技大学学报（自然科学版）,2008,26(6):163-166.
2高倩,戴月明.用于文本聚类的模糊谱聚类算法[J].计算机工程与应用,2010,46(13):142-144. 被引量：2
3张文明,吴江,袁小蛟.基于密度和最近邻的K-means文本聚类算法[J].计算机应用,2010,30(7):1933-1935. 被引量：29
4杜俊卫,李爱军.一种基于聚类的文本迁移学习算法[J].计算机系统应用,2010,19(12):238-241. 被引量：1
5刘喜梅,雷达.一种改进的模糊C均值聚类算法[J].青岛科技大学学报（自然科学版）,2011,32(2):194-198. 被引量：1
6吴勇,徐峰.一种适用于短消息文本的聚类算法[J].计算机与现代化,2012(2):31-34.
7周勇.基于不可分辨关系的文本自动聚类[J].计算机系统应用,2012,21(12):190-192.
8唐晓波,房小可.基于文本聚类与LDA相融合的微博主题检索模型研究[J].情报理论与实践,2013,36(8):85-90. 被引量：44
9王葛,李珊,张瑞忠,安领军,李强.基于粒子群优化的神经网络漏钢预报模型研究[J].燕山大学学报,2014,38(3):221-225. 被引量：2
10刘佳,宋之杰.基于文本聚类的稀土萃取技术专利信息分析[J].燕山大学学报,2014,38(3):243-251. 被引量：1

1东野广升,冯丽雅.语义Web与Ontology研究[J].图书馆学研究,2006(5):21-24. 被引量：2
2阳爱民,彭富春.无词典的中文文档集特征词抽取方法[J].中国包装工业,2002(6):148-149.
3薛慧芳.基于《知网》的词语相似度计算[J].商情,2011(18):136-136.
4牛延莉,张化.文本自动分类研究进展[J].软件导刊,2008,7(4):24-26. 被引量：3
5史俊冰.一种基于《知网》的词语相似度计算方法[J].太原学院学报（自然科学版）,2017,35(1):69-72.
6吴炬华.在计算机仿真领域云计算的应用与实现[J].科学中国人,2015(9Z):17-18.
7苏伟峰,李绍滋,李堂秋.一个基于概念的中文文本分类模型[J].计算机工程与应用,2002,38(6):193-195. 被引量：17
8覃春凤.浅谈电子信息安全技术在电子政务中的应用[J].科技资讯,2009,7(25):35-35. 被引量：6
9田志良,李汉斌.OOP技术的概念特征及应用[J].云南大学学报（自然科学版）,1994,16(4):378-384.
10冀胜利,李波.基于SVM的中文文本分类算法[J].重庆工学院学报（自然科学版）,2008,22(7):84-87. 被引量：5

计算机工程与应用

2007年第12期

浏览历史

内容加载中请稍等...

一种基于《知网》的中文文本聚类算法的研究被引量：7

参考文献6

二级参考文献20

共引文献62

同被引文献67

引证文献7

二级引证文献54

相关作者

相关机构

相关主题

浏览历史

一种基于《知网》的中文文本聚类算法的研究 被引量：7

参考文献6

二级参考文献20

共引文献62

同被引文献67

引证文献7

二级引证文献54

相关作者

相关机构

相关主题

浏览历史

一种基于《知网》的中文文本聚类算法的研究被引量：7