一种新的Web中文文本聚类方法研究被引量：3

RESEARCH ON A NOVEL WEB CHINESE TEXT CLUSTERING METHOD

下载PDF

导出

摘要传统的文本聚类缺少语义信息,文本的特征向量高维稀疏,忽略了Web文本的特殊性。为了解决这些问题,提出一种Web中文文本聚类方法。在基于知网(HowNet)的概念空间基础上过滤非名词,分析文本中重要词汇的语义,对标签特征集与正文特征集进行特征集聚类,再利用改进的TF-IDF算法选取两个集合中的特征,最终将文本表示为选取的标签特征集与正文特征集的并集,降低了特征的维度,高效地表示了文本。通过实验验证了其有效性。 Traditional text clustering lacks the semantic information, its text eigenvector is high-dimension sparse, and ignores the particularity of the Web text. In order to solve these problems, we propose a Web Chinese text clustering method in this paper. On the basis HowNet-base concept space, the method filters the terms but nouns, analyses the semantics of the important words in the text, and carry out the feature set clustering on label feature set and text feature set. Then it uses the improved TF-IDF algorithm to select features from these two sets, and finally expresses the text as a union of the selected label feature set and text feature set. It reduces the dimensions of features, and expresses the text efficiently. Experimental results demonstrate its effectiveness.

作者叶宇飞安世全代劲

机构地区重庆邮电大学计算机科学与技术学院重庆邮电大学移通学院重庆大学计算机科学与技术学院

出处《计算机应用与软件》 CSCD 北大核心 2013年第12期222-225,287,共5页 Computer Applications and Software

关键词 WEB文本聚类特征降维知网文本相似度 Web text clustering Feature dimension reduction HowNet Text simiIarity

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1李云,田素方,李拓,徐涛.基于概念格的Web文本聚类[J].计算机工程与应用,2008,44(23):169-171. 被引量：3
2彭京,杨冬青,唐世渭,付艳,蒋汉奎.一种基于语义内积空间模型的文本聚类算法[J].计算机学报,2007,30(8):1354-1363. 被引量：44
3董振东,董强.“知网”[OL].http://www.hownet.com.
4刘群李素建.基于《知网》的词汇语义相似度计算.中文计算语言学,2002,7(2):59-76.
5Oren Zamir, Oren Etzioni. Web Document Clustring:A Feasibility Dem- onstration[ C ]//Proceedings of the 21 ^st Annual International ACM SI- GIR Conference on Research and Development In Information Retriev- al,1998:46 -54.
6许高建.基于Web的文本挖掘技术研究[J].计算机技术与发展,2007,17(6):187-190. 被引量：19
7白秋产,金春霞,周海岩.概念向量文本聚类算法[J].计算机工程与应用,2011,47(35):155-157. 被引量：11
8Salton G. The SMART Retrieval System Experiments in Automatic Doc- ument Processing Englewood Cliffs [ C ]. New Jersey:Prentice Hall Inc, 1971.
9黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864. 被引量：217

二级参考文献72

1易高翔,程耕国.Web文本挖掘研究[J].武汉科技大学学报,2005,28(1):72-74. 被引量：5
2赵军,金千里,徐波.面向文本检索的语义计算[J].计算机学报,2005,28(12):2068-2078. 被引量：28
3薛为民,陆玉昌.文本挖掘技术研究[J].北京联合大学学报,2005,19(4):59-63. 被引量：63
4Zamir O.A dynamic clustering interface to Web search results[J]. Computer Networks, 1999,31(11/16) : 1361-1374.
5Osinski S.An algorithm for clustering of Web search result[D]. Poland: Poznan University of Technology, 2003.
6Godoy D,Amandi A.Modeling user interests by conceptual clustering[J].Information Systems, 2006,31 : 247-265.
7Hotho A,Staab S,Maedche A.Ontology-based text clustering[J]. Kunstliche Intelligenz, 2002,4: 48-54.
8Flotho A,Staab S,Stumme G.Text clustering based on background knowledge[R].University of Karlsruhe,Institute AIFB,2003.
9Bhogalb J,Macfarlane A.A review of ontology based query expansion[J].Information Processing and Management, 2006,43 : 866-886.
10Wille R.Restructuring lattice theory:an approach based on hierarchies of concepts[M]//Rival I.Ordered Sets.Dordrecht:Reidel,1982: 445-470.

共引文献428

1杨一,邹昀瑾.以机器学习应对信息“爆炸”时代:公共管理研究的降维可视化探析[J].中国行政管理,2021(1):105-113. 被引量：14
2杨捷,范美位,罗成臣,张思路.面向电力工单文本的服务失误识别[J].云南大学学报（自然科学版）,2020,42(S02):32-37. 被引量：1
3赵增涛,张豪,余益龙.应用于电网资产模型搜索的交叉权积文本相似度计算方法[J].水利水电技术（中英文）,2020,51(S02):209-214.
4孙红,黎铨祺,赵娜.基于双层树状支持向量机的观点挖掘与倾向分析[J].智能计算机与应用,2021,11(3):44-47. 被引量：3
5王鹏,郑贵省,郭强,贾蓓.基于网络爬虫的民用运力数据获取[J].军事交通学院学报,2020,22(1):87-90. 被引量：1
6高飞,鱼江,任芳,黄保瑞,次旺多吉.四维文档向量模型的k-means新闻文本聚类算法[J].西藏大学学报（社会科学版）,2013,28(4):109-112.
7冉丽,何毅舟,许龙飞.基于Web结构挖掘的搜索引擎作弊检测方法[J].计算机应用,2004,24(10):158-160. 被引量：4
8陈科,贾焰,杨树强,王永恒.汉语短文话题提取系统中SDTF*PDF算法的研究[J].计算机应用,2005,25(1):14-16. 被引量：1
9孙宝军,王新军.P2P中基于本体论的知识管理框架模型及实现[J].计算机科学,2005,32(2):31-32. 被引量：1
10张涛,杨尔弘.基于上下文词语同现向量的词语相似度计算[J].电脑开发与应用,2005,18(3):41-43. 被引量：8

同被引文献25

1张力,赵星,叶鹰.信息可视化软件CiteSpace与VOSviewer的应用比较[J].信息资源管理学报,2011,1(1):95-98. 被引量：50
2陈悦,陈超美,刘则渊,胡志刚,王贤文.CiteSpace知识图谱的方法论功能[J].科学学研究,2015,33(2):242-253. 被引量：6718
3郭永辉,吴保民,王炳锡.一种用于词性标注的相关投票融合策略[J].中文信息学报,2007,21(2):9-13. 被引量：6
4孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1065
5Aggarwal C C,Yu P S.Finding generalized projected clusters in high dimensional spaces[J].Sigmod,2002,29(2):70-81.
6Dash M,Koot P W.Feature Selection for Clustering[M].Berlin:Springer,2000:110-121.
7李云,田素方,李拓,徐涛.基于概念格的Web文本聚类[J].计算机工程与应用,2008,44(23):169-171. 被引量：3
8姚清耘,刘功申,李翔.基于向量空间模型的文本聚类算法[J].计算机工程,2008,34(18):39-41. 被引量：50
9李星毅,曾路平,施化吉.基于单词相似度的文本聚类[J].计算机工程与设计,2009,30(8):1966-1968. 被引量：9
10毛嘉莉.基于K-means的文本聚类算法[J].计算机系统应用,2009,18(10):85-87. 被引量：9

引证文献3

1顾晓雪,章成志.结合内容和标签的Web文本聚类研究[J].现代图书情报技术,2014(11):45-52. 被引量：8
2王金水,唐郑熠,薛醒思.基于词性标注的文本聚类算法[J].福建工程学院学报,2015,13(4):372-375.
3付健,丁敬达.Citespace和VOSviewer软件的可视化原理比较[J].农业图书情报,2019,31(10):31-37. 被引量：102

二级引证文献110

1翟慧敏,张鑫仕,程启先,刘博文,王佳楠,闫美利.基于VOSviewer的水资源生态承载力文献计量与研究热点可视化分析——兼议中外数据库的比较[J].商丘师范学院学报,2023,39(6):41-46.
2石燕,何黎,任秋静,刘露,温川飙,孙涛,罗悦.中医体质知识图谱分析——基于VOSviewer和CiteSpace的计量分析[J].世界科学技术-中医药现代化,2021,23(9):3415-3423. 被引量：15
3陈文玥,余静,姜璐.基于CiteSpace的海岸带地质灾害风险评估研究知识图谱分析[J].海洋湖沼通报,2022(6):173-182. 被引量：1
4刘敏.数智科技背景下金融情报学发展的机遇与挑战[J].图书与情报,2021(5):128-137. 被引量：2
5黄凌云.图书馆数字资源自动推荐优化算法研究[J].情报探索,2016(2):25-29. 被引量：1
6洪文,聂延平,青巧.馆藏资源自动推荐模型结构与处理流程优化分析[J].情报理论与实践,2016,39(5):130-133. 被引量：1
7毕强,刘健,鲍玉来.基于语义相似度的文本聚类研究[J].现代图书情报技术,2016(12):9-16. 被引量：8
8钟学燕,陈国青,孙磊磊,张明月,刘澜.基于多视角特征融合的移动信息服务模式挖掘[J].系统工程理论与实践,2018,38(7):1853-1861. 被引量：5
9郭红建,陈一飞.社会标注系统自适应网页聚类算法研究[J].电子科技,2018,31(8):73-76.
10郭蕾蕾,俞璐,段国仑,陶性留.基于伴随文本信息的Web图像批量标注方法[J].信息技术与网络安全,2018,37(9):70-75.

1陈宇,王强.聚类算法在Web文本挖掘中的应用研究[J].中国电子商情（通信市场）,2009(2):62-68.
2李建忠.Web网页聚类系统研究与设计[J].韩山师范学院学报,2008,29(6):27-30.
3张万山,肖瑶,梁俊杰,余敦辉.基于主题的Web文本聚类方法[J].计算机应用,2014,34(11):3144-3146. 被引量：3
4傅华忠,茅剑.基于DBSCAN聚类算法的Web文本挖掘[J].科技信息,2007(1):55-56. 被引量：5
5贾丙静,吴长勤,葛华.Web文本聚类的研究与实现[J].长春师范学院学报（自然科学版）,2011,30(3):26-29. 被引量：2
6贾丙静,王传安,王亚军,吴长勤.基于属性重要性的Web文本聚类研究[J].重庆文理学院学报（自然科学版）,2011,30(3):49-51.
7李云,田素方,李拓,徐涛.基于概念格的Web文本聚类[J].计算机工程与应用,2008,44(23):169-171. 被引量：3
8王卫玲,刘培玉,刘克非.一种用于Web文本聚类的特征选择方法[J].计算机应用与软件,2007,24(1):154-156. 被引量：2
9许芳芳,王新伟.Web文本聚类算法的分析比较[J].计算机时代,2010(10):6-9. 被引量：2
10王乐,田李,贾焰,韩伟红.基于频繁词集和k-Means的Web文本聚类混合算法[J].计算机工程与科学,2008,30(8):92-96. 被引量：6

计算机应用与软件

2013年第12期

浏览历史

内容加载中请稍等...

一种新的Web中文文本聚类方法研究被引量：3

参考文献9

二级参考文献72

共引文献428

同被引文献25

引证文献3

二级引证文献110

相关作者

相关机构

相关主题

浏览历史

一种新的Web中文文本聚类方法研究 被引量：3

参考文献9

二级参考文献72

共引文献428

同被引文献25

引证文献3

二级引证文献110

相关作者

相关机构

相关主题

浏览历史

一种新的Web中文文本聚类方法研究被引量：3