期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

基于BP神经网络的文档聚类研究被引量：7

Research on Document Clustering Based on BP Neural Net

下载PDF

导出

摘要 1,引言近年来,随着互联网的迅速发展,基于Web的数据挖掘技术受到越来越多的关注,经常用在文本挖掘和信息检索等多个领域的聚类(Clustering)技术也成为人们研究的热点.对一组实际或抽象的元素进行处理,把相似的元素归为同类的过程称之为聚类[1].对文本信息,如科技文献、Web文档等的聚类,称之为文档聚类(Document Clustering).最初,文档聚类常用于提高信息检索系统的查准率和查全率(recall),或用来寻找与一篇文档最为相似的文档[2].现在,人们利用文档聚类来获得一组满足用户要求的文档集合并按用户需求对其进行排序.另外在Internet上,文本聚类也可用来自动产生文档的层次聚类,从而实现对Web文档的分类. Document clustering has been used in a number of different areas of text mining and information retrieval. This paper first introduces the presentation of document clustering and it's ground, VSM(Vector Space Mode). On the other hand,comparing with the VSM.we present a new model to calculate the word weight in a document based on BP neural net. On the ground of it,two document clustering algorithms are described aiming at scientific literature on the Web. One is to get document sets relevant to user's query,and the other is to extract more personalized interesting items.

作者田萱刘希玉孟强

机构地区山东师范大学信息管理学院

出处《计算机科学》 CSCD 北大核心 2002年第8期93-95,共3页 Computer Science

关键词 Internet BP神经网络文档聚类数据挖掘信息检索系统查准率查全率 Document clustering,Vector Space Model,BP neural net,Word weight,Scientific literature

分类号 TP393.4 [自动化与计算机技术—计算机应用技术] G354 [文化科学—情报学]

引文网络
相关文献

参考文献8

1(美)韩(Han.J.).数据挖掘:概念和技术.北京:高等教育出版社,2001
2Steinbach M,Karypis G,Kumar V. A Comparison of Document Clustering Techniques. www.acm. org
3Huang L. A survey On Web Information Retrieval Technologies. www. acm. org
4Bollacker K D,lawrence S,lee Giles C. Discovering relevant scien tific literatureon the web. IEEE Intelligent systems ,2000,15(2): 42～47
5Martin J D. Clustering Full Text Documents. www. acm. org
6Information Retrieval Survey - 1997. www. acm. org
7王实,高文.数据挖掘中的聚类方法[J].计算机科学,2000,27(4):42-45. 被引量：88
8赵仲孟,张蓓,沈均毅.对搜索引擎未来发展的探讨[J].计算机科学,2001,28(3):60-61. 被引量：8

二级参考文献4

1李瑞勤,朱慧.对Internet上专题型搜索引擎的探讨[J].情报学报,1999,18(S2):158-160. 被引量：6
2翁惠玉,马范援,朱义军,杨传厚.网络搜索引擎的现状分析[J].情报学报,1999,18(S1):105-107. 被引量：25
3李名智.中文搜索引擎发展的现状、问题及对策[J].中国信息导报,1999(2):30-32. 被引量：18
4邹涛,王继成,朱华宇,金翔宇,张福炎.WWW上的信息挖掘技术及实现[J].计算机研究与发展,1999,36(8):1019-1024. 被引量：120

共引文献92

1任建华,汪赫瑜.数据挖掘语言标准化的意义及应用[J].东北大学学报（自然科学版）,2004,25(z1):176-178.
2张培荣.元搜索引擎与独立搜索引擎比较研究[J].现代图书情报技术,2004(S1):50-51. 被引量：2
3赵娜,臧景才.多标记传播聚类算法在电子商务中的应用[J].青海大学学报（自然科学版）,2009,27(1):85-88.
4陈史政.关于常用聚类算法的实现与分析[J].福建广播电视大学学报,2006(6):74-77. 被引量：4
5周永权,焦李成.高属性维稀疏数据聚类回归逻辑神经网络模型及学习算法[J].电子学报,2004,32(8):1342-1345. 被引量：3
6邢玲,史杏荣.基于UCL的网页自动标引技术[J].计算机工程与应用,2004,40(17):148-151. 被引量：6
7刘振鹏,张沧生,常胜,李继民.FICSAM:一种适用于大型适应性系统的单例学习方法[J].计算机应用研究,2005,22(2):43-45. 被引量：1
8谢毓湘,栾悉道,吴玲达,老松杨,谢伦国.CMA:an efficient index algorithmof clustering supporting fast retrieval oflarge image databases[J].Journal of Systems Engineering and Electronics,2005,16(3):709-714.
9王鑫,王洪国,张建喜,胡宝芳.聚类分析方法及工具应用研究[J].计算机科学,2006,33(2):197-200. 被引量：19
10石云平,辛大欣.基于K-means聚类算法的分析及应用[J].西安工业学院学报,2006,26(1):45-48. 被引量：22

<12 3 4 5…10 >

同被引文献51

1徐建锁,王正欧.基于LSI和自组织神经网络的高效文本聚类方法[J].天津大学学报（自然科学与工程技术版）,2004,37(11):1026-1030. 被引量：7
2姚力群,陶卿.局部线性与One-Class结合的科技文本分类方法[J].计算机研究与发展,2005,42(11):1862-1869. 被引量：4
3李清华,张美凤.基于改进BP网络的染色合格率预测[J].微计算机信息,2006,22(04X):93-95. 被引量：8
4陈晓云,陈袆,王雷,李荣陆,胡运发.基于分类规则树的频繁模式文本分类[J].软件学报,2006,17(5):1017-1025. 被引量：19
5白如江,王效岳.基于粗糙集理论和BP神经网络的文本自动分类方法研究[J].山东大学学报（理学版）,2006,41(3):79-84. 被引量：3
6白小明,邱桃荣.基于SVM和KNN算法的科技文献自动分类研究[J].微计算机信息,2006(12X):275-276. 被引量：10
7孟海涛,陈笑蓉.基于模糊相似度的科技文献软聚类算法[J].贵州大学学报（自然科学版）,2007,24(2):175-178. 被引量：9
8陈志雄,陈健,闵华清.基于信息增益的中文文本关联分类[J].中文信息学报,2007,21(3):61-68. 被引量：1
9柴毅,尹宏鹏,李大杰,张可.基于改进遗传算法的BP神经网络自适应优化设计[J].重庆大学学报（自然科学版）,2007,30(4):91-96. 被引量：29
10Pawalk Z. Rough sets [ J ]. International Journal of Computer and Information Science, 1982,11 (5) : 341 - 356.

引证文献7

1原福永,杨治秋,王海霞.一种基于向量空间模型的文档聚类算法研究[J].信号处理,2005,21(z1):606-608.
2李建锋.一种基于Rough-GA-BP的文本分类算法[J].计算机应用与软件,2010,27(2):124-125.
3刘勘,周丽红,陈譞.基于关键词的科技文献聚类研究[J].图书情报工作,2012,56(4):6-11. 被引量：18
4周丽红,刘勘.基于关联规则的科技文献分类研究[J].图书情报工作,2012,56(4):12-16. 被引量：9
5董微,赵捷.基于密度分布单类支持向量机的科技文献分类研究[J].情报工程,2018,4(3):67-72. 被引量：2
6何飞,蒋冬初.基于向量空间模型的文档聚类算法研究[J].湖南城市学院学报,2003,24(3):114-116. 被引量：8
7田萱,孟祥光,刘希玉.智能信息检索中个性化模式的表示形式研究[J].情报学报,2004,23(1):21-26. 被引量：9

二级引证文献46

1原福永,杨治秋,王海霞.一种基于向量空间模型的文档聚类算法研究[J].信号处理,2005,21(z1):606-608.
2包金龙.基于向量空间模型的信息检索系统的设计[J].情报杂志,2005,24(7):44-45. 被引量：16
3曾立.基于PETRI网的学习型信息检索系统设计[J].现代情报,2006,26(2):218-220.
4陈红捷,刘西林.电子政务面向个性化需求的信息结构模型研究[J].情报学报,2007,26(3):442-447. 被引量：5
5李爱明,张帆.一种基于向量空间模型的信息过滤系统用户建模研究[J].图书与情报,2007(4):43-47. 被引量：2
6陈俊杰,刘炜.一种基于本体的个性化模式库建模方法[J].计算机研究与发展,2007,44(7):1151-1159. 被引量：7
7黄崇本,陶剑文.基于用户兴趣的个性化搜索算法设计[J].情报学报,2007,26(6):833-838.
8屈鹏,李璐,张丽丽.情报检索发展的几个前沿问题[J].图书情报工作,2008,52(3):19-24. 被引量：6
9韩立毛,鞠时光,羊晶璟.基于用户兴趣的个性化模型研究[J].计算机与数字工程,2009,37(9):67-71.
10马晓佳.基于潜在语义标引的文本聚类研究[J].情报探索,2010(7):3-5. 被引量：3

1戴维迪,王文俊,侯越先,王英,张璐.Document Clustering Based on Constructing Density Tree[J].Transactions of Tianjin University,2008,14(1):21-26.
2李旗.文档聚类智能代理搜索引擎的设计[J].现代情报,2004,24(2):200-202.
3邹国华,吴光明.搜索引擎在面向Web的数据挖掘中的应用[J].科技广场,2006(12):53-55.
4李枫林,何洲芳.基于关键词共现分析的检索结果聚类研究[J].情报学报,2011,30(8):819-825. 被引量：9
5张晓滨,宋擒豹,沈钧毅.一种基于语义特征的Web文档检索方法[J].计算机工程与应用,2001,37(20):7-9. 被引量：1
6申飞驹.基于XML的数字图书馆检索技术研究[J].现代情报,2010,30(7):97-98. 被引量：5
7向书仪,文虹.Internet与医学编辑[J].泸州医学院学报,1999,22(4):359-360. 被引量：1
8程仁桃.学科馆员——图书馆的产品经理[J].浙江高校图书情报工作,2008(1):11-14. 被引量：7
9李默.基于Web的数据挖掘技术在数字图书馆中的应用[J].大学图书情报学刊,2007,25(4):44-46. 被引量：13
10王勋,刘君强.基于文档聚类的Web辅助浏览研究[J].情报学报,2004,23(2):168-172. 被引量：1

计算机科学

2002年第8期

职称评审材料打包下载

相关作者

相关机构

相关主题

;

使用帮助返回顶部