Web文本挖掘技术研究被引量：275

RESEARCH ON WEB TEXT MINING

下载PDF

导出

摘要作为从浩瀚的 Web信息资源中发现潜在的、有价值知识的一种有效技术 ,Web挖掘正悄然兴起 ,倍受关注 .目前 ,Web挖掘的研究正处于发展阶段 ,尚无统一的结论 ,需要国内外学者在理论上开展更多的讨论 .同时 ,Web挖掘系统的开发对其研究也将起到很大推进作用 .首先探讨了 Web挖掘的有关理论 ,从 Web挖掘的定义、Web挖掘与 Web信息检索的关系、Web挖掘任务的分类与功能等方面加以阐述 .然后重点分析了 Web文本挖掘的方法 ,包括 :文本的特征表示、文本分类与文本聚类 .在此基础上简单介绍了一个 Web文本挖掘系统原型Web Miner.Web Miner采用了多 agent体系结构 ,将多维文本分析与文本挖掘这两种技术有机地结合起来 ,以帮助用户快速、有效地挖掘 Web上的 HTML 文档 . With the flood of information on the Web, Web mining is a new research issue which draws great interest from many communities. Currently, there is no agreement about Web mining yet. It needs more discussion among scientists in order to define what it is exactly. Meanwhile, the development of Web mining system will promote its research in turn. In this paper, a systemic discussion about the principle of Web mining is presented, including the definition, the relationship between information mining and retrieval on the Web, the taxonomy and function. Then the methods of text mining on the Web are discussed in detail and a prototype of Web text mining system WebMiner is introduced. WebMiner is a multi agent system which combines text mining and multi dimension text analysis in order to help user in mining HTML documents on the Web efficiently and effectively.

作者王继成潘金贵张福炎

机构地区南京大学计算机科学与技术系南京大学软件新技术国家重点实验室

出处《计算机研究与发展》 EI CSCD 北大核心 2000年第5期513-520,共8页 Journal of Computer Research and Development

关键词文本挖掘文本分类文本聚类信息检索 WEB Web mining, text mining, text categorization, text clustering, multi dimension text analysis

分类号 G354.4 [文化科学—情报学] TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1邹涛,王继成,张福炎.基于WWW的资料搜集系统的设计与实现[J].情报学报,1999,18(3):195-201. 被引量：32
2Zalane O R，Proc of 1998ACM-SIGMOD Conf onManagement of Data.Seattle，1998年，581页
3Wang Ke，Newport Beach，1997年
4Salton G，Commun ACM，1975年，18卷，5期，613页

二级参考文献2

1吴立德，大规模中文文本处理，1997年
2G Salton，Commun ACM，1975年，1卷，18期，613页

共引文献31

1赵燕平,朱东华.科技信息的网络动态监测和信息自动获取技术研究[J].科学学研究,2003,21(z1):230-237. 被引量：6
2宋聚平,王永成.搜索引擎中的信息存储技术[J].计算机工程,2000,26(S1):716-720.
3罗小玲.网络学术信息资源的检索方法[J].现代图书情报技术,2003(S1):73-74. 被引量：2
4周海淞,朱茵,陆化普.支撑交通管理综合信息平台的信息挖掘模型[J].交通运输工程与信息学报,2005,3(2):27-33. 被引量：2
5李智辉,卢苇.Web文本主题挖掘技术研究[J].计算机教育,2005(11):34-36. 被引量：2
6黎琳,赵英.Web内容挖掘在数字图书馆中的应用[J].图书馆学研究,2006(2):19-21. 被引量：9
7虞建华.粤北山区翻腾水泥巨龙 “英德现象”惊骇业内人士[J].中国建材,2006(5):24-25.
8郑新立,徐云青,骆昌日.LSI模型在信息检索中的应用[J].计算机技术与发展,2006,16(10):160-162. 被引量：1
9刘璐,李先国.基于用户的Web元搜索引擎调度改进[J].微型电脑应用,2006,22(11):48-50.
10张宗平,李海雁.基于XML的Web信息提取技术研究[J].现代计算机,2007,13(8):29-30. 被引量：1

同被引文献1613

1秦德智,侯怡红.中国中小企业经营创新风险评估[J].统计与决策,2021(9):184-188. 被引量：6
2张宏钦,钱滔,任子晖.MFC的RTTI技术及动态创建的实现[J].微计算机信息,2008,24(9):186-187. 被引量：4
3闪雄.网络语言破坏汉语的纯洁[J].语文建设,2000(10):15-16. 被引量：65
4杨琨,孙平.MyLibrary:个性化图书馆的实现[J].情报资料工作,2003,24(3):25-28. 被引量：34
5徐妙君,顾沈明.面向Web的文本挖掘技术研究[J].控制工程,2003,10(z1):44-46. 被引量：4
6孙登林,李生红,荆涛,刘功申.一种针对不良主题的文本过滤方法[J].信息安全与通信保密,2008,30(2):92-93. 被引量：4
7陈传万,薛娟.论网络文本对当代文学发展的影响[J].阜阳师范学院学报（社会科学版）,2005(5):27-29. 被引量：3
8刘云峰 ,齐欢 ,HU Xiang'en ,CAI Zhiqiang ,代建民 .基于潜在语义空间维度特性的多层文档聚类[J].清华大学学报（自然科学版）,2005(S1):1783-1786. 被引量：11
9苏芳仲,林世平.Web文本挖掘中的一种中文分词算法研究及其实现[J].福州大学学报（自然科学版）,2004,32(z1):67-71. 被引量：5
10付雪峰,王明文.基于模糊-粗糙集的文本分类方法[J].华南理工大学学报（自然科学版）,2004,32(z1):73-76. 被引量：8

引证文献275

1兰晓芳,刘霞,肖毅.基于Django的校友在线平台的设计与实现[J].办公自动化,2021,26(18):17-18. 被引量：3
2王志明,沙莎.Web文本挖掘技术在新闻主题检测中的应用研究[J].长沙大学学报,2007,21(5):58-60. 被引量：2
3张脂平,林世平.Web文本挖掘中特征提取算法的分析及改进[J].福州大学学报（自然科学版）,2004,32(z1):63-66. 被引量：1
4杨斌,孟志青.一种文本分类数据挖掘的技术[J].湘潭大学自然科学学报,2001,23(4):34-37. 被引量：10
5李爱国,白冰.基于内容图像检索的Web搜索器[J].郑州大学学报（理学版）,2009,41(2):60-62. 被引量：1
6周云真,舒建文,王平根.数据挖掘在基于WEB的智能远程教育中的应用[J].文教资料,2006(27):154-155. 被引量：1
7郑泠.Web数据挖掘技术应用[J].科技经济市场,2006(12):302-303.
8姚轶.浅谈网络文本挖掘分类[J].科技风,2009(3). 被引量：1
9周涛,李军,陆惠玲.WEB数据挖掘技术研究[J].汉中师范学院学报,2004,22(3):86-90. 被引量：1
10刘春梅.通用Web日志挖掘系统(CWLMS)设计实现[J].防灾技术高等专科学校学报,2004,6(2):48-52. 被引量：1

二级引证文献1298

1崔鹏杰,李冰,叶爱军,赵树磊,郭春.公路瓦斯隧道施工安全问题及控制措施分析[J].现代隧道技术,2022,59(S01):660-665. 被引量：6
2沈昕怡,柯艺璐,徐成龙.基于文本挖掘的我国全民健身政策量化评价[J].体育视野,2023(24):6-8.
3李涵霄,杜杏叶.近20年计算机与信息科学领域研究进展——IPM期刊主题分析[J].知识管理论坛,2022(1):24-36.
4徐维军,付志能,李茂昌,张卫国.基于新闻文本挖掘的股指期货高频预测研究[J].系统科学与数学,2021,41(7):1856-1875. 被引量：2
5郭丽环,韩越,王伟.在线评论对旅游者酒店选择的影响——基于细粒度文本情感分析[J].泉州师范学院学报,2019,0(6):93-100. 被引量：5
6张敏杰,徐宁,胡俊华,王宇飞,李晨,徐剑波,张诗玉.面向变压器智能运检的知识图谱构建和智能问答技术研究[J].全球能源互联网,2020,3(6):607-617. 被引量：13
7刘欣雨.基于弹幕的突发信息安全类事件舆情分析——以“滴滴平台下架”事件为例[J].情报工程,2022,8(4):85-109. 被引量：3
8陈瑛,章鸣嬛,郭欣,张璇,季萌.数据工程类应用型本科人才培养模式探索[J].微型电脑应用,2020,36(2):5-9. 被引量：2
9王杨,许闪闪,李昌,艾世成,张卫东,甄磊,孟丹.基于支持向量机的中文极短文本分类模型[J].计算机应用研究,2020,37(2):347-350. 被引量：30
10周桃义.大数据背景下高职工商管理专业学生岗位需求分析[J].区域治理,2018,0(43):61-61.

1刘进锋,荣冈.Web文本挖掘在辅助研究中的应用[J].情报科学,2006,24(3):400-404. 被引量：1
2王连军.Web文本挖掘浅析[J].现代图书情报技术,2002(6):38-40. 被引量：7
3许鑫,郭金龙,姚占雷.基于Web文本挖掘的行业态势分析——以2011上海车展为例[J].图书情报工作,2012,56(16):25-31. 被引量：4
4张彦文.数字图书馆视野下的Web信息资源及相关问题探讨[J].大学教育,2014(13):82-84.
5陈华明.Web资源的保存及相关问题探讨[J].现代图书情报技术,2002(6):10-13. 被引量：14
6靖培栋,米茜.Intranet网Web信息组织与管理的模式研究[J].情报科学,2000,18(12):1097-1102. 被引量：6
7阮光册.基于领域本体实现Web文本挖掘研究[J].图书情报工作,2011,55(18):116-120. 被引量：5
8庞景安,周志宏.Web信息数据的计量与采集方法[J].情报理论与实践,2007,30(3):392-396. 被引量：1
9易开屏.Internet信息资源的利用与检索技巧[J].韶关学院学报,2001,22(12):50-57. 被引量：1
10陈朵玲,胡肖锋.基于Web文本挖掘技术的企业竞争情报系统研究[J].情报杂志,2005,24(6):22-24. 被引量：15

计算机研究与发展

2000年第5期

浏览历史

内容加载中请稍等...

Web文本挖掘技术研究被引量：275

参考文献4

二级参考文献2

共引文献31

同被引文献1613

引证文献275

二级引证文献1298

相关作者

相关机构

相关主题

浏览历史

Web文本挖掘技术研究 被引量：275

参考文献4

二级参考文献2

共引文献31

同被引文献1613

引证文献275

二级引证文献1298

相关作者

相关机构

相关主题

浏览历史

Web文本挖掘技术研究被引量：275