Web文本预处理技术探析被引量：3

Explore and Analyse Web Text Processsing Technology

下载PDF

导出

摘要文本预处理是Web数据挖掘的前提和关键,文中介绍了Web文本预处理的四个步骤,给出了TF-IDF权重计算和文本相似度计算的实现方法。 Web text processing is the premise and key of web data ming techlonogy .This paper introduces the four steps of web text preprocessing,the implementation methods of the TF-IDF weight calculation and text similarity computing are given.

作者阳小兰钱程赵海廷 YANG Xiao-lan,QIAN Cheng,ZHAO Hai-ting(College of Information Engineering,Wuhan University of Science and Technology Zhongnan Branch,Wuhan 430223,China)

机构地区武汉科技大学中南分校信息工程学院

出处《电脑知识与技术（过刊）》 2010年第29期8247-8249,共3页 Computer Knowledge and Technology

关键词文本预处理分词 TF-IDF权重文本表示 text processing word segmentation the TF-IDF weight text representation

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献14

1单蓉.用户兴趣模型的更新与遗忘机制研究[J].微型电脑应用,2011(7):10-11. 被引量：4
2杨学明.Web中文文本聚类研究及实现[J].现代图书情报技术,2006(12):81-84. 被引量：8
3王会进,陈超华,李清,等.基于动态知识库搜索引擎的技术[J].暨南大学学报:自然科学版,2004,25(1):36-40.
4GAIZAUSKAS R,WILKS Y.Information extraction:be-yond document retrieval [ J].Computational Linguisticsand Chinese Language Processing,1998,3(2):1256-1261.
5MORITA M,SHIN0DA Y.Information filtering based onuser behavior analysis and best match text retrieval[J].Proceedings of the 17th Annual International ACM-SIGIRConference on Research and Development in informationRetrieval,1994(5):272-281.
6WASEDA M,CLAYPOOL M.Inferring user interest [J].Internet Computing,2001(11):67.
7祝莲,王晨晓,贺极苍,陈湘君,郭迎暄,吕帆.中文字体大小、笔画数和对比度对阅读速度的影响[J].眼视光学杂志,2008,10(2):96-99. 被引量：13
8赵琦,张智雄,孙坦.文本可视化及其主要技术方法研究[J].现代图书情报技术,2008(8):24-30. 被引量：25
9刘红芝.中文分词技术的研究[J].电脑开发与应用,2010,23(3):1-3. 被引量：15
10王继成,潘金贵,张福炎.Web文本挖掘技术研究[J].计算机研究与发展,2000,37(5):513-520. 被引量：275

引证文献3

1贾丙静,吴长勤,葛华.Web文本聚类的研究与实现[J].长春师范学院学报（自然科学版）,2011,30(3):26-29. 被引量：2
2张智,董晓文.基于RSS技术的用户兴趣模型构建[J].暨南大学学报（自然科学与医学版）,2013,34(3):286-291. 被引量：1
3郭英杰,千博.基于LDA的主题分类系统研究[J].无线互联科技,2018,15(3):61-62.

二级引证文献3

1程军锋.Web数据挖掘研究[J].重庆三峡学院学报,2013,29(3):43-45. 被引量：11
2韩丽艳,安立奎.网络虚拟社会中教育元素的灰色聚类分析与构造[J].长春师范学院学报（自然科学版）,2013,32(3):8-10.
3张柱,李卿,方贤进.基于用户模型和属性扩散的混合个性化推荐[J].安徽理工大学学报（自然科学版）,2015,35(1):55-59.

1李燕.公安网络舆情分析中的关键技术研究[J].中国建材科技,2015,24(4):72-73. 被引量：1
2许芳芳,王新伟.Web文本聚类算法的分析比较[J].计算机时代,2010(10):6-9. 被引量：2
3曹勇,吴顺祥.使用KNN算法的中文Web文本分类技术研究[J].软件导刊,2007,6(1):107-109. 被引量：2

电脑知识与技术（过刊）

2010年第29期

浏览历史

内容加载中请稍等...

Web文本预处理技术探析被引量：3

同被引文献14

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

Web文本预处理技术探析 被引量：3

同被引文献14

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

Web文本预处理技术探析被引量：3