摘要
文本预处理是Web数据挖掘的前提和关键,文中介绍了Web文本预处理的四个步骤,给出了TF-IDF权重计算和文本相似度计算的实现方法。
Web text processing is the premise and key of web data ming techlonogy .This paper introduces the four steps of web text preprocessing,the implementation methods of the TF-IDF weight calculation and text similarity computing are given.
作者
阳小兰
钱程
赵海廷
YANG Xiao-lan,QIAN Cheng,ZHAO Hai-ting(College of Information Engineering,Wuhan University of Science and Technology Zhongnan Branch,Wuhan 430223,China)
出处
《电脑知识与技术(过刊)》
2010年第29期8247-8249,共3页
Computer Knowledge and Technology
关键词
文本预处理
分词
TF-IDF权重
文本表示
text processing
word segmentation
the TF-IDF weight
text representation