期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
一种基于新词发现的Web文本表示方法 被引量:4
1
作者 吴春颖 王士同 蔡崇超 《计算机应用》 CSCD 北大核心 2008年第3期764-767,共4页
Web文本表示是Web文本特征提取和分类的前提,最常用的文本表示是向量空间模型(VSM),其中向量一般是基于词的特征项。由于向量空间模型本身没有考虑文本上下文间的潜在概念结构(如词汇间的共现关系),而Web文本是一种半结构化文本,同时经... Web文本表示是Web文本特征提取和分类的前提,最常用的文本表示是向量空间模型(VSM),其中向量一般是基于词的特征项。由于向量空间模型本身没有考虑文本上下文间的潜在概念结构(如词汇间的共现关系),而Web文本是一种半结构化文本,同时经常有新词出现,因此在VSM基础上提出了一种基于新词发现的Web文本表示方法:首先进行预处理将网页转化为文本;然后进行文本分词;接着通过二元互信息进行新词发现,同时把新词加入字典重新分词;最后用词和新词共同来表示Web文本。实验结果表明,该方法可以帮助识别未登录词并扩充现有字典,能够增强Web文本表示能力,改善Web文本的特征项质量,提高Web文本分类效果。 展开更多
关键词 中文分词 二元语法 互信息 新词发现 web文本表示
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部