-
题名一种基于新词发现的Web文本表示方法
被引量:4
- 1
-
-
作者
吴春颖
王士同
蔡崇超
-
机构
江南大学信息工程学院
-
出处
《计算机应用》
CSCD
北大核心
2008年第3期764-767,共4页
-
基金
江苏省自然科学基金资助项目(BK2003017)
教育部重点科学研究项目(105087)
-
文摘
Web文本表示是Web文本特征提取和分类的前提,最常用的文本表示是向量空间模型(VSM),其中向量一般是基于词的特征项。由于向量空间模型本身没有考虑文本上下文间的潜在概念结构(如词汇间的共现关系),而Web文本是一种半结构化文本,同时经常有新词出现,因此在VSM基础上提出了一种基于新词发现的Web文本表示方法:首先进行预处理将网页转化为文本;然后进行文本分词;接着通过二元互信息进行新词发现,同时把新词加入字典重新分词;最后用词和新词共同来表示Web文本。实验结果表明,该方法可以帮助识别未登录词并扩充现有字典,能够增强Web文本表示能力,改善Web文本的特征项质量,提高Web文本分类效果。
-
关键词
中文分词
二元语法
互信息
新词发现
web文本表示
-
Keywords
Chinese words segmentation
bi-gram
mutual information
new-word discovery
web documents representation
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
TP391
[自动化与计算机技术—计算机应用技术]
-