-
题名基于信息熵与词语活跃度的领域词抽取
被引量:1
- 1
-
-
作者
王成
吕学强
王弘蔚
王涛
-
机构
北京信息科技大学中文信息处理研究中心
-
出处
《北京信息科技大学学报(自然科学版)》
2011年第5期49-52,58,共5页
-
基金
核高基项目(2010ZX01042-002-002)
国家自然科学基金项目(60872133)
北京市自然科学基金项目(4092015)
-
文摘
提出了一种基于信息墒和词语活跃度的领域词抽取方法,通过对语料进行预处理,提取出候选领域词,计算所有候选领域词的正规化类间分布(NCD)和正规化类内分布(NDD),设置阈值对候选领域词过滤,最后分析了双字候选领域词中包含的常见噪音词语,使用词语活跃度对候选领域词中的双字词语进行过滤,该方法综合考虑了领域词在类别中的概率分布和领域词的内部特征。实验结果表明,该方法在领域词的识别上具有较好的准确率和召回率。
-
关键词
领域词抽取
领域词过滤
信息熵
词语活跃度
知识获取
自然语言处理
-
Keywords
domain terms extraction
terms filtration
entropy
word activity
knowledge acquisition
natural language processing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于词共现和词上下文的领域观点词抽取方法
被引量:5
- 2
-
-
作者
宋施恩
樊兴华
-
机构
重庆邮电大学计算机科学与技术学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2013年第11期4012-4015,共4页
-
基金
重庆市自然科学基金计划基金项目(CSTC
2009BB2079)
-
文摘
为提高领域观点词的抽取效果,主要研究了词共现和词上下文对领域观点词抽取的影响。引入词上下文生成同义词词表的方法,使用词上下文构造的向量表示该词语,考察词集与种子词语向量间的相似度,完成观点词的抽取和判别。提出了一种组合词上下文与传统考虑词共现的SO-PMI(senmantic orientation-pointwise mutal information)方法。实验结果表明,该方法有一定效果,相较于SO-PMI在性能上有较大提高,从一定程度解决了领域适用性的问题。
-
关键词
领域观点词抽取
词共现
词上下文
倾向性判别
SDO-PMI
-
Keywords
domain opinion words extraction
word co-occurrence
word context
tendentious recognition
SO-PMI
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-