-
题名基于信息熵与词语活跃度的领域词抽取
被引量:1
- 1
-
-
作者
王成
吕学强
王弘蔚
王涛
-
机构
北京信息科技大学中文信息处理研究中心
-
出处
《北京信息科技大学学报(自然科学版)》
2011年第5期49-52,58,共5页
-
基金
核高基项目(2010ZX01042-002-002)
国家自然科学基金项目(60872133)
北京市自然科学基金项目(4092015)
-
文摘
提出了一种基于信息墒和词语活跃度的领域词抽取方法,通过对语料进行预处理,提取出候选领域词,计算所有候选领域词的正规化类间分布(NCD)和正规化类内分布(NDD),设置阈值对候选领域词过滤,最后分析了双字候选领域词中包含的常见噪音词语,使用词语活跃度对候选领域词中的双字词语进行过滤,该方法综合考虑了领域词在类别中的概率分布和领域词的内部特征。实验结果表明,该方法在领域词的识别上具有较好的准确率和召回率。
-
关键词
领域词抽取
领域词过滤
信息熵
词语活跃度
知识获取
自然语言处理
-
Keywords
domain terms extraction
terms filtration
entropy
word activity
knowledge acquisition
natural language processing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于多策略融合的中文术语抽取方法
被引量:28
- 2
-
-
作者
周浪
史树敏
冯冲
黄河燕
-
机构
南京理工大学计算机科学与技术学院
北京理工大学计算机学院
-
出处
《情报学报》
CSSCI
北大核心
2010年第3期460-467,共8页
-
基金
国家863高技术研究发展计划资助项目(2006AA01Z152)
国家自然科学基金资助项目(60672149)
-
文摘
中文术语抽取是信息抽取、文本挖掘以及知识获取等信息处理任务中的关键技术。相对于单词型术语,词组型术语的识别过程要更加复杂。由于短语中引入了大量非名词性词汇,随之产生了更多种的噪声数据,不仅需要判断短语结构是否完整,还要考虑短语内部词汇的搭配合理性、衡量短语中所负载领域信息量等问题。文中将词组型术语抽取过程中遇到的这三个问题作为切入点,分别使用子串归并、搭配检验和领域相关度计算技术来解决这三个问题,分析词组型术语自身的结构特征以及其在语料中的分布特征,完善词组型术语的抽取任务。实验证实了该方法能够有效提升低频术语和基础术语的排序位置,从而改善了中文词组型术语抽取系统的性能。
-
关键词
中文术语抽取
语言规则获取
子串归并
搭配检验
词语活跃度
领域相关度
-
Keywords
Chinese term extraction
linguistical rules acquisition
substring reduction
collocation test
word active degree
domain relevant degree
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-