期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于信息熵与词语活跃度的领域词抽取 被引量:1
1
作者 王成 吕学强 +1 位作者 王弘蔚 王涛 《北京信息科技大学学报(自然科学版)》 2011年第5期49-52,58,共5页
提出了一种基于信息墒和词语活跃度的领域词抽取方法,通过对语料进行预处理,提取出候选领域词,计算所有候选领域词的正规化类间分布(NCD)和正规化类内分布(NDD),设置阈值对候选领域词过滤,最后分析了双字候选领域词中包含的常见噪音词语... 提出了一种基于信息墒和词语活跃度的领域词抽取方法,通过对语料进行预处理,提取出候选领域词,计算所有候选领域词的正规化类间分布(NCD)和正规化类内分布(NDD),设置阈值对候选领域词过滤,最后分析了双字候选领域词中包含的常见噪音词语,使用词语活跃度对候选领域词中的双字词语进行过滤,该方法综合考虑了领域词在类别中的概率分布和领域词的内部特征。实验结果表明,该方法在领域词的识别上具有较好的准确率和召回率。 展开更多
关键词 领域词抽取 领域词过滤 信息熵 词语活跃度 知识获取 自然语言处理
下载PDF
基于多策略融合的中文术语抽取方法 被引量:28
2
作者 周浪 史树敏 +1 位作者 冯冲 黄河燕 《情报学报》 CSSCI 北大核心 2010年第3期460-467,共8页
中文术语抽取是信息抽取、文本挖掘以及知识获取等信息处理任务中的关键技术。相对于单词型术语,词组型术语的识别过程要更加复杂。由于短语中引入了大量非名词性词汇,随之产生了更多种的噪声数据,不仅需要判断短语结构是否完整,还要考... 中文术语抽取是信息抽取、文本挖掘以及知识获取等信息处理任务中的关键技术。相对于单词型术语,词组型术语的识别过程要更加复杂。由于短语中引入了大量非名词性词汇,随之产生了更多种的噪声数据,不仅需要判断短语结构是否完整,还要考虑短语内部词汇的搭配合理性、衡量短语中所负载领域信息量等问题。文中将词组型术语抽取过程中遇到的这三个问题作为切入点,分别使用子串归并、搭配检验和领域相关度计算技术来解决这三个问题,分析词组型术语自身的结构特征以及其在语料中的分布特征,完善词组型术语的抽取任务。实验证实了该方法能够有效提升低频术语和基础术语的排序位置,从而改善了中文词组型术语抽取系统的性能。 展开更多
关键词 中文术语抽取 语言规则获取 子串归并 搭配检验 词语活跃度 领域相关
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部