期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
融合规则与统计的微博新词发现方法 被引量:15
1
作者 周霜霜 徐金安 +1 位作者 陈钰枫 张玉洁 《计算机应用》 CSCD 北大核心 2017年第4期1044-1050,共7页
结合微博新词的构词规则自由度大和极其复杂的特点,针对传统的C/NC-value方法抽取的结果新词边界的识别准确率不高,以及低频微博新词无法正确识别的问题,提出了一种融合人工启发式规则、C/NC-value改进算法和条件随机场(CRF)模型的微博... 结合微博新词的构词规则自由度大和极其复杂的特点,针对传统的C/NC-value方法抽取的结果新词边界的识别准确率不高,以及低频微博新词无法正确识别的问题,提出了一种融合人工启发式规则、C/NC-value改进算法和条件随机场(CRF)模型的微博新词抽取方法。一方面,人工启发式规则是指对微博新词的分类和归纳总结,并从微博新词构词的词性(POS)、字符类别和表意符号等角度设计的微博新词的构词规则;另一方面,改进的C/NC-value方法通过引入词频、邻接熵和互信息等统计量来重构NC-value目标函数,并使用CRF模型训练和识别新词,最终达到提高新词边界识别准确率和低频新词识别精度的目的。实验结果显示,与传统方法相比,所提出的方法能有效地提高微博新词识别的F值。 展开更多
关键词 微博新词 构词规则 统计量特征 C/nc-value方法 条件随机场模型
下载PDF
基于混合策略的高精度长术语自动抽取 被引量:18
2
作者 梁颖红 张文静 周德富 《中文信息学报》 CSCD 北大核心 2009年第6期26-30,共5页
在目前的术语自动抽取中,双字词的精度已经达到了90.36%,但是三字以上的词的抽取精度只有66.63%,多字词的抽取成为了术语自动抽取的一个难点。该文提出了NC-value参数和互信息相结合的混合策略来识别三字以上的长术语的方法。该方法充... 在目前的术语自动抽取中,双字词的精度已经达到了90.36%,但是三字以上的词的抽取精度只有66.63%,多字词的抽取成为了术语自动抽取的一个难点。该文提出了NC-value参数和互信息相结合的混合策略来识别三字以上的长术语的方法。该方法充分发挥了NC-value参数在利用词语上下文信息和互信息参数在词语结合强度两方面的优势,两者相互约束和配合,更有利于找到准确的长术语边界。采用生物信息领域Yapex语料进行实验,结果表明,三字以上长术语抽取正确率和召回率分别达到88.5%和76.6%,F测量值达到82.2%,稍高于其他方法的结果。 展开更多
关键词 计算机应用 中文信息处理 术语抽取 nc-value 互信息
下载PDF
基于分隔符和上下文术语的领域现象术语抽取 被引量:6
3
作者 刘里 刘小明 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第7期146-149,155,共5页
领域现象术语常常是复合型短语,很难根据局部上下文特征用传统的机器学习方法来抽取.为此,文中提出了一种领域现象术语的抽取方法.该方法首先用基于上下文的方法抽取得到分隔符集,然后结合分隔符集和上下文术语用改进的NC-value算法进... 领域现象术语常常是复合型短语,很难根据局部上下文特征用传统的机器学习方法来抽取.为此,文中提出了一种领域现象术语的抽取方法.该方法首先用基于上下文的方法抽取得到分隔符集,然后结合分隔符集和上下文术语用改进的NC-value算法进行候选领域现象术语抽取,最后在候选领域现象术语中过滤掉名词性术语,进而得到最终结果.实验表明,文中方法对领域现象术语的抽取效果优于基于词频的方法和基于分隔符的方法. 展开更多
关键词 术语抽取 分隔符 复合词 nc-value算法
下载PDF
基于术语抽取技术的新闻新词发现方法研究 被引量:1
4
作者 张苏 梁颖红 牛丽 《苏州市职业大学学报》 2014年第3期14-16,35,共4页
新闻新词的识别在中英文翻译、手机应用推送等方面有着重要作用.通过对网络新闻新词的使用情况、新闻新词的来源和特点的分析,提出一种基于混合策略的高精度长术语抽取技术新闻新词发现的方案.在通过预处理的网络新闻语料中,计算基于词... 新闻新词的识别在中英文翻译、手机应用推送等方面有着重要作用.通过对网络新闻新词的使用情况、新闻新词的来源和特点的分析,提出一种基于混合策略的高精度长术语抽取技术新闻新词发现的方案.在通过预处理的网络新闻语料中,计算基于词汇NC-value值的互信息以确定词汇内部结构的结合性,通过新闻新词规则处理进行新闻新词发现. 展开更多
关键词 中文信息处理 新词发现 互信息 nc-value
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部