-
题名一种基于大规模语料的新词识别方法
被引量:24
- 1
-
-
作者
贺敏
龚才春
张华平
程学旗
-
机构
中国科学院计算技术研究所
中国科学院研究生院
-
出处
《计算机工程与应用》
CSCD
北大核心
2007年第21期157-159,共3页
-
基金
国家重点基础研究发展规划(973)(the National Grand Fundamental Research 973 Program of China under Grant No.2004CB318109)
中科院知识创新工程基金(No.20056550)。
-
文摘
提出了一种基于大规模语料的新词识别方法,在重复串统计的基础上,结合分析不同串的外部环境和内部构成,依次判断上下文邻接种类,首尾单字位置成词概率以及双字耦合度等语言特征,分别过滤得到新词。通过在不同规模的语料上实验发现,此方法可行有效,能够应用到词典编撰,术语提取等领域。
-
关键词
新词
邻接类别
单字成词概率
双字耦合度
-
Keywords
new words
context variety
inside word probability
double character coupling
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于词内部模式的新词识别
被引量:17
- 2
-
-
作者
林自芳
蒋秀凤
-
机构
福州大学数学与计算机科学学院
-
出处
《计算机与现代化》
2010年第11期162-164,167,共4页
-
基金
福建省科技创新平台计划项目(2009J1007)
福建省教育厅科研基金资助项目(JA04161)
福建省发展改革委员会基金资助项目(SX2004-29)
-
文摘
提出一种基于词内部模式的新词识别算法,该算法在重复串查找的基础上,结合词内部模式的特征提出改进位置成词概率和首尾单字成词概率的加权,依次判断互信息、邻接类别等统计量,对新词进行识别。通过不同的实验对比发现,该算法在一定程度上能有效提取新词。
-
关键词
词内部模式
新词语识别
改进位置成词概率
首尾单字成词概率
-
Keywords
inner pattern of word
new word identification
improved PWP
inside word probabilities
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-