-
题名基于词内部模式的新词识别
被引量:17
- 1
-
-
作者
林自芳
蒋秀凤
-
机构
福州大学数学与计算机科学学院
-
出处
《计算机与现代化》
2010年第11期162-164,167,共4页
-
基金
福建省科技创新平台计划项目(2009J1007)
福建省教育厅科研基金资助项目(JA04161)
福建省发展改革委员会基金资助项目(SX2004-29)
-
文摘
提出一种基于词内部模式的新词识别算法,该算法在重复串查找的基础上,结合词内部模式的特征提出改进位置成词概率和首尾单字成词概率的加权,依次判断互信息、邻接类别等统计量,对新词进行识别。通过不同的实验对比发现,该算法在一定程度上能有效提取新词。
-
关键词
词内部模式
新词语识别
改进位置成词概率
首尾单字成词概率
-
Keywords
inner pattern of word
new word identification
improved PWP
inside word probabilities
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于词内部模式的中文新词识别研究
被引量:1
- 2
-
-
作者
廖祥文
林自芳
陈水利
-
机构
福州大学数学与计算机科学学院
集美大学理学院
-
出处
《集美大学学报(自然科学版)》
CAS
2011年第6期461-466,共6页
-
基金
福建省自然科学基金资助项目(2010J05133)
福建省科技创新平台计划项目(2009J1007)
福州大学科技专项启动基金资助项目(2010-XQ-22)
-
文摘
提出了一种基于支持向量机的中文新词识别算法.该算法结合新词内部模式以及词长等提出了基于词内部模式的改进字符位置似然概率,并综合新词的邻接类别等特征对新词进行识别.经过小说语料测试,实验结果表明:该算法的微F1值为0.583 3,宏F1值为0.775 7,分别比不考虑词内部模式的基准算法提高约63%和30%.
-
关键词
中文新词
识别
词内部模式
字符位置似然概率
支持向量机
-
Keywords
Chinese new word
identification
inner pattern of word
independent word possibility
SVM
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-