-
题名基于质子串分解的中文术语自动抽取
被引量:21
- 1
-
-
作者
何婷婷
张勇
-
机构
清华大学软件学院
华中师范大学计算机科学系
-
出处
《计算机工程》
EI
CAS
CSCD
北大核心
2006年第23期188-190,共3页
-
基金
国家自然科学基金资助项目(60442005)
国家"973"计划基金资助项目(2004CB318104)
+1 种基金
教育部科学技术研究基金资助重点项目(105117)
国家语委语言文字应用"十五"规划基金资助重点项目(ZDI105-B01)
-
文摘
针对中文术语构成特点,提出了一种基于质子串分解的术语自动抽取方法,将词分为2类:结构简单的质词和有复杂结构的合词;使用参数F-MI抽取结构简单的质词;并在其基础上,进一步使用质子串分解方法抽取具有复杂结构的合词。实验结果显示,该算法有效地提高了中文自动术语抽取的精确度。目前该算法已在国家网络媒体监测项目中得到了应用,并显示了良好的效果。
-
关键词
质子串分解
术语自动抽取
C—value
互信息
-
Keywords
Decomposition of prime string
Automatic term extraction
C-value
Mutual information
-
分类号
TP391.43
[自动化与计算机技术—计算机应用技术]
-
-
题名基于卡方检验的汉语术语抽取
被引量:14
- 2
-
-
作者
胡文敏
何婷婷
张勇
-
机构
华中师范大学计算机科学系
-
出处
《计算机应用》
CSCD
北大核心
2007年第12期3019-3020,3025,共3页
-
基金
国家自然科学基金资助项目(60673040)
国家社会科学基金资助项目(06BYY029)
教育部科学技术研究重点资助项目(105117)
-
文摘
发现术语在中文信息处理和语言学习方面具有非常重要的作用和意义。提出了一种基于卡方检验的汉语术语抽取方法:先从网络上下载语料,然后使用改进的互信息参数(F-M I)抽取结构简单的质串,并在其基础上进一步使用卡方检验结合质子串分解方法抽取具有复杂结构的合串。实验结果显示,该算法有效地提高了汉语术语抽取的精确度。
-
关键词
卡方检验
质子串分解
互信息
-
Keywords
Chi-square test
decomposition of prime string
mutual information
-
分类号
TP391.43
[自动化与计算机技术—计算机应用技术]
-