-
题名互信息改进方法在术语抽取中的应用
被引量:19
- 1
-
-
作者
杜丽萍
李晓戈
周元哲
邵春昌
-
机构
西安邮电大学计算机学院
中央民族大学理学院
-
出处
《计算机应用》
CSCD
北大核心
2015年第4期996-1000,1005,共6页
-
基金
国家自然科学基金资助项目(61373116)
西安邮电大学研究生创新基金资助项目(ZL2013-31)
-
文摘
为了确定改进互信息(PMIk)方法的参数k取何值时能够克服互信息(PMI)方法过高估计两个低频且总是一起出现的字串间结合强度的缺点,解决术语抽取系统采用经过分词的语料库时由于分词错误导致的某些术语无法抽取的问题,以及改善术语抽取系统的可移植性,提出了一种结合PMIk和两个基本过滤规则从未经过分词的语料库中进行术语抽取的算法。首先,利用PMIk方法计算两个字之间的结合强度,确定2元待扩展种子;其次,利用PMIk方法计算2元待扩展种子分别和其左边、右边的字的结合强度,确定2元是否能扩展为3元,如此迭代扩展出多元的候选术语;最后,利用两个基本过滤规则过滤候选术语中的垃圾串,得到最终结果。理论分析表明,当k≥3(k∈N+)时,PMIk方法能克服PMI方法的缺点。在1 GB的新浪财经博客语料库和300 MB百度贴吧语料库上的实验验证了理论分析的正确性,且PMIk方法获得了比PMI方法更高的精度,算法有良好的可移植性。
-
关键词
术语抽取
专业术语
知识获取
互信息
-
Keywords
term extraction
technical term
knowledge acquisition
Point-wise Mutual Information(PMI)
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-