-
题名互信息改进方法在术语抽取中的应用
被引量:19
- 1
-
-
作者
杜丽萍
李晓戈
周元哲
邵春昌
-
机构
西安邮电大学计算机学院
中央民族大学理学院
-
出处
《计算机应用》
CSCD
北大核心
2015年第4期996-1000,1005,共6页
-
基金
国家自然科学基金资助项目(61373116)
西安邮电大学研究生创新基金资助项目(ZL2013-31)
-
文摘
为了确定改进互信息(PMIk)方法的参数k取何值时能够克服互信息(PMI)方法过高估计两个低频且总是一起出现的字串间结合强度的缺点,解决术语抽取系统采用经过分词的语料库时由于分词错误导致的某些术语无法抽取的问题,以及改善术语抽取系统的可移植性,提出了一种结合PMIk和两个基本过滤规则从未经过分词的语料库中进行术语抽取的算法。首先,利用PMIk方法计算两个字之间的结合强度,确定2元待扩展种子;其次,利用PMIk方法计算2元待扩展种子分别和其左边、右边的字的结合强度,确定2元是否能扩展为3元,如此迭代扩展出多元的候选术语;最后,利用两个基本过滤规则过滤候选术语中的垃圾串,得到最终结果。理论分析表明,当k≥3(k∈N+)时,PMIk方法能克服PMI方法的缺点。在1 GB的新浪财经博客语料库和300 MB百度贴吧语料库上的实验验证了理论分析的正确性,且PMIk方法获得了比PMI方法更高的精度,算法有良好的可移植性。
-
关键词
术语抽取
专业术语
知识获取
互信息
-
Keywords
term extraction
technical term
knowledge acquisition
Point-wise mutual information(PMI)
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于Web数据的本体概念抽取
被引量:1
- 2
-
-
作者
强彦
谢红薇
-
机构
太原理工大学计算机与软件学院
-
出处
《电脑开发与应用》
2007年第11期37-39,共3页
-
基金
山西省自然科学基金(No.20051035)资助
-
文摘
本体论(Ontology)在知识管理及语义网(Semantic Web)中越来越重要,但建造本体往往需要耗费大量的时间,且建造完成后本体的维护对知识管理者来说也是费时的工作。自动创建领域Ontology可以克服手工方法的不足,成为当前的研究热点之一;而概念是本体中最重要的组成部分之一,从半结构化的Web文档中自动抽取概念的效率和准确度的高低,直接决定了自动建造的本体的质量,提出一种自动的本体概念抽取模型,此模型不依赖于领域词典或核心本体,并且能达到快速有效地通过对中文Web文本挖掘自动地构建及更新领域本体概念的目的。
-
关键词
本体学习
互信息
知识获取术
语抽取
-
Keywords
ontology learning,mutual information,knowledge acquisition,term extraction
-
分类号
TP274
[自动化与计算机技术—检测技术与自动化装置]
-