-
题名基于边界标记集的专利文献术语抽取方法
被引量:7
- 1
-
-
作者
丁杰
吕学强
刘克会
-
机构
北京信息科技大学网络文化与数字传播重点实验室
北京城市系统工程研究中心
-
出处
《计算机工程与科学》
CSCD
北大核心
2015年第8期1591-1598,共8页
-
基金
国家自然科学基金资助项目(61271304)
北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点资助项目(KZ20131123237)
北京市属高等学校创新团队建设与教师职业发展计划资助项目(IDHT20130519)
-
文摘
目前,大部分术语边界的确定方法是通过选取合适的统计量,设置合适的阈值计算字符串之间的紧密程度,但该类方法在抽取长术语时不能得到很好的效果。为了解决在术语抽取过程中长术语抽取召回率低的问题,在研究了大量专利文献的基础上,提出了一种基于专利术语边界标记集的术语抽取方法。方法中提出了边界标记集的概念,并结合专利文献中术语边界的特点构建专利术语边界标记集;提出了一种种子术语权重计算方法抽取种子术语;使用人民日报语料作为对比语料抽取专利文献术语部件词库,提高候选术语的术语度;最后采用左右边界熵的方法对识别出的术语进行过滤。实验表明,所提出的方法具有较好的实验结果,正确率81.67%,召回率71.92%,F值0.765,较对比实验有较大提高。
-
关键词
边界标记集
种子术语
部件库
左右边界熵
-
Keywords
boundary tag set
seed-term
term component library
boundary entropy
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-