-
题名面向本体学习的中文专利术语抽取研究
被引量:18
- 1
-
-
作者
王昊
王密平
苏新宁
-
机构
南京大学信息管理学院
南京大学江苏省数据工程与知识服务重点实验室
-
出处
《情报学报》
CSSCI
北大核心
2016年第6期573-585,共13页
-
基金
江苏省自然科学基金项目"面向专利预警的中文本体学习研究"(BK20130587)
国家社科重大招标项目"面向突发事件应急决策的快速响应情报体系研究"(13&ZD174)等的资助
-
文摘
本文提出了一个无或少训练语料环境下抽取中文专利术语的解决方案。以"钢铁冶金"领域专利文本为例,首先总结了该领域中文术语的基本特征,进而建立了基于字角色标注的机器学习术语识别模型,并通过循环迭代方式重复条件随机场的学习过程,最大限度避免因核心词汇库代替人工带来的标注不准确不充分问题;在此基础上,进一步依据合成规则构造新术语,并经过领域专家确认后添加至核心词汇库中。经过实验论证,基于字角色标注的基本术语抽取F1值高于94%,而基于合成规则的复杂术语抽取准确率也可达到75%。在7597件专利的题名和摘要文本中,最终可获得中文基本术语244672个,合成术语61536个,为领域本体的构建奠定了基础。
-
关键词
中文专利术语
机器学习
条件随机场
字角色标注
循环迭代
合成规则
本体学习
-
Keywords
Chinese patent terms, machine learning, conditional random fields (CRFS), character role labeling, snowball, combination rules, ontology learning
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-