期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
面向本体学习的中文专利术语抽取研究 被引量:18
1
作者 王昊 王密平 苏新宁 《情报学报》 CSSCI 北大核心 2016年第6期573-585,共13页
本文提出了一个无或少训练语料环境下抽取中文专利术语的解决方案。以"钢铁冶金"领域专利文本为例,首先总结了该领域中文术语的基本特征,进而建立了基于字角色标注的机器学习术语识别模型,并通过循环迭代方式重复条件随机场... 本文提出了一个无或少训练语料环境下抽取中文专利术语的解决方案。以"钢铁冶金"领域专利文本为例,首先总结了该领域中文术语的基本特征,进而建立了基于字角色标注的机器学习术语识别模型,并通过循环迭代方式重复条件随机场的学习过程,最大限度避免因核心词汇库代替人工带来的标注不准确不充分问题;在此基础上,进一步依据合成规则构造新术语,并经过领域专家确认后添加至核心词汇库中。经过实验论证,基于字角色标注的基本术语抽取F1值高于94%,而基于合成规则的复杂术语抽取准确率也可达到75%。在7597件专利的题名和摘要文本中,最终可获得中文基本术语244672个,合成术语61536个,为领域本体的构建奠定了基础。 展开更多
关键词 中文专利术语 机器学习 条件随机场 字角色标注 循环迭代 合成规则 本体学习
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部