-
题名专利新词发现的双向聚合度特征提取新方法
被引量:5
- 1
-
-
作者
陈梅婕
谢振平
陈晓琪
许鹏
-
机构
江南大学数字媒体学院
江苏省媒体设计与软件技术重点实验室(江南大学)
常州佰腾科技有限公司
-
出处
《计算机应用》
CSCD
北大核心
2020年第3期631-637,共7页
-
基金
国家自然科学基金资助项目(61872166)~~
-
文摘
针对通用新词发现方法对专利长词识别效果不佳、专利术语词性搭配模板的灵活性不高,以及缺乏对中文专利长词识别的无监督方法的问题,提出了一种发现专利新词的双向聚合度特征提取新方法。首先,以词中组分的双向条件概率统计信息为基础,构造提出了一个二元词上的双向聚合度统计特征;其次,利用此特征扩展提出了词边界筛选规则;最后,基于新特征和词边界规则实现专利新词的提取。实验结果表明,新方法在整体F-测度值方面,与通用领域新词发现方法相比,提高了6.7个百分点,与两种最新的专利词性搭配模板方法相比,分别提高了19.2个百分点和17.2个百分点,并且较为显著地提高了4~8字专利新词发现的F-测度值。综合地,所提出的方法提升了专利新词发现性能,并且能够更有效地提取专利文本中具有复合形式的长词,同时可以减少对预先训练过程和额外复杂规则库的依赖,具备更好的实用性。
-
关键词
新词发现
双向聚合度
专利新词
特征提取
专利分析
-
Keywords
new word discovery
bidirectional aggregation degree
patent new word
feature extraction
patent analysis
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-