期刊文献+

一种基于成词率和谱聚类的电力文本领域词发现方法 被引量:1

A power text domain word discovery method based on word formation rate and spectral clustering
下载PDF
导出
摘要 考虑到当前电力行业仍缺少有效的领域词发现方法,以电力行业科技项目文本为原始语料库,将基于互信息与左右熵的统计特征与传统语言构词规则特征相融合,提出了电力文本成词率的概念。所提方法首先利用成词率对电力文本进行无监督筛选得到初始候选词集,然后对候选词集进行文本切片算法和常用词过滤操作,最后进行词嵌入和谱聚类得到最终所需的电力文本领域词。实验结果表明,所提出的方法准确有效,为电力文本的领域词发现提供了一种新方法。 Considering that the current power industry still lacks effective domain word discovery methods,this paper takes the power industry science and technology project text as the original corpus,combines the statistical features based on the mutual information,left entropy as well as right entropy with the features of traditional language word-formation rules,and proposes the new concept of power text word formation rate.The proposed method firstly uses the word formation rate to get the initial candidate word set by unsupervised filtering,and then performs the text slicing algorithm and common word filtering operation on the candidate word set,and finally performs the word embedding and spectral clustering algorithms to get the final power text-domain words.Experimental results show that the method proposed in this paper is accurate and effective,and provides a new method for power text domain word discovery.
作者 杨政 尹春林 蔡迪 李慧斌 Yang Zheng;Yin Chunlin;Cai Di;Li Huibin(Electric Power Research Institute of Yunnan Power Grid Co.,Ltd.,Kunming 650217,China;School of Mathematics and Statistics,Xi′an Jiaotong University,Xi′an 710049,China)
出处 《电子技术应用》 2021年第10期29-32,37,共5页 Application of Electronic Technique
基金 国家自然科学基金面上项目(61976173) 教育部-中国移动人工智能建设项目(MCM20190701)。
关键词 成词率 谱聚类 领域词发现 电力文本 word formation rate spectral clustering domain word discovery power text
  • 相关文献

参考文献12

二级参考文献77

共引文献295

同被引文献6

引证文献1

二级引证文献2

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部