-
题名基于万有引力模型的关键词自动抽取方法
被引量:1
- 1
-
-
作者
李欢
吕学强
李宝安
徐丽萍
-
机构
北京信息科技大学网络文化与数字传播北京市重点实验室
北京城市系统工程研究中心
-
出处
《计算机工程与设计》
北大核心
2019年第4期1091-1098,共8页
-
基金
国家自然科学基金项目(61671070)
国家社会科学基金重大基金项目(15ZDB017)
+1 种基金
国家语委重大课题基金项目(ZDA125-26)
北京成像技术高精尖创新中心基金项目(BAICIT-2016003)
-
文摘
为解决传统万有引力模型因词语质量、词间距离度量不足导致关键词效果较差的问题,分别从词语质量表示和距离计算两方面对传统万有引力模型进行改进。提出基于词频-文档分布熵的方法构建通用词表,过滤候选词后,综合位置、词性、词长特征改进TF-IDF方法,计算词语外部重要性;构建共现网络图,通过计算词语关联度衡量单词内部重要性,融合内部重要性和外部重要性计算词语质量并赋予图节点差异化初始权重;在语义距离的基础上引入依存句法距离,计算词间引力作为边的权重,多次迭代后排序输出TopK个关键词。实验结果表明,该方法在3GPP技术规范和公开的SemEval2010、DUC2001数据集上较传统方法取得了更好的效果,验证了方法的有效性和通用性。
-
关键词
万有引力模型
词频-文档分布熵
关键词抽取
词语关联度
依存句法距离
-
Keywords
extraction
correlation degree
dependency syntax distance
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-