-
题名基于小世界模型的复合关键词提取方法研究
被引量:14
- 1
-
-
作者
马力
焦李成
白琳
周雅夫
董洛兵
-
机构
西安电子科技大学智能信息处理研究所
西安邮电学院信息中心
西安电子科技大学图书馆
-
出处
《中文信息学报》
CSCD
北大核心
2009年第3期121-128,共8页
-
基金
国家自然科学基金资助项目(60803162)
陕西省自然科学基金资助项目(SJ08-ZT15)
陕西省教育厅科研计划资助项目(08JK245)
-
文摘
该文提出了一种新的基于小世界网络特性的关键词提取算法。首先,利用K最邻近耦合图构成方式,将文档表示成为词语网络。引入词语聚类系数变化量和平均最短路径变化量来度量词语的重要性,选择重要性大的词语组成候选关键词集。利用侯选关键词集词语位置关系和汉语词性搭配关系,提取出复合关键词。实验结果表明该方法是可行和有效的,获取复合关键词比一般关键词所表达的含义更便于人们对文本的理解。
-
关键词
计算机应用
中文信息处理
小世界网络
词语网络
平均最短路径变化量
聚类系数变化量
复合关键词
-
Keywords
computer application
Chinese information processing
small world network
term network graph
average shortest path length increment
average clustering coefficient increment
compound keywords
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于SWN理论提取复合关键字系统的设计与实现
被引量:4
- 2
-
-
作者
周雅夫
马力
董洛兵
-
机构
西安邮电学院计算机系
西安邮电学院信息中心
西安电子科技大学图书馆
-
出处
《西安邮电学院学报》
2007年第5期82-86,共5页
-
文摘
实现了一个利用小世界网络模型(SWN)提取中文文档的关键字的系统。小世界网络模型具有两个统计性质:平均路径长度和聚类系数。本系统使用的算法首先对文档进行分词,以分词之间的相邻关系为边、以分词为节点构造文档结构图。然后计算每一个分词的平均路径长度变化量和聚类系数变化量,并且使用这两个变化量作为提取关键字的标准,最后按照一定策略合并关键字成复合关键字。本文首先详细介绍了小世界网络模型的概念和在关键字提取方面的应用,然后介绍了本系统的设计与实现,最后通过实验证明了该算法的正确性和有效性。
-
关键词
小世界网络
关键字提取
平均路径长度变化量
聚类系数变化量
-
Keywords
small world network
keyword extracting
average path length increment
average clustering coefficient increment
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-