题名 一种基于语料特性的聚类算法
被引量:8
1
作者
曾依灵
许洪波
吴高巍
白硕
机构
中国科学院计算技术研究所网络重点实验室
中国科学院研究生院
出处
《软件学报》
EI
CSCD
北大核心
2010年第11期2802-2813,共12页
基金
国家自然科学基金No.60933005
国家重点基础研究发展计划(973)Nos.2007CB311100
+1 种基金
2004CB318109
国家高技术研究发展计划(863)No.2007AA01Z441~~
文摘
为寻求模型不匹配问题的一种恰当的解决途径,提出了基于语料分布特性的CADIC(clustering algorithm based on the distributions of intrinsic clusters)聚类算法.CADIC以重标度的形式隐式地将语料特性融入算法框架,从而使算法模型具备更灵活的适应能力.在聚类过程中,CADIC选择一组具有良好区分度的方向构建CADIC坐标系,在该坐标系下统计固有簇的分布特性,以构造各个坐标轴的重标度函数,并以重标度的形式对语料分布进行隐式的归一化,从而提高聚类决策的有效性.CADIC以迭代的方式收敛到最终解,其时间复杂度与K-means保持在同一量级.在国际知名评测语料上的实验结果表明,CADIC算法的基本框架是合理的,其聚类性能与当前领先水平的聚类算法相当.
关键词
CADIC(clustering
algorithm
based
on
the
DISTRIBUTIONS
of
INTRINSIC
clusters)
文本聚类
模型不匹配
重标度
信息检索
Keywords
CADIC(clustering algorithm based on the distributions of intrinsic clusters); text clustering; model misfit; rescaling; information retrieval;
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 改进的OPTICS算法及其在文本聚类中的应用
被引量:29
2
作者
曾依灵
许洪波
白硕
机构
中国科学院计算技术研究所智能安全中心
出处
《中文信息学报》
CSCD
北大核心
2008年第1期51-55,60,共6页
基金
国家973资助项目(2004CB318109)
文摘
基于密度的OPTICS聚类算法以可视化的结果输出方式直观呈现语料结构,但由于其结果组织策略在处理稀疏点时的局限性,算法实际性能未能得到充分发挥。本文针对此缺陷提出一种有效的结果重组织策略以辅助稀疏点的重新定位,并针对文本领域的特点改变距离度量方法,形成了OPTICS-Plus文本聚类算法。在真实文本分类语料上的实验表明,我们的结果重组织策略能够辅助算法产生更为清晰反映语料结构的可达图,与K-means算法的比较则证实了OPTICS-Plus具有较为良好的聚类性能。
关键词
计算机应用
中文信息处理
OPTICS算法
密度聚类
文本挖掘
Keywords
computer application
Chinese information processing
OPTICS
density based clustering
text mining
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 网络文本主题词的提取与组织研究
被引量:14
3
作者
曾依灵
许洪波
白硕
机构
中国科学院计算技术研究所智能软件部
出处
《中文信息学报》
CSCD
北大核心
2008年第3期64-70,80,共8页
基金
国家973“大规模文本内容计算”课题资助项目(2004CB318109)
文摘
网络信息的指数爆炸给人们获取与掌控信息带来了困扰,为了挖掘海量信息中的关键因子并以恰当的方式进行组织,本文设计了网络文本主题词提取和组织算法。该算法基于多级滤噪的切分词拼接,利用特定的噪音库与滤噪策略严格控制拼接过程,在合理收录策略的挑选下,算法提取出了能够准确反映海量网络数据中关键因子的主题词串。为清晰地组织主题词,建立主题词与网络事件的有机联系,设计了新的词聚类策略对主题词提取结果进行处理,使表达同一热点的主题词合理地组织在一起,共同描述同一事件。在以实际网络文本为语料的实验中,算法表现出令人满意的性能。
关键词
计算机应用
中文信息处理
主题词提取
未登录词识别
切分词拼接
主题词聚类
Keywords
computer application
Chinese information processing
key phrases extraction
unknown word identification
segmented word concatenation
key phrases clustering
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 网络热点信息发现研究
被引量:29
4
作者
曾依灵
许洪波
机构
中国科学院计算技术研究所
出处
《通信学报》
EI
CSCD
北大核心
2007年第12期141-146,共6页
基金
国家重点基础研究发展计划("973"计划)基金资助项目(2004CB318109)~~
文摘
为了有效挖掘海量网络数据中的热点信息,设计了网络热点信息发现算法。基于多级滤噪进行切分词拼接,利用特定的噪声库与多级滤噪策略严格控制拼接过程,挑选合理的收录策略,提取出能够准确反映海量网络数据中热门事件的热点信息串。在TDT国际标准评测语料上算法表现出令人满意的性能。
关键词
热点信息发现
未登录词识别
切分词拼接
Keywords
hotspot information detection
unknown word identification
segmented word joint
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 一种基于空间映射及尺度变换的聚类框架
被引量:2
5
作者
曾依灵
许洪波
吴高巍
程学旗
白硕
机构
中国科学院计算技术研究所
上海证券交易所
出处
《中文信息学报》
CSCD
北大核心
2010年第3期81-88,共8页
基金
国家973基础研究计划项目资助(2007CB311100)
国家自然科学基金重点项目资助(60933005)
文摘
传统聚类算法通常建立在显式的模型之上,很少考虑泛化模型以适应不同的数据,由此导致了模型不匹配问题。针对此问题,该文提出了一种基于空间映射(Mapping)及尺度变换(Rescaling)的聚类框架(简称M-R框架)。具体而言,M-R框架首先将语料映射到一组具有良好区分度的方向所构建的坐标系中,以统计各个簇的分布特性,然后根据这些分布特性对各个坐标轴进行尺度变换,以归一化语料中各个类簇的分布。如上两步操作伴随算法迭代执行,直至算法收敛。该文将M-R框架应用到K-means算法及谱聚类算法上以验证其性能,在国际标准评测语料上的实验表明,应用了M-R框架的K-means及谱聚类在所有语料集上获得了全面的性能提升。
关键词
计算机应用
中文信息处理
文本聚类
空间映射
尺度变换
模型不匹配
Keywords
computer application
Chinese information processing
document clustering
space mapping
rescaling
model misfit
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 用遗传算法寻找OLSR协议的最小MPR集
被引量:24
6
作者
张信明
曾依灵
干国政
陈国良
机构
中国科学技术大学计算机科学技术系
出处
《软件学报》
EI
CSCD
北大核心
2006年第4期932-938,共7页
基金
国家"CNGI(下一代互联网示范工程)"专项重点支持项目
宁波市重点博士科学基金
+1 种基金
华为科技基金
韩国高等教育财团国际交换学者奖~~
文摘
节点可以自由、自主地进入网络拓扑的特性,使得移动Adhoc网络(mobileadhocnetwork,简称MANET)被广泛应用于诸如灾难救援、战场等多种环境中.MANET中的路由要能迅速地适应频繁的网络拓扑结构的变化,同时最大限度地节约网络资源.OLSR(optimizedlinkstateroutingprotocol)协议是一个重要的MANET路由协议,而支撑此协议的一个关键技术是MPR(multipointrelays).在介绍了OLSR协议及MPR技术之后,揭示了目前启发式算法在寻找最小MPR上的弱点,提出了一种基于遗传算法(geneticalgorithm,简称GA)的新算法,并证明了该算法的收敛性.通过采用不同遗传策略将此遗传算法衍生成了4个系列算法,并在随机生成的拓扑上对其进行模拟.模拟结果分析显示:提出的遗传算法是可行和适用的,选择的启发式策略也是恰当和正确的.
关键词
OLSR
MPR
启发式算法
遗传算法
网络拓扑
Keywords
OLSR (optimized link state routing protocol)
MPR (multipoint relays)
heuristic algorithm
genetic algorithm
mobile ad hoc network
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
题名 基于扩展领域模型的有名属性抽取
被引量:13
7
作者
王宇
谭松波
廖祥文
曾依灵
机构
中国科学院计算技术研究所
中国科学院研究生院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2010年第9期1567-1573,共7页
基金
国家"九七三"重点基础研究发展计划基金项目(2004CB318109
2007CB311100)
文摘
网页信息抽取是互联网挖掘的重要课题.为了自动化抽取过程,最新的研究利用特定领域的特征,通过机器学习方法对信息抽取过程进行统一建模.但是,对领域特征的依赖使得这类方法难以推广到其他领域中去.因此,对信息抽取问题进行了分析,从中分离出一个可以完全自动化的信息抽取子任务,即有名属性抽取任务.在多个领域的数据集上进行的统计表明,这个子任务覆盖了60%以上的待抽取属性,因此它在整个信息抽取中占有重要地位.并给出了一种基于扩展领域模型的有名属性抽取方法,实验结果表明,这种方法的准确率接近或大于80%,召回率大于90%.
关键词
信息抽取
属性抽取
有名属性
扩展领域模型
网页视觉分析
Keywords
information extraction
attribute extraction
named attribute
extended domain model
visual Web page analysis
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]