期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
一种基于语料特性的聚类算法 被引量:8
1
作者 曾依灵 许洪波 +1 位作者 吴高巍 白硕 《软件学报》 EI CSCD 北大核心 2010年第11期2802-2813,共12页
为寻求模型不匹配问题的一种恰当的解决途径,提出了基于语料分布特性的CADIC(clustering algorithm based on the distributions of intrinsic clusters)聚类算法.CADIC以重标度的形式隐式地将语料特性融入算法框架,从而使算法模型具备... 为寻求模型不匹配问题的一种恰当的解决途径,提出了基于语料分布特性的CADIC(clustering algorithm based on the distributions of intrinsic clusters)聚类算法.CADIC以重标度的形式隐式地将语料特性融入算法框架,从而使算法模型具备更灵活的适应能力.在聚类过程中,CADIC选择一组具有良好区分度的方向构建CADIC坐标系,在该坐标系下统计固有簇的分布特性,以构造各个坐标轴的重标度函数,并以重标度的形式对语料分布进行隐式的归一化,从而提高聚类决策的有效性.CADIC以迭代的方式收敛到最终解,其时间复杂度与K-means保持在同一量级.在国际知名评测语料上的实验结果表明,CADIC算法的基本框架是合理的,其聚类性能与当前领先水平的聚类算法相当. 展开更多
关键词 CADIC(clustering algorithm based on the DISTRIBUTIONS of INTRINSIC clusters) 文本聚类 模型不匹配 重标度 信息检索
下载PDF
改进的OPTICS算法及其在文本聚类中的应用 被引量:29
2
作者 曾依灵 许洪波 白硕 《中文信息学报》 CSCD 北大核心 2008年第1期51-55,60,共6页
基于密度的OPTICS聚类算法以可视化的结果输出方式直观呈现语料结构,但由于其结果组织策略在处理稀疏点时的局限性,算法实际性能未能得到充分发挥。本文针对此缺陷提出一种有效的结果重组织策略以辅助稀疏点的重新定位,并针对文本领域... 基于密度的OPTICS聚类算法以可视化的结果输出方式直观呈现语料结构,但由于其结果组织策略在处理稀疏点时的局限性,算法实际性能未能得到充分发挥。本文针对此缺陷提出一种有效的结果重组织策略以辅助稀疏点的重新定位,并针对文本领域的特点改变距离度量方法,形成了OPTICS-Plus文本聚类算法。在真实文本分类语料上的实验表明,我们的结果重组织策略能够辅助算法产生更为清晰反映语料结构的可达图,与K-means算法的比较则证实了OPTICS-Plus具有较为良好的聚类性能。 展开更多
关键词 计算机应用 中文信息处理 OPTICS算法 密度聚类 文本挖掘
下载PDF
网络文本主题词的提取与组织研究 被引量:14
3
作者 曾依灵 许洪波 白硕 《中文信息学报》 CSCD 北大核心 2008年第3期64-70,80,共8页
网络信息的指数爆炸给人们获取与掌控信息带来了困扰,为了挖掘海量信息中的关键因子并以恰当的方式进行组织,本文设计了网络文本主题词提取和组织算法。该算法基于多级滤噪的切分词拼接,利用特定的噪音库与滤噪策略严格控制拼接过程,在... 网络信息的指数爆炸给人们获取与掌控信息带来了困扰,为了挖掘海量信息中的关键因子并以恰当的方式进行组织,本文设计了网络文本主题词提取和组织算法。该算法基于多级滤噪的切分词拼接,利用特定的噪音库与滤噪策略严格控制拼接过程,在合理收录策略的挑选下,算法提取出了能够准确反映海量网络数据中关键因子的主题词串。为清晰地组织主题词,建立主题词与网络事件的有机联系,设计了新的词聚类策略对主题词提取结果进行处理,使表达同一热点的主题词合理地组织在一起,共同描述同一事件。在以实际网络文本为语料的实验中,算法表现出令人满意的性能。 展开更多
关键词 计算机应用 中文信息处理 主题词提取 未登录词识别 切分词拼接 主题词聚类
下载PDF
网络热点信息发现研究 被引量:29
4
作者 曾依灵 许洪波 《通信学报》 EI CSCD 北大核心 2007年第12期141-146,共6页
为了有效挖掘海量网络数据中的热点信息,设计了网络热点信息发现算法。基于多级滤噪进行切分词拼接,利用特定的噪声库与多级滤噪策略严格控制拼接过程,挑选合理的收录策略,提取出能够准确反映海量网络数据中热门事件的热点信息串。在TD... 为了有效挖掘海量网络数据中的热点信息,设计了网络热点信息发现算法。基于多级滤噪进行切分词拼接,利用特定的噪声库与多级滤噪策略严格控制拼接过程,挑选合理的收录策略,提取出能够准确反映海量网络数据中热门事件的热点信息串。在TDT国际标准评测语料上算法表现出令人满意的性能。 展开更多
关键词 热点信息发现 未登录词识别 切分词拼接
下载PDF
一种基于空间映射及尺度变换的聚类框架 被引量:2
5
作者 曾依灵 许洪波 +2 位作者 吴高巍 程学旗 白硕 《中文信息学报》 CSCD 北大核心 2010年第3期81-88,共8页
传统聚类算法通常建立在显式的模型之上,很少考虑泛化模型以适应不同的数据,由此导致了模型不匹配问题。针对此问题,该文提出了一种基于空间映射(Mapping)及尺度变换(Rescaling)的聚类框架(简称M-R框架)。具体而言,M-R框架首先将语料映... 传统聚类算法通常建立在显式的模型之上,很少考虑泛化模型以适应不同的数据,由此导致了模型不匹配问题。针对此问题,该文提出了一种基于空间映射(Mapping)及尺度变换(Rescaling)的聚类框架(简称M-R框架)。具体而言,M-R框架首先将语料映射到一组具有良好区分度的方向所构建的坐标系中,以统计各个簇的分布特性,然后根据这些分布特性对各个坐标轴进行尺度变换,以归一化语料中各个类簇的分布。如上两步操作伴随算法迭代执行,直至算法收敛。该文将M-R框架应用到K-means算法及谱聚类算法上以验证其性能,在国际标准评测语料上的实验表明,应用了M-R框架的K-means及谱聚类在所有语料集上获得了全面的性能提升。 展开更多
关键词 计算机应用 中文信息处理 文本聚类 空间映射 尺度变换 模型不匹配
下载PDF
用遗传算法寻找OLSR协议的最小MPR集 被引量:24
6
作者 张信明 曾依灵 +1 位作者 干国政 陈国良 《软件学报》 EI CSCD 北大核心 2006年第4期932-938,共7页
节点可以自由、自主地进入网络拓扑的特性,使得移动Adhoc网络(mobileadhocnetwork,简称MANET)被广泛应用于诸如灾难救援、战场等多种环境中.MANET中的路由要能迅速地适应频繁的网络拓扑结构的变化,同时最大限度地节约网络资源.OLSR(opti... 节点可以自由、自主地进入网络拓扑的特性,使得移动Adhoc网络(mobileadhocnetwork,简称MANET)被广泛应用于诸如灾难救援、战场等多种环境中.MANET中的路由要能迅速地适应频繁的网络拓扑结构的变化,同时最大限度地节约网络资源.OLSR(optimizedlinkstateroutingprotocol)协议是一个重要的MANET路由协议,而支撑此协议的一个关键技术是MPR(multipointrelays).在介绍了OLSR协议及MPR技术之后,揭示了目前启发式算法在寻找最小MPR上的弱点,提出了一种基于遗传算法(geneticalgorithm,简称GA)的新算法,并证明了该算法的收敛性.通过采用不同遗传策略将此遗传算法衍生成了4个系列算法,并在随机生成的拓扑上对其进行模拟.模拟结果分析显示:提出的遗传算法是可行和适用的,选择的启发式策略也是恰当和正确的. 展开更多
关键词 OLSR MPR 启发式算法 遗传算法 网络拓扑
下载PDF
基于扩展领域模型的有名属性抽取 被引量:13
7
作者 王宇 谭松波 +1 位作者 廖祥文 曾依灵 《计算机研究与发展》 EI CSCD 北大核心 2010年第9期1567-1573,共7页
网页信息抽取是互联网挖掘的重要课题.为了自动化抽取过程,最新的研究利用特定领域的特征,通过机器学习方法对信息抽取过程进行统一建模.但是,对领域特征的依赖使得这类方法难以推广到其他领域中去.因此,对信息抽取问题进行了分析,从中... 网页信息抽取是互联网挖掘的重要课题.为了自动化抽取过程,最新的研究利用特定领域的特征,通过机器学习方法对信息抽取过程进行统一建模.但是,对领域特征的依赖使得这类方法难以推广到其他领域中去.因此,对信息抽取问题进行了分析,从中分离出一个可以完全自动化的信息抽取子任务,即有名属性抽取任务.在多个领域的数据集上进行的统计表明,这个子任务覆盖了60%以上的待抽取属性,因此它在整个信息抽取中占有重要地位.并给出了一种基于扩展领域模型的有名属性抽取方法,实验结果表明,这种方法的准确率接近或大于80%,召回率大于90%. 展开更多
关键词 信息抽取 属性抽取 有名属性 扩展领域模型 网页视觉分析
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部