期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
TrigSigs:一种有效的非结构化记录关联合并算法
1
作者
吴羽
盛振华
+1 位作者
寿黎但
陈刚
《浙江大学学报(工学版)》
EI
CAS
CSCD
北大核心
2010年第12期2284-2290,2308,共8页
为了解决从网络数据源提取的非结构化数据的处理问题,提出一种基于触发对的聚类算法TrigSigs,利用触发对挖掘非结构化数据中隐含属性间的关联关系作为辨别实体的标志.该算法能够聚集对辨别实体起到关键作用的特征组合,过滤噪音词汇,并...
为了解决从网络数据源提取的非结构化数据的处理问题,提出一种基于触发对的聚类算法TrigSigs,利用触发对挖掘非结构化数据中隐含属性间的关联关系作为辨别实体的标志.该算法能够聚集对辨别实体起到关键作用的特征组合,过滤噪音词汇,并且根据辨别实体的分辨力,为每个特征词汇赋予合理的权重,使记录的特征向量对辨别实体更具代表性,最终提高聚类结果的细粒度,很好地解决了非结构化数据的记录关联合并问题.实验结果表明:该算法可以过滤绝大部分噪音词汇,并且根据词汇的分辨力合理分配权重,使最终聚类结果的准确率有很大的提升.
展开更多
关键词
记录关联合并
非结构化数据
触发对
属性关联度
信息分布集中度
下载PDF
职称材料
InfoSigs:一种面向Web对象的细粒度聚类算法
被引量:
4
2
作者
盛振华
吴羽
+2 位作者
江锦华
寿黎但
陈刚
《计算机研究与发展》
EI
CSCD
北大核心
2010年第5期796-803,共8页
面向Web对象的细粒度聚类已经成为学术界研究的热点.然而现有大多数聚类模型只关注如何对文本内容或文章主题进行聚类,聚类结果粒度较粗,无法满足大规模网络信息检索的质量要求.针对上述挑战,充分挖掘Web文档中词汇间的树状概率层次关系...
面向Web对象的细粒度聚类已经成为学术界研究的热点.然而现有大多数聚类模型只关注如何对文本内容或文章主题进行聚类,聚类结果粒度较粗,无法满足大规模网络信息检索的质量要求.针对上述挑战,充分挖掘Web文档中词汇间的树状概率层次关系,提出一种以词汇信息分布作为特征标志的聚类算法InfoSigs,实现对Web对象的细粒度聚类.算法构建一个信息传递有向无环图,根据词汇在图中信息分布的集中度赋予其合理的权重,产生更具代表性的特征向量;同时算法提出了一个自适应的记录合并模型,有效提高记录簇中记录间的相似度,减少噪音对合并过程的影响.实验结果表明,InfoSigs算法比传统聚类算法—I-Match和Shingling—在F-Measure值上平均约有21.3%的提高,可以有效地运用到多领域Web对象的聚类问题.
展开更多
关键词
WEB对象
词频序TFS
信息分布集中度
相似度直方图
记录簇
下载PDF
职称材料
题名
TrigSigs:一种有效的非结构化记录关联合并算法
1
作者
吴羽
盛振华
寿黎但
陈刚
机构
浙江大学计算机科学与技术学院
出处
《浙江大学学报(工学版)》
EI
CAS
CSCD
北大核心
2010年第12期2284-2290,2308,共8页
基金
国家自然科学基金资助项目(60603044
60803003)
浙江省科技计划项目重大科技攻关资助项目(2006c11108)
文摘
为了解决从网络数据源提取的非结构化数据的处理问题,提出一种基于触发对的聚类算法TrigSigs,利用触发对挖掘非结构化数据中隐含属性间的关联关系作为辨别实体的标志.该算法能够聚集对辨别实体起到关键作用的特征组合,过滤噪音词汇,并且根据辨别实体的分辨力,为每个特征词汇赋予合理的权重,使记录的特征向量对辨别实体更具代表性,最终提高聚类结果的细粒度,很好地解决了非结构化数据的记录关联合并问题.实验结果表明:该算法可以过滤绝大部分噪音词汇,并且根据词汇的分辨力合理分配权重,使最终聚类结果的准确率有很大的提升.
关键词
记录关联合并
非结构化数据
触发对
属性关联度
信息分布集中度
Keywords
record linkage
unstructured data
trigger pair
attribute association
aggregation of information distribution
分类号
TP393.08 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
InfoSigs:一种面向Web对象的细粒度聚类算法
被引量:
4
2
作者
盛振华
吴羽
江锦华
寿黎但
陈刚
机构
浙江大学计算机科学与技术学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2010年第5期796-803,共8页
基金
国家自然科学基金项目(60603044
60803003)
+1 种基金
浙江省科技计划基金项目重大科技攻关项目(2006c11108)
浙江省重大国际合作项目(2008C14060)~~
文摘
面向Web对象的细粒度聚类已经成为学术界研究的热点.然而现有大多数聚类模型只关注如何对文本内容或文章主题进行聚类,聚类结果粒度较粗,无法满足大规模网络信息检索的质量要求.针对上述挑战,充分挖掘Web文档中词汇间的树状概率层次关系,提出一种以词汇信息分布作为特征标志的聚类算法InfoSigs,实现对Web对象的细粒度聚类.算法构建一个信息传递有向无环图,根据词汇在图中信息分布的集中度赋予其合理的权重,产生更具代表性的特征向量;同时算法提出了一个自适应的记录合并模型,有效提高记录簇中记录间的相似度,减少噪音对合并过程的影响.实验结果表明,InfoSigs算法比传统聚类算法—I-Match和Shingling—在F-Measure值上平均约有21.3%的提高,可以有效地运用到多领域Web对象的聚类问题.
关键词
WEB对象
词频序TFS
信息分布集中度
相似度直方图
记录簇
Keywords
Web object
token frequent sequence TFS
aggregation of information distribution
similarity histogram
cluster
分类号
TP391.09 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
TrigSigs:一种有效的非结构化记录关联合并算法
吴羽
盛振华
寿黎但
陈刚
《浙江大学学报(工学版)》
EI
CAS
CSCD
北大核心
2010
0
下载PDF
职称材料
2
InfoSigs:一种面向Web对象的细粒度聚类算法
盛振华
吴羽
江锦华
寿黎但
陈刚
《计算机研究与发展》
EI
CSCD
北大核心
2010
4
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部