期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于主题概念聚类的中文文本聚类
被引量:
2
1
作者
杨彩莲
谢福鼎
《现代电子技术》
2007年第22期161-163,共3页
文本聚类技术在文本挖掘和信息检索系统中发挥着重要的作用。目前,文本聚类方法大多数采用基于关键词集的经典向量模型来表征文本,这种方式忽略了词与词之间的语义关系,存在词频维数过高,聚类算法计算复杂度高等问题。为了解决这些问题...
文本聚类技术在文本挖掘和信息检索系统中发挥着重要的作用。目前,文本聚类方法大多数采用基于关键词集的经典向量模型来表征文本,这种方式忽略了词与词之间的语义关系,存在词频维数过高,聚类算法计算复杂度高等问题。为了解决这些问题,提出一种基于主题概念聚类的中文文本聚类方法,该方法利用HowNet提取文本的主题概念,然后使用Chameleon算法将主题概念聚类,再依据主题概念的聚类结果完成对文本的聚类。该方法用概念代替单个词条表示文本,减少文本特征之间的依赖关系,有效地降低了文本聚类的时间复杂度。
展开更多
关键词
中文文本聚类
HOWNET
主题概念
CHAMELEON算法
下载PDF
职称材料
深度词汇网络学习的文本聚类研究
2
作者
易军凯
冯佳明
万静
《北京化工大学学报(自然科学版)》
CAS
CSCD
北大核心
2015年第2期107-112,共6页
为改进已有中文文本聚类中数据非结构化导致的算法准确度不高及特征向量高维稀疏导致算法复杂度过高的现状,提出一种基于深度词汇网络学习的中文文本聚类算法,解决了优化数据非结构化带来的聚类结果准确性低及特征向量高维度带来的高复...
为改进已有中文文本聚类中数据非结构化导致的算法准确度不高及特征向量高维稀疏导致算法复杂度过高的现状,提出一种基于深度词汇网络学习的中文文本聚类算法,解决了优化数据非结构化带来的聚类结果准确性低及特征向量高维度带来的高复杂度问题。首先建立词汇网络用以抽取关键义原,以词语义原代替单词作为网络节点,不仅避免了语义消歧,同时考虑到词语间语义相似性与词汇相关性,使所提取的特征向量更能表现出文章的主旨,提高聚类效果;另一方面,训练深度学习网络对特征向量降维处理,在降维的同时保留尽可能多的信息,大大减低算法的执行时间。聚类质量检测方法(F-measure)的结果表明,本文算法比k-means算法在中文文本聚类中有更好的表现。
展开更多
关键词
词汇网络
深度学习网络
中文文本聚类
原文传递
基于改进K-means的电商页面数据分析与挖掘
被引量:
4
3
作者
叶昊
缪宜恒
张宏俊
《软件》
2023年第6期35-43,共9页
数据挖掘技术是利用计算机强大的计算能力来代替部分人工分析的一项技术。传统的数据分析是人们利用自己的大脑对数据进行分析、思考和解读,但人脑所能承载的计算量是有限的。目前,计算机强大的计算能力代替了人脑,它们不仅可以处理一...
数据挖掘技术是利用计算机强大的计算能力来代替部分人工分析的一项技术。传统的数据分析是人们利用自己的大脑对数据进行分析、思考和解读,但人脑所能承载的计算量是有限的。目前,计算机强大的计算能力代替了人脑,它们不仅可以处理一些不需要自主思考的增删改查类工作,有时还可以担任一些需要自我学习能力的任务,比如对网页数据进行高质量分析与挖掘。为了进一步探究网页数据分析与挖掘,本文提出了一种基于优化样本距离计算方法,从而改进了K-means算法的聚类中心计算方法。具体来说,本文获取常见电商页面“当当网”公开的以“手机”为关键词的近12000条数据,使用文本挖掘技术对其进行数据挖掘,对数据的文本信息进行清洗、中文分词以及关键词权重计算等全面预处理,最终使用聚类中心优化的K-means算法,挖掘看似毫无关联的数据集中的隐藏信息为电商用户提供市场导向。
展开更多
关键词
电商页面
数据挖掘
数据预处理
中文文本聚类
下载PDF
职称材料
基于DK算法的互联网热点主动发现研究与实现
被引量:
10
4
作者
李若鹏
李翔
+1 位作者
林祥
李建华
《计算机技术与发展》
2008年第9期1-4,共4页
针对互联网舆情管控领域信息量大,时效性强,往往偏重于某些方向,如社会热点、焦点,或反动、黄色言论等的特点,文中把基于密度的聚类思想引入传统K-Means算法,提出全新的DK聚类算法,并且基于DK算法构建中文文本聚类模型,重点对互联网媒...
针对互联网舆情管控领域信息量大,时效性强,往往偏重于某些方向,如社会热点、焦点,或反动、黄色言论等的特点,文中把基于密度的聚类思想引入传统K-Means算法,提出全新的DK聚类算法,并且基于DK算法构建中文文本聚类模型,重点对互联网媒体发布信息进行主动热点发现研究。用实验验证中文聚类模型的具体性能,证实了该模型的有效性和实用性。
展开更多
关键词
K-MEANS
DK
中文文本聚类
舆情管控
下载PDF
职称材料
题名
基于主题概念聚类的中文文本聚类
被引量:
2
1
作者
杨彩莲
谢福鼎
机构
辽宁师范大学
出处
《现代电子技术》
2007年第22期161-163,共3页
文摘
文本聚类技术在文本挖掘和信息检索系统中发挥着重要的作用。目前,文本聚类方法大多数采用基于关键词集的经典向量模型来表征文本,这种方式忽略了词与词之间的语义关系,存在词频维数过高,聚类算法计算复杂度高等问题。为了解决这些问题,提出一种基于主题概念聚类的中文文本聚类方法,该方法利用HowNet提取文本的主题概念,然后使用Chameleon算法将主题概念聚类,再依据主题概念的聚类结果完成对文本的聚类。该方法用概念代替单个词条表示文本,减少文本特征之间的依赖关系,有效地降低了文本聚类的时间复杂度。
关键词
中文文本聚类
HOWNET
主题概念
CHAMELEON算法
Keywords
Chinese document clustering
HowNet
topic concept
Chameleon algorithm
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
深度词汇网络学习的文本聚类研究
2
作者
易军凯
冯佳明
万静
机构
北京化工大学信息科学与技术学院
出处
《北京化工大学学报(自然科学版)》
CAS
CSCD
北大核心
2015年第2期107-112,共6页
文摘
为改进已有中文文本聚类中数据非结构化导致的算法准确度不高及特征向量高维稀疏导致算法复杂度过高的现状,提出一种基于深度词汇网络学习的中文文本聚类算法,解决了优化数据非结构化带来的聚类结果准确性低及特征向量高维度带来的高复杂度问题。首先建立词汇网络用以抽取关键义原,以词语义原代替单词作为网络节点,不仅避免了语义消歧,同时考虑到词语间语义相似性与词汇相关性,使所提取的特征向量更能表现出文章的主旨,提高聚类效果;另一方面,训练深度学习网络对特征向量降维处理,在降维的同时保留尽可能多的信息,大大减低算法的执行时间。聚类质量检测方法(F-measure)的结果表明,本文算法比k-means算法在中文文本聚类中有更好的表现。
关键词
词汇网络
深度学习网络
中文文本聚类
Keywords
vocabulary network
deep belief nets
Chinese text clustering
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
原文传递
题名
基于改进K-means的电商页面数据分析与挖掘
被引量:
4
3
作者
叶昊
缪宜恒
张宏俊
机构
南京邮电大学现代邮政学院
南京邮电大学通信与信息工程学院
中国通信服务有限公司
南京邮电大学物联网学院
出处
《软件》
2023年第6期35-43,共9页
基金
江苏省研究生科研与实践创新计划项目(KYCX22_1019)。
文摘
数据挖掘技术是利用计算机强大的计算能力来代替部分人工分析的一项技术。传统的数据分析是人们利用自己的大脑对数据进行分析、思考和解读,但人脑所能承载的计算量是有限的。目前,计算机强大的计算能力代替了人脑,它们不仅可以处理一些不需要自主思考的增删改查类工作,有时还可以担任一些需要自我学习能力的任务,比如对网页数据进行高质量分析与挖掘。为了进一步探究网页数据分析与挖掘,本文提出了一种基于优化样本距离计算方法,从而改进了K-means算法的聚类中心计算方法。具体来说,本文获取常见电商页面“当当网”公开的以“手机”为关键词的近12000条数据,使用文本挖掘技术对其进行数据挖掘,对数据的文本信息进行清洗、中文分词以及关键词权重计算等全面预处理,最终使用聚类中心优化的K-means算法,挖掘看似毫无关联的数据集中的隐藏信息为电商用户提供市场导向。
关键词
电商页面
数据挖掘
数据预处理
中文文本聚类
Keywords
e-commerce page
data mining
data preprocessing
Chinese text clustering
分类号
TP301 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于DK算法的互联网热点主动发现研究与实现
被引量:
10
4
作者
李若鹏
李翔
林祥
李建华
机构
上海交通大学信息安全工程学院
出处
《计算机技术与发展》
2008年第9期1-4,共4页
基金
上海市科委"登山行动计划"信息技术领域重点项目(065115020)
国家自然科学基金项目(60502032)
文摘
针对互联网舆情管控领域信息量大,时效性强,往往偏重于某些方向,如社会热点、焦点,或反动、黄色言论等的特点,文中把基于密度的聚类思想引入传统K-Means算法,提出全新的DK聚类算法,并且基于DK算法构建中文文本聚类模型,重点对互联网媒体发布信息进行主动热点发现研究。用实验验证中文聚类模型的具体性能,证实了该模型的有效性和实用性。
关键词
K-MEANS
DK
中文文本聚类
舆情管控
Keywords
K- Means
DK
Chinese text cluster
information control and supervision
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于主题概念聚类的中文文本聚类
杨彩莲
谢福鼎
《现代电子技术》
2007
2
下载PDF
职称材料
2
深度词汇网络学习的文本聚类研究
易军凯
冯佳明
万静
《北京化工大学学报(自然科学版)》
CAS
CSCD
北大核心
2015
0
原文传递
3
基于改进K-means的电商页面数据分析与挖掘
叶昊
缪宜恒
张宏俊
《软件》
2023
4
下载PDF
职称材料
4
基于DK算法的互联网热点主动发现研究与实现
李若鹏
李翔
林祥
李建华
《计算机技术与发展》
2008
10
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部