期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于关键词共现网络的主题词提取算法
被引量:
3
1
作者
张书谙
王曦
+2 位作者
代继鹏
隋毅
孙仁诚
《复杂系统与复杂性科学》
CAS
CSCD
北大核心
2023年第1期74-80,共7页
针对主题词提取中关键词提取不准确以及仅考虑单一相关性的问题,提出一种将集成思想与复杂网络相结合的主题词提取算法。首先通过集成算法提取话题数据的关键词,以提高关键词提取的准确性,其次改进传统词共现公式计算关键词的共现度,并...
针对主题词提取中关键词提取不准确以及仅考虑单一相关性的问题,提出一种将集成思想与复杂网络相结合的主题词提取算法。首先通过集成算法提取话题数据的关键词,以提高关键词提取的准确性,其次改进传统词共现公式计算关键词的共现度,并建立关键词共现网络,在网络的基础上得到最优连通子图,同时以节点度中心性为权重衡量关键词重要性并从中映射出主题词。最后,使用微博话题数据集进行实例验证,证明该算法是有效的,并优于传统的词共现算法,并在青岛社区话题数据集中进行应用。
展开更多
关键词
关键词
共现度
共现网络
主题词
微博话题
下载PDF
职称材料
基于改进CHI和TF-IDF的短文本分类的研究
2
作者
代继鹏
邵峰晶
孙仁诚
《计算机与现代化》
2021年第6期6-11,共6页
为提高对数据量较少的短文本分类效果,有效降低特征空间的特征维度,本文针对传统CHI统计方法和TF-IDF权重计算方法的缺点,提出一种新的类词因子改进特征选择方法,用来提高分类准确性。对于传统CHI统计方法对低频词敏感、TF-IDF权重计算...
为提高对数据量较少的短文本分类效果,有效降低特征空间的特征维度,本文针对传统CHI统计方法和TF-IDF权重计算方法的缺点,提出一种新的类词因子改进特征选择方法,用来提高分类准确性。对于传统CHI统计方法对低频词敏感、TF-IDF权重计算方法忽略特征项在类别间和类别内分布情况,通过引入类词因子来改进传统CHI统计方法和TF-IDF权重计算方法,并将两者结合使用,减少低频词带来的干扰。同时考虑类内和类间特征词分布的特殊情况,使用XGBoost分类算法将提出方法用在数据量少且文本短的话题文本分类实验中,实验结果表明,与传统的CHI和TF-IDF方法相比,加入类词因子的特征选择方法提高了在平衡和非平衡语料集上的分类准确性,大幅度降低了对内存的占用。
展开更多
关键词
文本分类
特征选择
XGBoost
卡方统计量
TF-IDF
下载PDF
职称材料
题名
基于关键词共现网络的主题词提取算法
被引量:
3
1
作者
张书谙
王曦
代继鹏
隋毅
孙仁诚
机构
青岛大学计算机科学技术学院
青岛市急救中心通讯调度科
出处
《复杂系统与复杂性科学》
CAS
CSCD
北大核心
2023年第1期74-80,共7页
基金
国家自然科学基金青年科学基金(41706198)。
文摘
针对主题词提取中关键词提取不准确以及仅考虑单一相关性的问题,提出一种将集成思想与复杂网络相结合的主题词提取算法。首先通过集成算法提取话题数据的关键词,以提高关键词提取的准确性,其次改进传统词共现公式计算关键词的共现度,并建立关键词共现网络,在网络的基础上得到最优连通子图,同时以节点度中心性为权重衡量关键词重要性并从中映射出主题词。最后,使用微博话题数据集进行实例验证,证明该算法是有效的,并优于传统的词共现算法,并在青岛社区话题数据集中进行应用。
关键词
关键词
共现度
共现网络
主题词
微博话题
Keywords
keyword
co-occurrence degree
co-occurrence network
subject words
micro-blog topic
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于改进CHI和TF-IDF的短文本分类的研究
2
作者
代继鹏
邵峰晶
孙仁诚
机构
青岛大学计算机科学技术学院
出处
《计算机与现代化》
2021年第6期6-11,共6页
基金
国家自然科学青年基金资助项目(41706198)。
文摘
为提高对数据量较少的短文本分类效果,有效降低特征空间的特征维度,本文针对传统CHI统计方法和TF-IDF权重计算方法的缺点,提出一种新的类词因子改进特征选择方法,用来提高分类准确性。对于传统CHI统计方法对低频词敏感、TF-IDF权重计算方法忽略特征项在类别间和类别内分布情况,通过引入类词因子来改进传统CHI统计方法和TF-IDF权重计算方法,并将两者结合使用,减少低频词带来的干扰。同时考虑类内和类间特征词分布的特殊情况,使用XGBoost分类算法将提出方法用在数据量少且文本短的话题文本分类实验中,实验结果表明,与传统的CHI和TF-IDF方法相比,加入类词因子的特征选择方法提高了在平衡和非平衡语料集上的分类准确性,大幅度降低了对内存的占用。
关键词
文本分类
特征选择
XGBoost
卡方统计量
TF-IDF
Keywords
text classification
feature selection
XGBoost
chi-square statistics
TF-IDF
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于关键词共现网络的主题词提取算法
张书谙
王曦
代继鹏
隋毅
孙仁诚
《复杂系统与复杂性科学》
CAS
CSCD
北大核心
2023
3
下载PDF
职称材料
2
基于改进CHI和TF-IDF的短文本分类的研究
代继鹏
邵峰晶
孙仁诚
《计算机与现代化》
2021
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部