-
题名一种面向文本分类的特征迁移方法
被引量:1
- 1
-
-
作者
赵世琛
王文剑
-
机构
山西大学计算机与信息技术学院
-
出处
《数据采集与处理》
CSCD
北大核心
2017年第3期516-522,共7页
-
基金
国家自然科学基金(60975035
61273291)资助项目
山西省回国留学人员科研基金(2012008)资助项目
-
文摘
传统的文本分类方法假设训练集与测试集中的特征词服从相同的概率分布,但在实际应用中,以上假设存在偏差,会影响到最终的分类结果。针对这一情况,本文采用迁移学习,通过计算特征词的迁移量对训练集中向量空间模型进行修正,最终使训练集与测试集中特征词的分布概率趋于一致。将提出的方法应用于中文垃圾邮件过滤与中、英文网页分类中,在CHI统计特征选择基础上进行特征迁移,实验结果表明新方法可以有效消除特征词分布的差异性,使文本分类的各项指标明显提高。
-
关键词
文本分类
迁移学习
迁移量
向量空间模型
-
Keywords
text categorization
transfer learning
transfer volume
vector space model
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于风险决策的文本特征选择方法
- 2
-
-
作者
赵世琛
王文剑
郭虎升
-
机构
山西大学计算机与信息技术学院
山西大学计算智能与中文信息处理教育部重点实验室
-
出处
《计算机科学与探索》
CSCD
2013年第10期933-941,共9页
-
基金
国家自然科学基金Nos.60975035
61273291
山西省回国留学人员科研基金No.2012008~~
-
文摘
在中文文本分类中,特征词的选择会严重影响文本分类的准确率。针对这一问题,提出了基于风险决策的文本特征选择方法,通过构造效用函数来评价文本中每个特征词对分类结果的效用值,再采用风险决策方法计算出每个特征词的损失期望,最终选择部分损失期望小的特征词以达到降维的目的。将该方法应用于中文垃圾邮件过滤与网页分类中,实验结果表明,该方法可以选取出对分类结果影响更大的特征词,使文本分类的各项指标明显提高。
-
关键词
文本分类
特征选择
风险决策
-
Keywords
text categorization
feature selection
venture decision
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名炼铁工序余热余能资源优化利用的实践
被引量:2
- 3
-
-
作者
王洪军
罗川
赵世琛
王永强
甄常亮
-
机构
河北钢铁股份有限公司唐山分公司
-
出处
《冶金能源》
2018年第5期42-46,共5页
-
文摘
针对高炉炼铁工序不同余能资源的特点,分析当前余能资源利用现状及提升潜力,通过工艺参数优化以及技术装备的升级改造,拓展了炼铁工序余能资源回收途径,实现了炼铁余能综合利用水平的提升。
-
关键词
炼铁
余能
热风炉
冲渣水余热
-
Keywords
ironmaking residual
energy hot - blast stove waste
heat of washing slag water
-
分类号
TF53
[冶金工程—钢铁冶金]
-