-
题名基于词典与机器学习的中文微博情感分析研究
被引量:50
- 1
-
-
作者
孙建旺
吕学强
张雷瀚
-
机构
北京信息科技大学网络文化与数字传播北京市重点实验室
-
出处
《计算机应用与软件》
CSCD
北大核心
2014年第7期177-181,共5页
-
基金
国家自然科学基金项目(61171159
61271304)
北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目(KZ201311232037)
-
文摘
随着Web2.0时代的兴起,与微博相关的研究得到学术界和工业界的广泛关注。选取微博文本中的动词和形容词作为特征;提出基于层次结构的特征降维方法;采用设计的基于表情符号的方法计算特征极性值;在此基础上,提出基于特征极性值的位置权重计算方法,借助SVM作为机器学习模型将微博文本分为正面、负面和中性三类。实验结果表明,提出的方法能够比较有效地对中文微博文本进行情感分类。
-
关键词
微博
表情符号
极性值
位置权重
情感分类
-
Keywords
Microblogging Emoticon
Polarity value
Position weight
Sentiment classification
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于语义与最大匹配度的短文本分类研究
被引量:18
- 2
-
-
作者
孙建旺
吕学强
张雷瀚
-
机构
北京信息科技大学网络文化与数字传播北京市重点实验室
-
出处
《计算机工程与设计》
CSCD
北大核心
2013年第10期3613-3618,共6页
-
基金
国家自然科学基金项目(61271304)
北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目(KZ201311232037)
-
文摘
为了解决基于VSM方法在进行短文本分类时存在的严重数据稀疏问题,提出了基于语义与最大匹配度的短文本分类方法。以《知网》为知识源,设计了基于义原距离、义原深度与区域密度的义原相似度计算方法,实现基于词类的词语相似度计算;提出了基于语义与最大匹配度的方法计算短文本相似度,应用KNN算法进行短文本分类。实验结果表明,该方法与基于语义、基于AD_NB等方法相比,正确率、召回率和F值均得到了明显的提高。
-
关键词
短文本分类
义原相似度
词语相似度
语义
最大匹配度
KNN算法
-
Keywords
short text classification
primary similarity
word similarity
the semantics
maximum matching degree
KNN algorithm
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于微博转发集的微博过滤研究
被引量:3
- 3
-
-
作者
孙建旺
吕学强
郭跇秀
-
机构
北京信息科技大学网络文化与数字传播北京市重点实验室
-
出处
《北京信息科技大学学报(自然科学版)》
2013年第3期27-33,共7页
-
基金
国家自然科学基金项目(61271304)
北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目(KZ201311232037)
国家科技支撑计划课题(2011BAH11B03)
-
文摘
针对微博文本的特点,提出了基于微博转发集的过滤方法。借助微博转发集,构建<子串,频次,转发时间差>三元组,形成用户需求模板;以知网为知识源计算微博文本与用户需求模板的相似度,抽取用户感兴趣的内容形成候选文本集;根据提出的基于三元组的微博权重计算方法,对候选集做进一步筛选,最终得到用户需求的微博文本。实验结果表明,基于微博转发集的过滤方法在滤准率和滤全率2个指标上比基于关键词与KNN的方法有了显著的提高。
-
关键词
微博转发集
三元组
相似度
微博权重
过滤
-
Keywords
forwarding set of micro-blog
triple
similarity
micro-blog weight
filtering
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名镁合金金黄色导电氧化膜工艺
被引量:1
- 4
-
-
作者
孙建旺
-
机构
扬州万方电子技术有限责任公司工艺室
-
出处
《科技创新与应用》
2013年第30期56-56,共1页
-
文摘
镁合金比重在所有结构用合金中属于最轻者。我公司目前生产的电子通信设备中,其外壳、内部安装结构件如屏蔽盒、支撑板等采用了镁合金材料,要求具有一定的防护性及导电性。通过调整配方及工艺参数对镁合金进行导电氧化处理,使镁合金表面形成金黄色氧化膜,以提高其防护性能。
-
关键词
镁合金
导电氧化
金黄色
-
分类号
TU51
[建筑科学—建筑技术科学]
-