-
题名基于改进型VSM-HowNet融合相似度算法研究
被引量:5
- 1
-
-
作者
肖尚
房至一
董洪良
赵帅
王涵瑜
-
机构
天池传媒股份有限公司产品创新中心
吉林大学计算机科学与技术学院
吉林省竹玖信息技术有限公司数据与信息实验室
东北师范大学信息科学与技术学院
-
出处
《吉林大学学报(信息科学版)》
CAS
2018年第6期674-680,共7页
-
基金
依托广电网络的互动媒体应用聚合云服务系统研发基金资助项目(2014BAH02F00)
-
文摘
随着信息科学技术的发展和互联网技术的普及,社会上出现了越来越多的以博取观众的眼球为目的的"标题党"现象。为了识别"标题党"新闻,给出了一种基于改进型的VSM结合余弦相似度的文本相似度计算方法和《知网》(How Net)文本相似度计算方法,并研究了基于改进型VSM-HowNet融合相似度算法,用这些文本相似度的计算方法分别和已有研究中的王氏主题-词形文本相似度计算方法做对比。此方法对"标题党"新闻识别的总准确率、总召回率及总F1值均高于其他文本相似度计算方法,对于识别一篇未知类型的新闻,改进型VSM-HowNet融合相似度算法相比于其他文本相似度计算方法更有优势。
-
关键词
“标题党”新闻
改进型VSM结合余弦相似度方法
《知网》(hownet)方法
改进型VSM—hownet融合相似度算法
-
Keywords
"Sensational Headline"news
improved VSM combined cosine similarity method
hownet method
improved VSM-hownet fusion similarity algorithm
-
分类号
N37
[自然科学总论]
-
-
题名结合语义相似度改进LDA的文本主题分析
被引量:8
- 2
-
-
作者
赵林静
-
机构
中国民航飞行学院计算机学院
-
出处
《计算机工程与设计》
北大核心
2019年第12期3514-3519,共6页
-
基金
国家自然科学基金民航联合基金重点项目(U1233202/F01)
-
文摘
为对评论文本进行准确的主题分类,提出一种结合HowNet语义相似度和隐含狄利克雷分配(LDA)模型的主题聚类方法。不同于传统LDA模型,该方法通过HowNet常识知识库计算输入单词与当前主题聚类中单词间的语义相似度,以此调整LDA模型中的超参数β。为不同的单词分配不同的β值,以此监督聚类过程,在主题分析中实现从语法到语义的转变。实验结果表明,该方法能够有效提高主题聚类的准确性。
-
关键词
评论短文本
主题分析
hownet语义相似度
LDA模型
超参数β
-
Keywords
comment short text
topic analysis
hownet semantic similarity
LDA model
hyper-parametric β
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名PMI与Hownet结合的中文微博情感分析
被引量:3
- 3
-
-
作者
郝苗
陈临强
-
机构
杭州电子科技大学计算机学院
-
出处
《电子科技》
2021年第7期50-55,78,共7页
-
基金
国家级大学生创新创业训练项目(201610336013)。
-
文摘
为解决中文微博情感的分类问题,文中提出了基于微博数据将PMI与Hownet相结合的情感分类方法。通过对微博数据短小、新颖特征的研究,提出词典合并方法。将现有词典按照Hownet词语相似度合并,利用PMI对网络词语进行情感分类。添加网络情感词构造适应微博文本特征的情感词典,并在新词典的基础上结合监督学习方法训练情感分类模型。实验结果表明,用此方法进行情感分析能够有效识别网络新词对情感分析的影响,准确率可达78.3%,在对含有网络新词的微博情感分析上,该方法相比仅使用词典或者监督学习的准确率更高。
-
关键词
情感词典
微博文本分类
监督学习
情感分析
hownet相似度
PMI
观点挖掘
基准词
-
Keywords
sentiment dictionary
microblog text classification
supervised learning
sentiment analysis
hownet similarity
PMI
opinion mining
benchmark words
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-