基于词向量的情感新词发现研究

The Research of Emotional New Word Discovery Based on Word Vector

下载PDF

导出

摘要本文首先用分词工具对收集的大量语料文档进行预处理,并进行分词和词性标注;其次,编写脚本对已经词性标注的语料库按照情感词的词性进行提取,建立候选情感词库,并用候选情感词库与外部情感词库取交集得到基准情感词表;再次,用Word2Vec工具对自己创建的候选情感词库进行词向量训练,参照基准情感词表,计算情感词之间的distance值;最后,比较distance值判定情感词,即值越大则词汇之间的语义相似度就越高,从而按照距离远近选择情感新词。 Firstly,this paper preprocesses a large number of collected corpus documents with word segmentation tools,and carries out word segmentation and part of speech tagging;Secondly,a script is written to extract the part of speech labeled corpus according to the part of speech of emotional words,establish a candidate emotional thesaurus,and use the intersection between the candidate emotional thesaurus and the external emotional thesaurus to obtain the benchmark emotional thesaurus;Thirdly,use Word2Vec tool to train the word vector of the candidate emotional thesaurus created by yourself,and calculate the distance value between emotional words with reference to the benchmark emotional thesaurus;Finally,compare the distance value to determine the emotional words,that is,the greater the value,the higher the semantic similarity between words,so as to select the emotional new words according to the distance.

作者胡创业 HU Chuangye(Xinjiang Normal University,Urumqi Xinjiang 830054,China)

机构地区新疆师范大学

出处《信息与电脑》 2021年第17期50-52,共3页 Information & Computer

基金汉语-乌兹别克语平行语料库自动构建方法研究(项目编号:XJNUSYS2019B10)。

关键词情感新词分词 Word2Vec 词向量 emotional neologism word segmentation Word2Vec word vector

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1张鑫.基于依存句法分析的旅游新词提取方法[J].集成电路应用,2021,38(3):154-155. 被引量：2
2杨阳,刘龙飞,魏现辉,林鸿飞.基于词向量的情感新词发现方法[J].山东大学学报（理学版）,2014,49(11):51-58. 被引量：26
3林政,谭松波,程学旗.基于情感关键句抽取的情感分类研究[J].计算机研究与发展,2012,49(11):2376-2382. 被引量：27
4王博,代翔,时聪,刘洋.一种基于主动学习的中文新词识别算法[J].电讯技术,2020,60(11):1265-1270. 被引量：2
5曹春萍,杨青林.基于信息传播特性的新词发现方法研究[J].软件,2020,41(9):201-203. 被引量：3
6杨政,易绵竹.基于词向量的中文新词情感倾向性分析[J].计算机系统应用,2019,28(10):245-250. 被引量：3

二级参考文献51

1陈海宇.“大数据”时代背景下计算机信息处理技术的探讨[J].计算机产品与流通,2020,0(5):6-6. 被引量：5
2贾自艳,史忠植.基于概率统计技术和规则方法的新词发现[J].计算机工程,2004,30(20):19-21. 被引量：28
3朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
4黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
5胡熠,陆汝占,李学宁,段建勇,陈玉泉.基于语言建模的文本情感分类研究[J].计算机研究与发展,2007,44(9):1469-1475. 被引量：23
6Pang B, Lee 1., VaithyanaIhan S. Thumbs up? Sentiment classification using machine learning techniques [C]//Proc of EMNI.P. New York: ACM, 2002:79 8G.
7Turney P. Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews [C] //Proc of ACI. New York: ACM, 2002: 417-424.
8Dasgupta S, Ng V. Mine the easy and classify the hard: A semi supervised approach to automatic sentiment classification [C] //Proc of ACL. New York. ACM, 200.9: 701-709.
9Yesscnalina A, Yuc Y, Cardic C. Multi level structured models for document level sentiment classification [C] //Proc of EMNLP. New York: ACM, 2010:1046-1056.
10Gamon M. Sentiment classification on customer feedback data: Noisy data, large feature vectors, and the role of linguistic analysis [C] //Proc of the Int Conf on Computational Linguistics. New York: ACM, 2004.

共引文献56

1罗亚伟,田生伟,禹龙,吐尔根.依布拉音,艾斯卡尔.艾木都拉.意见挖掘中维吾尔语文本隐式情感分析[J].计算机工程与设计,2014,35(9):3295-3300. 被引量：5
2赵虹杰,刘华丽,任巨伟,林鸿飞.面向新闻的情感关键句抽取与极性判别[J].山西大学学报（自然科学版）,2014,37(4):588-594. 被引量：5
3赵传君,王素格,李德玉,李欣.基于分组提升集成的跨领域文本情感分类[J].计算机研究与发展,2015,52(3):629-638. 被引量：12
4任亚峰,姬东鸿,张红斌,尹兰.基于PU学习算法的虚假评论识别研究[J].计算机研究与发展,2015,52(3):639-648. 被引量：30
5曹欢欢,谢兴生.负面新闻判定算法的研究与应用[J].小型微型计算机系统,2015,36(5):1047-1051. 被引量：3
6周邦定,曹海鹏,张彦.新闻情感倾向性识别算法的研究与应用[J].微型机与应用,2015,34(14):58-60. 被引量：1
7朱艳辉,田海龙,刘璟,马进,林祥.基于三支决策的新闻情感关键句识别方法[J].山西大学学报（自然科学版）,2015,38(4):595-600. 被引量：9
8高凯,李思雨,阮冬茹,刘邵博,周二亮,乔世权.基于微博的情感倾向性分析方法研究[J].中文信息学报,2015,29(4):40-49. 被引量：4
9陈鑫,王素格,廖健.基于词语相关度的微博新情感词自动识别[J].计算机应用,2016,36(2):424-427. 被引量：4
10李宪毅,刘培玉,朱振方,侯秀艳,刘祥哲.基于改进情感关键句抽取的自动情感摘要技术[J].计算机工程与设计,2016,37(3):778-782. 被引量：3

1徐俊辉,曹献馥.南北文化背景下设计人才培养的知识体系比较研究[J].设计艺术研究,2021,11(4):109-113.
2李超凡,陈羽中.一种用于答案选择的知识增强混合神经网络[J].小型微型计算机系统,2021,42(10):2065-2073. 被引量：2
3查艳芳.基于人工智能的线上教学资源共享技术[J].信息与电脑,2021,33(17):143-145. 被引量：1
4缪因知.证券虚假陈述与投资者损失因果关系否定的司法路径[J].证券法苑,2020(3):76-95. 被引量：4
5刘伟利,张海涛,李依霖,张春龙.基于语义网络的社会化问答社区答案聚合与排序研究[J].情报科学,2021,39(9):94-100. 被引量：4
6赵敏.并行多路径传输过程数据相似性检测仿真[J].计算机仿真,2021,38(9):181-184. 被引量：1

信息与电脑

2021年第17期

浏览历史

内容加载中请稍等...

基于词向量的情感新词发现研究

参考文献6

二级参考文献51

共引文献56

相关作者

相关机构

相关主题

浏览历史