基于句法分析与词向量的领域新词发现方法被引量：14

Newly-emerging Domain Word Detection Method Based on Syntactic Analysis and Term Vector

下载PDF

导出

摘要很多已经存在的词汇和词组可能会被运用于它们之前从未被运用过的领域文本中,这样的词汇或词组被称为领域新词。领域新词的发现可以为该领域的研究人员提供最新的领域发展动态,帮助其分析该领域的最新舆情,因此具有非常重要的意义。针对领域新词发现这一问题,文中提出了一种基于依存句法分析与词向量的领域新词发现方法。首先,提出了句法词典的概念,并基于依存句法分析,结合TF-IDF值的计算,提出了构建领域句法词典的方法;然后,使用领域句法词典,结合词向量技术,完成了领域新词发现方法的设计;最后,使用来自于护肤品论坛的真实文本数据集对所提方法进行了正确性验证。实验结果表明,构建的句法词典的质量较高,所提方法在进行领域新词发现时具有良好的性能。 Many existing words and phrases may be used in a domain in which they have never appeared before.These words and phrases are called newly-emerging domain words.The researchers can get insight into the latest development tendency and public opinions of a domain through these newly-emerging words.Therefore,it is significant to detect newly-emerging domain words.Based on dependency syntactic analysis and term vector,this paper proposed a newly-emerging domain words detection method.Firstly,the concept of syntactic dictionary was proposed,and its constructing method was proposed for some specific domains based on the dependency syntax of sentences and TF-IDF values of training corpus.Next,domain syntactic dictionary and term vectors were used to detect newly-emerging domain words.The comprehensive experiments were conducted to evaluate the proposed method with comment data from a skin-care products forum.The experimental results show that the syntactic dictionary is effective and the proposed method has good performance in newly-emerging domain word detection.

作者赵志滨石玉鑫李斌阳 ZHAO Zhi-bin;SHI Yu-xin;LI Bin-yang(School of Computer Science and Engineering,Northeastern University,Shenyang 110819,China;School of Information Science and Technology,University of International Relations,Beijing 100091,China)

机构地区东北大学计算机科学与工程学院国际关系学院信息科技学院

出处《计算机科学》 CSCD 北大核心 2019年第6期29-34,共6页 Computer Science

基金国家重点研发计划项目(2018YFB1004700) 国家自然科学基金项目(61472070) 航天专业部新技术研究高校合作项目(SKX182010023)资助

关键词句法分析词向量领域新词发现句法词典 Syntactic analysis Term vector Newly-emerging domain words Syntactic dictionary

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1王非.基于微博的情感新词发现研究[J].软件,2015,36(11):6-8. 被引量：8
2杨阳,刘龙飞,魏现辉,林鸿飞.基于词向量的情感新词发现方法[J].山东大学学报（理学版）,2014,49(11):51-58. 被引量：26
3Yonggan Li,Xueguang Zhou,Yan Sun,Huanguo Zhang.Design and Implementation of Weibo Sentiment Analysis Based on LDA and Dependency Parsing[J].China Communications,2016,13(11):91-105. 被引量：4
4史兆鹏,邹徐熹,向润昭.基于依存句法分析的多特征词义消歧[J].计算机工程,2017,43(9):210-213. 被引量：12

二级参考文献32

1朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
2卢志茂,刘挺,李生.统计词义消歧的研究进展[J].电子学报,2006,34(2):333-343. 被引量：28
3刘桃,刘秉权,徐志明,王晓龙.领域术语自动抽取及其在文本分类中的应用[J].电子学报,2007,35(2):328-332. 被引量：31
4黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
5HUANG J H, POWERS D. Chinese word segmentation based on contextual entropy[C]// Proceedings of the 17th Asian Pacific Conference on Language, Information and Computation. Singapore, 2003:152-158.
6YE Yunming, WU Qingyao, LI Yan, et al. Unknown Chinese word extraction based on variety of overlapping strings[J]. Information Processing & Management, 2013, 49(2): 497-512.
7MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[EB/OL].(2013-10-23)[2014-02-23].http://dblp.uni-trier.de/db/journals/corr/corr1301.html#abs-1301-3781.
8MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality [J].Advances in Neural Information Processing Systems, 2013:3111-3119.
9E. Ukkonen.??On-line construction of suffix trees(J)Algorithmica . 1995 (3)
10Fuchun Peng,Fangfang Feng,Andrew McCallum.Chinese segmentation and new word detection using conditional random fields. Proceeding of The 20th International Conference on Computational Linguistics . 2004

共引文献46

1陈鑫,王素格,廖健.基于词语相关度的微博新情感词自动识别[J].计算机应用,2016,36(2):424-427. 被引量：4
2王科,夏睿.情感词典自动构建方法综述[J].自动化学报,2016,42(4):495-511. 被引量：71
3李保强,吴笛.基于知识关联的学习资源混合协同过滤推荐研究[J].电化教育研究,2016,37(6):77-83. 被引量：15
4李冬白,田生伟,禹龙,艾斯卡尔.艾木都拉,吐尔根.依布拉音.深度学习的维吾尔语语句隐式情感分类[J].计算机工程与设计,2016,37(9):2577-2580. 被引量：5
5江涛,于洪志.一种面向藏文聚类的文本建模方法[J].西北民族大学学报（自然科学版）,2016,37(3):24-28. 被引量：1
6王伟军,黄英辉,李颖,刘辉,张婷婷,刘凯.基于微博公众情感状态的新产品市场预测研究[J].情报学报,2017,36(5):511-522. 被引量：13
7杜慧,徐学可,伍大勇,刘悦,余智华,程学旗.基于情感词向量的微博情感分类[J].中文信息学报,2017,31(3):170-176. 被引量：21
8巴桑卓玛,李苗苗,高定国.基于词向量的藏文情感词典的构建方法研究[J].电子技术与软件工程,2017(20):132-134. 被引量：7
9底晓强,邱金,李锦青,毕琳,杨华民,赵建平,张凤荣.基于LDA的群组聊天行为研究[J].情报科学,2017,35(12):45-49.
10谢振平,金晨,刘渊.基于建构主义学习理论的个性化知识推荐模型[J].计算机研究与发展,2018,55(1):125-138. 被引量：31

同被引文献111

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2陈海宇.“大数据”时代背景下计算机信息处理技术的探讨[J].计算机产品与流通,2020,0(5):6-6. 被引量：5
3邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
4冯蜀茗,张小真,奚晓霞.支持CSCL中相关度监控的领域词典构建研究[J].西南师范大学学报（自然科学版）,2005,30(3):430-434. 被引量：1
5李真真.1956：在计划经济体制下科技体制模式的定位[J].自然辩证法通讯,1995,17(6):35-45. 被引量：12
6马惠娣.科学技术宏观管理的“规划模式”──对中国第一个科学技术发展规划的评析[J].自然辩证法通讯,1995,17(4):31-37. 被引量：11
7崔世起,刘群,孟遥,于浩,西野文人.基于大规模语料库的新词检测[J].计算机研究与发展,2006,43(5):927-932. 被引量：32
8潘星,王君,刘鲁.一种基于概念聚类的知识地图模型[J].系统工程理论与实践,2007,27(2):126-132. 被引量：22
9黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
10曹艳,杜慧平,刘竟,侯汉清.基于词表和N-gram算法的新词识别实验[J].情报科学,2007,25(11):1687-1691. 被引量：7

引证文献14

1刘作国,陈笑蓉.汉语句法分析中的论元关系模型研究[J].南京大学学报（自然科学版）,2019,55(6):1010-1019. 被引量：1
2刘晓飞,朱斐,伏玉琛,刘全.基于用户偏好特征挖掘的个性化推荐算法[J].计算机科学,2020,47(4):50-53. 被引量：14
3张浩洋,周良.改进的GHSOM算法在民航航空法规知识地图构建中的应用[J].计算机科学,2020,47(S01):429-435. 被引量：1
4曹春萍,杨青林.基于信息传播特性的新词发现方法研究[J].软件,2020,41(9):201-203. 被引量：3
5欧一鸣,苏雍贺,邹孝付,靳健,张长志,陶飞.面向智慧运维的分布式光伏知识库构建方法[J].计算机集成制造系统,2020,26(12):3205-3215. 被引量：8
6王婷,蔺洁,刘小玲.历次科技规划核心理念、发展阶段和政策重点的演化分析——基于文本挖掘方法[J].科学管理研究,2021,39(2):42-51. 被引量：2
7耿骞,邓斯予,靳健.融合词语义表示和新词发现的领域本体演化——以产品评论数据为例[J].图书情报工作,2021,65(8):85-96. 被引量：3
8杨政,尹春林,蔡迪,李慧斌.一种基于成词率和谱聚类的电力文本领域词发现方法[J].电子技术应用,2021,47(10):29-32. 被引量：1
9黄金源,孙若莹.大宗商品交易领域词典构建[J].北京信息科技大学学报（自然科学版）,2022,37(1):71-75.
10张爽,陈莉,李铮.融合相似性判断的网络新词发现算法[J].西北大学学报（自然科学版）,2022,52(2):239-247. 被引量：4

二级引证文献36

1谢鑫.基于数据特征提取的线上电商用户潜在购买力挖掘方法[J].哈尔滨师范大学自然科学学报,2022,38(3):67-72.
2宫昌盛.大数据时代背景下计算机信息处理技术分析[J].信息记录材料,2021,22(1):118-119. 被引量：3
3倪政林.在线学习环境下个性特征混合挖掘研究[J].齐齐哈尔大学学报（自然科学版）,2021,37(1):16-20. 被引量：2
4谢宇杰,王赜,薛雯,吕沫,傅健伦.基于大数据分析的企业信息知识图谱的构建与应用[J].启迪,2021(5):17-17.
5王小青,苏锋,蔡传根.基于数据挖掘技术的影视智能推荐算法[J].现代电子技术,2021,44(11):98-101. 被引量：1
6卢利农,祝忠明,张旺强,王小春.基于Lingo3G聚类算法的机构知识库跨库知识整合与知识指纹服务实现[J].数据分析与知识发现,2021,5(5):127-132. 被引量：2
7余敦辉,张蕗怡,张笑笑,毛亮.基于知识图谱和重启随机游走的跨平台用户推荐方法[J].计算机应用,2021,41(7):1871-1877. 被引量：6
8欧一鸣,苏雍贺,靳健,倪玮晨,陶飞.基于知识图谱的分布式光伏运维方案匹配方法[J].计算机集成制造系统,2021,27(7):1860-1870. 被引量：8
9韦二龙,刘东,龙恩,王永安.基于用户画像的遥感信息精准服务系统设计[J].无线电工程,2021,51(8):720-724. 被引量：2
10徐海燕,姜瑛.针对复杂用户评论的代码质量属性判断[J].软件学报,2021,32(7):2183-2203. 被引量：2

1刘伟童,刘培玉,刘文锋,李娜娜.基于互信息和邻接熵的新词发现算法[J].计算机应用研究,2019,36(5):1293-1296. 被引量：29
2霍佳琪.刍议电气自动化在电气工程中的应用[J].市场周刊·理论版,2018,0(39):0092-0092.
3王文丰,韩龙哲,李沛武,李岚,刘天元.一种基于语义的分布式云服务发现方法[J].中山大学学报（自然科学版）,2019,58(3):145-152. 被引量：2
4楚杨杰,洪叶,杨忠保,江登英.改进蚁群算法优化重叠社区发现方法[J].计算机工程与设计,2019,40(4):1022-1026. 被引量：3
5姚贤明,甘健侯,徐坚.面向中文开放领域的多元实体关系抽取研究[J].智能系统学报,2019,14(3):597-604. 被引量：5
6叶慧,郝海平.内源性代谢物靶标发现及其在精准靶向肿瘤治疗中的应用前景[J].医学研究生学报,2019,32(5):468-473. 被引量：4
7周亮,张军,代宇茜,姜胜明.船舶机会网中基于到达角的邻居发现方案[J].实验室研究与探索,2019,38(4):105-108.
8张锐,张瑶.旅游网站汉俄翻译教学策略[J].传播力研究,2019,0(4):176-176.
9陶然,王家健,陈建波,陈天垠,孙爱宝,金迪,陈灿星,冯景,胡朝晖.自动审核人机一致性验证方案的建立与探讨[J].临床检验杂志,2018,36(12):927-930. 被引量：1
10孟令芳.论惠威尔对培根归纳思想的继承与发展[J].科学．经济．社会,2019,37(2):36-41.

计算机科学

2019年第6期

浏览历史

内容加载中请稍等...

基于句法分析与词向量的领域新词发现方法被引量：14

参考文献4

二级参考文献32

共引文献46

同被引文献111

引证文献14

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

基于句法分析与词向量的领域新词发现方法 被引量：14

参考文献4

二级参考文献32

共引文献46

同被引文献111

引证文献14

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

基于句法分析与词向量的领域新词发现方法被引量：14