面向迁移学习的文本特征对齐算法被引量：7

Transfer Learning Oriented Text Feature Alignment Algorithm

下载PDF

导出

摘要源领域和目标领域特征空间的不一致导致迁移学习准确率下降。为此,提出一种基于Word2Vec的不同领域特征对齐算法。只选取形容词、副词、名词、动词作为特征,针对每种词性,选择源领域和目标领域的枢纽特征,分别在源领域和目标领域为该枢纽特征计算出与之语义相似度最大的非枢纽特征,将其作为相似枢纽特征,从而为每个枢纽特征构成一个相似枢纽特征对。将出现在这些领域中的每一个相似枢纽特征按照枢纽特征对进行特征替换,从而将不同领域语义相似的特征进行对齐,并在特征替换后的源领域和目标领域数据上进行机器学习。实验结果表明,该算法的平均分类精度达到88.2%,高于Baseline算法。 The inconsistency between source domain and target domain feature spaces results in accuracy decline of transfer learning.To resolve this problem,this paper proposes a different domain feature alignment method based on Word2 Vec.Adjectives,adverbs,nouns and verbs are selected as features.Pivot feature is selected from source domain and target domain for every part of speech.The most similar non-pivot feature is calculated for each pivot feature respectively from source domain and target domain as similar pivot feature.Then similar pivot feature pairs are constructed accordingly.Every similar pivot feature appearing in both domains is transformed according to similar pivot feature pairs.Consequently,the features which represent similar semantic information are aligned.Machine learning is performed on source domain and target domain data after feature transformation.Experimental result shows that the average accuracy of the proposed algorithm is 88.2%,higher than Baseline algorithm.

作者魏晓聪林鸿飞

机构地区大连理工大学计算机科学与技术学院大连外国语大学软件学院

出处《计算机工程》 CAS CSCD 北大核心 2017年第2期215-219,226,共6页 Computer Engineering

基金国家自然科学基金(61572102 61562080) 大连外国语大学科研基金(2014XJQN14)

关键词迁移学习特征对齐情感分析源领域目标领域 transfer learning feature alignment emotion analysis source domain target domain

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1孟佳娜,段晓东,杨亮.基于特征变换的跨领域产品评论倾向性分析[J].计算机工程,2013,39(10):167-171. 被引量：6

二级参考文献13

1Chan Kam-Tong, King I. Let's Tango: Finding the Right Couple for Feature-opinion Association in Sentiment Analysis[C]//Proc. of the 13th Pacific-Asia Conference on Advances in Knowledge Discovery and Data Mining. Berlin, Germany: Springer-Verlag, 2009.
2Somasundran S, Wiebe J, Ruppenhofer J. Discourse Level Opinion Interpretation[C]//Proc. of the 22nd International Conference on Computational Linguistics. Manchester, UK: Is. n.], 2008.
3Blitzer J, Dredze M, Pereira F. Biographies, Bollywood, Boomboxes and Blenders: Domain Adaptation for SentimentClassification[C]//Proc. of the 45th Annual Meeting of the Association of Computational Linguistics. Prague, Czech Republic: [s. n.], 2007.
4Blitzer J, McDonald R R, Pereira F. Domain Adaptation with Structural Correspondence Learning[C]//Proc. of Conference on Empirical Methods in Natural Language. Sydney, Australia: [s. n.], 2006.
5Sinno J P, Ni Xiaochuan, Sun Jiantao, et al. Cross-domain Sentiment Classification via Spectral Feature Alignment[C]// Proc. of the 19th International Conference on World Wide Web. New York, USA: ACM Press, 2010.
6Zhang Di, Xue Guirong, Yu Yong. Iterative Reinforcement Cross-domain Text Classification[C]//Proc. of the 4th Inter- national Conference on Advanced Data Mining and Appli- cations. Chengdu, China: [s. n.], 2008.
7Meng Jiana, Lin Hongfei. Transfer Learning Based on Graph Ranking[C]//Proc. of the 9th International Conference on Fuzzy Systems and Knowledge Discovery. IS. 1.]: IEEE Press, 2012.
8孟佳娜.迁移学习在文本分类中的应用研究[D].大连:大连理工大学,2011.
9Thorsten J. Text Categorization with Support Vector Machines: Leaning with Many Relevant Features[C]//Proc. of the 10th European Conference on Machine Learning. Chemnitz, Germany: [s. n.], 1998.
10Alexander G, David L D, David M. Large-scale Bayesian Logistic Regression for Text Categorization[J]. Technometrics, 2007, 49(3): 291-304.

共引文献5

1史伟,王洪伟,何绍义.基于微博的产品评论挖掘：情感分析的方法[J].情报学报,2014,33(12):1311-1321. 被引量：14
2朱广堂,周向东.一种基于信息保持的跨数据集图像分类方法[J].计算机工程,2016,42(4):255-258. 被引量：3
3王晓耘,史玲玲.基于网络评论情感量化的商品综合评分模型[J].杭州电子科技大学学报（社会科学版）,2016,12(3):8-15. 被引量：5
4郑华飞,周向东.基于词向量的产品评论有用度评估方法[J].计算机工程,2017,34(4):188-193.
5卢晨阳,康雁,杨成荣,蒲斌.基于语义结构的迁移学习文本特征对齐算法[J].计算机工程,2019,45(5):116-121. 被引量：3

同被引文献43

1宋闯,赵佳佳,王康,梁欣凯.面向智能感知的小样本学习研究综述[J].航空学报,2020(S01):15-28. 被引量：16
2翟晓燕,张新政.有向网络中具有一个枢纽点的最小支撑树的计算方法[J].系统科学与数学,2005,25(6):649-657. 被引量：2
3尹志武,黄上腾.一种自适应局部概念漂移的数据流分类算法[J].计算机科学,2008,35(2):138-139. 被引量：8
4何维,王宇.基于句子的文本表示及中文文本分类研究[J].情报学报,2009,28(6):839-843. 被引量：3
5蔡月红,朱倩,程显毅.基于Tri-training半监督学习的中文组织机构名识别[J].计算机应用研究,2010,27(1):193-195. 被引量：4
6张汗灵,汤隆慧,周敏.基于KMM匹配的参数迁移学习算法[J].湖南大学学报（自然科学版）,2011,38(4):72-76. 被引量：1
7杨亮,林鸿飞,郭巍.面向文本的情感迁移分析策略[J].计算机工程与科学,2011,33(9):123-129. 被引量：1
8程传鹏,吴志刚.一种基于知网的句子相似度计算方法[J].计算机工程与科学,2012,34(2):172-175. 被引量：27
9孙艳,周学广,付伟.基于依存关联分析的情感词扩展[J].北京邮电大学学报,2012,35(5):90-93. 被引量：8
10张震,杨宇豪.基于Benford模型的自然图像与计算机生成图像的鉴别[J].北京工业大学学报,2013,39(6):930-935. 被引量：6

引证文献7

1孙晓燕,乔娅利.基于迁移与半监督共生融合的虚假评论识别[J].南京大学学报（自然科学版）,2022,58(5):846-855.
2李晓,解辉,李立杰.基于Word2vec的句子语义相似度计算研究[J].计算机科学,2017,44(9):256-260. 被引量：56
3张庆林,杜嘉晨,徐睿峰.基于对抗学习的讽刺识别研究[J].北京大学学报（自然科学版）,2019,55(1):29-36. 被引量：7
4卢晨阳,康雁,杨成荣,蒲斌.基于语义结构的迁移学习文本特征对齐算法[J].计算机工程,2019,45(5):116-121. 被引量：3
5秦毅,吴蔚.基于CNN的计算机生成图像识别方法[J].西南师范大学学报（自然科学版）,2019,44(5):109-114. 被引量：5
6李鑫,李晓戈.基于深度学习的APP-Store评论情感分析[J].计算机与数字工程,2019,47(10):2417-2422. 被引量：3
7贾霄,郭顺心,赵红.基于图像属性的零样本分类方法综述[J].南京大学学报（自然科学版）,2021,57(4):531-543. 被引量：2

二级引证文献76

1孟旭,谢靖,李春旺.基于核心主题特征的作者身份识别研究[J].知识管理论坛,2023(5):351-364.
2洪海蓝,李文林,杨涛,李玥,梅文静.基于知识图谱的海洋中药智能问答系统的设计与实现[J].世界科学技术-中医药现代化,2023(6):1935-1941. 被引量：4
3黄培红.面向知觉形式化特征的自然语言理解十年研究进展[J].智能安全,2022,1(2):90-100.
4黄鲁成,滕旭东,苗红,吴菲菲,王小丽.创新政策中创新激励与负责任创新平衡态评估研究[J].中国软科学,2018(5):25-38. 被引量：16
5李琳,李辉.一种基于概念向量空间的文本相似度计算方法[J].数据分析与知识发现,2018,2(5):48-58. 被引量：22
6王松松,高伟勋.基于高校官网的校情简介数据分析方法[J].计算机与现代化,2018(8):66-72.
7谢先章,王兆凯,李亚星,冯旭鹏,刘利军,黄青松.基于卷积神经网络的跨领域语义信息检索研究[J].计算机应用与软件,2018,35(8):73-78. 被引量：3
8余培,行鸿彦,刘刚.中文评论情感分析方法研究[J].电子测量与仪器学报,2018,32(12):197-203. 被引量：5
9梁敬东,崔丙剑,姜海燕,沈毅,谢元澄.基于word2vec和LSTM的句子相似度计算及其在水稻FAQ问答系统中的应用[J].南京农业大学学报,2018,41(5):946-953. 被引量：19
10何颖刚,王宇.一种基于字向量和LSTM的句子相似度计算方法[J].长江大学学报（自然科学版）,2019,16(1):88-94. 被引量：4

1李根,李文辉.基于混合蛙跳算法的长时间跨度人脸识别[J].东北大学学报（自然科学版）,2014,35(7):955-959.
2汤毓,李尚平,李冰.基于大型件特征对齐的误差分析及模型重构[J].制造业自动化,2014,36(2):99-101.
3周全,魏昕,陈建新,郑宝玉.一种基于稠密SIFT特征对齐的稀疏表达人脸识别算法[J].电子与信息学报,2015,37(8):1913-1919. 被引量：10
4刘晓平,李丹,金灿,李书杰.有限元领域中面向圆柱扫掠面特征的替换策略研究[J].图学学报,2012,33(5):19-23.
5杨绪兵,韩自存.ε不敏感的核Adaline算法及其在图像去噪中的应用[J].安徽工程科技学院学报（自然科学版）,2003,18(4):49-52. 被引量：1
6沙芸,李晓磊,张世博.一种基于基准词的跨领域文本倾向性计算方法[J].山东大学学报（理学版）,2016,51(7):59-65.
7黄劲,张沐阳,裴文杰,华炜,鲍虎军.可控的高度规整三角网格生成算法[J].中国科学：信息科学,2012,42(1):57-69.
8李定兰,陶树平,张冬.流水线技术在并行数据库查询优化中的应用研究[J].上海铁道大学学报,1999,20(6):27-31.
9路梅,赵向军,叶澄清.可调度的小波网格变形[J].计算机工程与应用,2006,42(6):75-79. 被引量：1
10孙晓燕,常发亮.梯度特征稀疏表示目标跟踪[J].光学精密工程,2013,21(12):3191-3197. 被引量：19

计算机工程

2017年第2期

浏览历史

内容加载中请稍等...

面向迁移学习的文本特征对齐算法被引量：7

参考文献1

二级参考文献13

共引文献5

同被引文献43

引证文献7

二级引证文献76

相关作者

相关机构

相关主题

浏览历史

面向迁移学习的文本特征对齐算法 被引量：7

参考文献1

二级参考文献13

共引文献5

同被引文献43

引证文献7

二级引证文献76

相关作者

相关机构

相关主题

浏览历史

面向迁移学习的文本特征对齐算法被引量：7