期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

基于语义特征空间上下文的短文本表示学习被引量：1

Short text representation learning based on semantic feature space context

下载PDF

导出

摘要文本表示是自然语言处理中的基础任务,针对传统短文本表示高维稀疏问题,提出1种基于语义特征空间上下文的短文本表示学习方法。考虑到初始特征空间维度过高,通过计算词项间互信息与共现关系,得到初始相似度并对词项进行聚类,利用聚类中心表示降维后的语义特征空间。然后,在聚类后形成的簇上结合词项的上下文信息,设计3种相似度计算方法分别计算待表示文本中词项与特征空间中特征词的相似度,以形成文本映射矩阵对短文本进行表示学习。实验结果表明,所提出的方法能很好地反映短文本的语义信息,能对短文本进行合理而有效的表示学习。 Text representation is a basic task in natural language processing.Aiming at the drawback of the traditional high-dimensional sparse representation of short text,we propose a short text representation learning method based on semantic feature space context,called SFCR.Given the high dimension of the initial feature space,we firstly calculate the mutual information and co-occurrence relationship between terms,based on which we obtain the initial similarity and perform semantic clustering of terms.And the semantic feature space after dimensionality reduction can then be represented via the cluster center.Secondly,by combining the context information of the terms on the cluster formed after clustering,three similarity calculation methods are designed to calculate the similarity between the terms of the short text to be represented and the feature terms in the feature space.Thereafter the text mapping matrix for short text representation learning is constructed.Experimental results show that the proposed method can well reflect the semantic information of short text,and make reasonable and effective representation learning of short text.

作者脱婷马慧芳魏家辉刘海姣 TUO Ting;MA Hui-fang;WEI Jia-hui;LIU Hai-jiao(College of Computer Science and Engineering,Northwest Normal University,Lanzhou 730070;Guangxi Key Laboratory of Trusted Software,Guilin University of Electronic Technology,Guilin 514004,China)

机构地区西北师范大学计算机科学与工程学院桂林电子科技大学广西可信软件重点实验室

出处《计算机工程与科学》 CSCD 北大核心 2019年第2期378-384,共7页 Computer Engineering & Science

基金国家自然科学基金(61762078 61363058) 广西可信软件重点实验室研究课题(kx201705) 西北师范大学"学生创新能力计划"2018年支持项目(CX2018Y048)

关键词语义特征空间相似度计算文本映射矩阵短文本表示 semantic feature space similarity calculation text mapping matrix short text representation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1续欣莹,张扩,谢珺,谢刚.基于互信息下粒子群优化的属性约简算法[J].电子学报,2017,45(11):2695-2704. 被引量：10
2刘文,马慧芳,脱婷,陈海波.融合共现距离和区分度的短文本相似度计算方法[J].计算机工程与科学,2018,40(7):1281-1286. 被引量：9

二级参考文献11

1李订芳,章文,李贵斌,牛艳庆.基于可行域的遗传约简算法[J].小型微型计算机系统,2006,27(2):312-315. 被引量：18
2雷开友,邱玉辉.基于自适应粒子群算法的约束布局优化研究[J].计算机研究与发展,2006,43(10):1724-1731. 被引量：22
3廖建坤,叶东毅.基于免疫粒子群优化的最小属性约简算法[J].计算机应用,2007,27(3):550-552. 被引量：17
4叶东毅,廖建坤.基于二进制粒子群优化的一个最小属性约简算法[J].模式识别与人工智能,2007,20(3):295-300. 被引量：20
5杨明.决策表中基于条件信息熵的近似约简[J].电子学报,2007,35(11):2156-2160. 被引量：44
6黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864. 被引量：217
7马甲林,刘金岭,于长辉.一种高效中文文本聚类算法[J].计算机工程与科学,2013,35(2):103-108. 被引量：1
8汤继涛,戴月明.内嵌区域震荡搜索的粒子群优化算法[J].计算机工程与应用,2013,49(21):33-36. 被引量：6
9叶东毅.Jelonek属性约简算法的一个改进[J].电子学报,2000,28(12):81-82. 被引量：98
10叶东毅,陈昭炯.最小属性约简问题的一个有效的组合人工蜂群算法[J].电子学报,2015,43(5):1014-1020. 被引量：10

共引文献17

1危前进,魏继鹏,古天龙,常亮,文益民.粗糙集多目标并行属性约简算法[J].软件学报,2022,33(7):2599-2617. 被引量：2
2杨臻,邱保志.混合信息系统的动态变精度粗糙集模型[J].控制与决策,2020,35(2):297-308. 被引量：10
3马慧芳,刘文,李志欣,蔺想红.融合耦合距离区分度和强类别特征的短文本相似度计算方法[J].电子学报,2019,47(6):1331-1336. 被引量：12
4孙敬.一种基于相对信息粒度的属性约简算法[J].计算机与数字工程,2019,47(7):1576-1578. 被引量：1
5王光琼.不完备系统中一种增量式属性约简算法[J].计算机与现代化,2019,0(8):69-73.
6夏玲.基于PSO-决策树的银行风险监管系统研究[J].现代科学仪器,2019,0(4):177-180.
7郭玉栋,左金平.大数据下数据库引文索引匹配误差检测仿真[J].计算机仿真,2020,37(2):394-397. 被引量：3
8盛魁,王伟,卞显福,董辉,马健.混合数据的邻域区分度增量式属性约简算法[J].电子学报,2020,48(4):682-696. 被引量：8
9李凡,白尚旺,党伟超,潘理虎.基于Do-Bi-LSTM模型的电子政务文本相似度评估模型[J].计算机与现代化,2020,0(7):71-75. 被引量：1
10李华,刘占伟,郭育艳.并行PSO结合粗糙集的大数据属性约简算法[J].计算机工程与设计,2020,41(8):2238-2244. 被引量：5

同被引文献12

1冯国明,张晓冬,刘素辉.基于CapsNet的中文文本分类研究[J].数据分析与知识发现,2018,2(12):68-76. 被引量：13
2李枫林,柯佳.基于深度学习的文本表示方法[J].情报科学,2019,37(1):156-164. 被引量：19
3薛涛,王雅玲,穆楠.基于词义消歧的卷积神经网络文本分类模型[J].计算机应用研究,2018,35(10):2898-2903. 被引量：15
4叶雪梅,毛雪岷,夏锦春,王波.文本分类TF-IDF算法的改进研究[J].计算机工程与应用,2019,55(2):104-109. 被引量：105
5唐焕玲,窦全胜,于立萍,宋英杰,鲁明羽.有监督主题模型的SLDA-TC文本分类新方法[J].电子学报,2019,47(6):1300-1308. 被引量：10
6牛硕硕,柴小丽,李德启,谢彬.一种基于神经网络与LDA的文本分类算法[J].计算机工程,2019,45(10):208-214. 被引量：10
7刘成锴,王斌君,吴勇.基于遗传算法的文本特征选择[J].科学技术与工程,2019,19(33):302-307. 被引量：14
8宋岩,刘汉永,宁向南,孟宪哲.基于层次特征提取的文本分类研究[J].计算机应用与软件,2020,37(2):68-72. 被引量：5
9王丽亚,刘昌辉,蔡敦波,赵彤洲,王梦.基于字符级联合网络特征融合的中文文本情感分析[J].微电子学与计算机,2020,37(1):80-86. 被引量：10
10孟鑫淼.基于大数据挖掘技术的文本分类研究[J].现代电子技术,2020,43(17):126-129. 被引量：5

引证文献1

1陈可嘉,刘惠.文本分类中基于单词表示的全局向量模型和隐含狄利克雷分布的文本表示改进方法[J].科学技术与工程,2021,21(29):12631-12637. 被引量：3

二级引证文献3

1郑承宇,王新,王婷,尹甜甜,邓亚萍.基于Stacking-Bert集成学习的中文短文本分类算法[J].科学技术与工程,2022,22(10):4033-4038. 被引量：6
2朱明,陈一飞.面向物业投诉的字符级短文本分类模型[J].大众科技,2022,24(4):31-35. 被引量：1
3张杨帆,丁锰.改进的基于Transformer的双向编码器的对话文本识别[J].科学技术与工程,2022,22(29):12945-12953. 被引量：3

1邓亚文,罗可.一种基于用户和物品相似度的融合协同过滤推荐算法[J].电脑与信息技术,2019,27(1):6-10.
2孙佳伟,李正华,陈文亮,张民.基于词模式嵌入的词语上下位关系分类[J].北京大学学报（自然科学版）,2019,55(1):1-7. 被引量：10
3龙立梅,宋沙沙,曹学丽.基于香气成分气相色谱-质谱指纹图谱的判别分析和相似度评价用于绿茶等级差异研究[J].色谱,2019,37(3):325-330. 被引量：24
4万昕.红外可见光图像配准综述[J].绿色科技,2019,21(2):152-155. 被引量：1
5吴海滨,张冬梅.基于上下文信息的恶意URL检测技术[J].软件,2019,40(1):63-68. 被引量：5
6李慧林,柴玉梅,孙穆祯.面向文本命名实体识别的深层网络模型[J].小型微型计算机系统,2019,40(1):50-57. 被引量：10
7魏晨,龚龑,鲁啸,马燃.基于语义Web的多功能情报信息自适应检索技术[J].科学技术与工程,2019,19(5):211-216. 被引量：8
8贾玉娜,高雅,白洋.基于GF-1影像的矿区地物提取与分析[J].山西建筑,2019,45(5):202-203. 被引量：2
9李锋,张磊,魏全申.基于语义的智能终端产品服务系统定制[J].制造业自动化,2019,41(2):52-57. 被引量：3
10陈万忠,王晓旭,张涛.基于可调Q因子小波变换的识别左右手运动想象脑电模式研究[J].电子与信息学报,2019,41(3):530-536. 被引量：6

计算机工程与科学

2019年第2期

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...

;

使用帮助返回顶部