-
题名熵权约束稀疏表示的短文本分类算法
被引量:2
- 1
-
-
作者
脱婷
马慧芳
李志欣
赵卫中
-
机构
西北师范大学计算机科学与工程学院
桂林电子科技大学广西可信软件重点实验室
广西师范大学广西多源信息挖掘与安全重点实验室
华中师范大学计算机学院
-
出处
《电子学报》
EI
CAS
CSCD
北大核心
2020年第11期2131-2137,共7页
-
基金
国家自然科学基金(No.61762078,No.61363058,No.61663004,No.61966004,No.61762079)
广西可信软件重点实验室研究课(No.kx202003)
+1 种基金
广西多源信息挖掘与安全重点实验室开放基金(No.MIMS18-08)
西北师范大学2019年度青年教师科研能力提升计划(No.NWNU-LKQN2019-2)。
-
文摘
针对短文本特征稀疏性问题,提出一种熵权约束稀疏表示的短文本分类方法.考虑到初始字典维数较高,首先,利用Word2vec工具将字典中的词表示成词向量形式,然后根据加权向量平均值对原始字典进行降维.其次,利用一种快速特征子集选择算法去除字典中不相关和冗余短文本,得到过滤后的字典.再次,基于稀疏表示理论在过滤后的字典上,为目标函数设计一种熵权约束的稀疏表示方法,引入拉格朗日乘数法求得目标函数的最优值,从而得到每个类的子空间.最后,在学习到的子空间下通过计算待分类短文本与每个类中短文本的距离,并根据三种分类规则对短文本进行分类.在真实数据集上的大量实验结果表明,本文提出的方法能够有效缓解短文本特征稀疏问题且优于现有短文本分类方法.
-
关键词
短文本分类
词向量
熵
稀疏表示
-
Keywords
short text classification
word embedding
entropy
sparse representation
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
-
-
题名基于语义特征空间上下文的短文本表示学习
被引量:1
- 2
-
-
作者
脱婷
马慧芳
魏家辉
刘海姣
-
机构
西北师范大学计算机科学与工程学院
桂林电子科技大学广西可信软件重点实验室
-
出处
《计算机工程与科学》
CSCD
北大核心
2019年第2期378-384,共7页
-
基金
国家自然科学基金(61762078
61363058)
+1 种基金
广西可信软件重点实验室研究课题(kx201705)
西北师范大学"学生创新能力计划"2018年支持项目(CX2018Y048)
-
文摘
文本表示是自然语言处理中的基础任务,针对传统短文本表示高维稀疏问题,提出1种基于语义特征空间上下文的短文本表示学习方法。考虑到初始特征空间维度过高,通过计算词项间互信息与共现关系,得到初始相似度并对词项进行聚类,利用聚类中心表示降维后的语义特征空间。然后,在聚类后形成的簇上结合词项的上下文信息,设计3种相似度计算方法分别计算待表示文本中词项与特征空间中特征词的相似度,以形成文本映射矩阵对短文本进行表示学习。实验结果表明,所提出的方法能很好地反映短文本的语义信息,能对短文本进行合理而有效的表示学习。
-
关键词
语义特征空间
相似度计算
文本映射矩阵
短文本表示
-
Keywords
semantic feature space
similarity calculation
text mapping matrix
short text representation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名融合共现距离和区分度的短文本相似度计算方法
被引量:9
- 3
-
-
作者
刘文
马慧芳
脱婷
陈海波
-
机构
西北师范大学计算机科学与工程学院
桂林电子科技大学广西可信软件重点实验室
-
出处
《计算机工程与科学》
CSCD
北大核心
2018年第7期1281-1286,共6页
-
基金
国家自然科学基金(61762078
61363058)
+1 种基金
广西可信软件重点实验室研究课题(KX201705)
西北师范大学学生创新能力计划(CX2018Y054)
-
文摘
针对短文本内容简短、特征稀疏等特点,提出一种融合共现距离和区分度的短文本相似度计算方法。一方面,该方法在整个短文本语料库中利用两个共现词之间距离计算它们的共现距离相关度。另一方面通过计算共现区分度来提高距离相关度的准确度,然后对每个文本中词项进行相关性加权,最后通过词项的权重和词项之间的共现距离相关度计算两个文本的相似度。实验结果表明,本文提出的方法能够提高短文本相似度计算的准确率。
-
关键词
短文本
共现距离相关度
共现区分度
词项加权
相似度计算
-
Keywords
short text
co occurrence distance correlation
co occurrence discrimination
term weighting
similarity calculation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名微课资源在语文教学中的开发与实践
- 4
-
-
作者
脱婷
-
机构
甘肃省平凉市实验小学
-
出处
《作家天地》
2020年第17期40-41,共2页
-
文摘
科技应用的发展对教育方式改革产生了巨大的影响,微课技术已经逐渐成为我国重要的教学方式之一。与传统课堂相比,微课更具有互动性和灵活性,使得枯燥的课堂变得生动有趣,使小学生对作文写作产生兴趣。加强微课教学的应用,有利于推动小学语文教学的发展进步。
-
关键词
微课资源
小学语文
开发应用
-
分类号
G434
[文化科学—教育技术学]
G623.2
[文化科学—教育学]
-