-
题名基于文本语义离散度的自动作文评分关键技术研究
被引量:14
- 1
-
-
作者
王耀华
李舟军
何跃鹰
巢文涵
周建设
-
机构
北京航空航天大学计算机学院
国家计算机网络应急技术处理协调中心
首都师范大学成像技术高精尖创新中心
-
出处
《中文信息学报》
CSCD
北大核心
2016年第6期173-181,共9页
-
基金
国家自然科学基金(61170189
61370126
+4 种基金
61202239
U1636211)
国家863计划(2015AA016004
2014AA015105)
北京成像技术高精尖创新中心项目(BAICIT-2016001)
-
文摘
该文尝试从文本语义离散度的角度去提升自动作文评分的效果,提出了两种文本语义离散度的表示方法,并给出了数学化的计算公式。基于现有的LDA模型、段落向量、词向量等具体方法,提取出四种表征文本语义离散度的实例,应用于自动作文评分。该文从统计学角度将文本语义离散度向量化,从去中心化的角度将文本语义离散度矩阵化,并使用多元线性回归、卷积神经网络和循环神经网络三种方法进行对比实验。实验结果表明,在50篇作文的验证集上,在加入文本语义离散度特征后,预测分数与真实分数之间均方根误差最大降低10.99%,皮尔逊相关系数最高提升2.7倍。该表示方法通用性强,没有语种限制,可以扩展到任何语言。
-
关键词
作文评分
语义离散度
神经网络
-
Keywords
Automatic Essay Scoring
semantic dispersion
neural network
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于百度百科与文本分类的网络文本语义主题抽取方法
被引量:9
- 2
-
-
作者
陈叶旺
王华珍
李海波
钟必能
陈锻生
-
机构
华侨大学计算机科学学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2012年第12期2605-2610,共6页
-
基金
福建省自然科学基金项目(2012J05117
2012J1272)资助
+2 种基金
中央高校基本科研业务费(JB-ZR1217)资助
华侨大学科研启动基金项目(09BS515
11BS109)资助
-
文摘
网络上存在海量中文文本资源,其中许多具有稀疏性与不规范性,难于处理与挖掘.百度百科是一个丰富的与社会热点、网络流行紧密相关的动态中文知识库,基于百度百科本文提出一种网络文本语义主题抽取方法.首先利用百度百科的知识关系将文本映射到侯选语义主题空间中,根据训练数据进行分类,找出最大可能的分类,选出属于该分类的候选语义主题.最后提出根据语义离散度确定最终语义主题.在两个数据集上的实验结果表明,该方法不仅对网络不规范文本而且对于规则文本都具有较好的语义主题抽取性能.
-
关键词
百度百科
语义主题
主题抽取
语义离散度
-
Keywords
BaiduBaike
semantic topic
topic extraction
semantic discrete degree
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于张量神经网络的音频多语义分类方法
被引量:1
- 3
-
-
作者
邢玲
贺梅
马强
朱敏
-
机构
西南科技大学信息工程学院
-
出处
《计算机应用》
CSCD
北大核心
2012年第10期2895-2898,共4页
-
基金
国家自然科学基金资助项目(60902021
60932005
61171109)
-
文摘
音频特征向量已广泛应用于音频分类的研究,该表示形式虽能有效体现音频的固有特性,但无法表示音频信息多语义特性及各语义间的相关性。提出了基于张量统一内容定位(TUCL)的音频语义表征方式,将音频语义描述表示为三阶张量,并构建多语义张量空间。在此空间中,张量语义离散度(TSD)能有效聚集具有相同语义的音频资源,通过计算各音频资源的TSD来完成对音频资源的分类,并构建了RBF张量神经网络(RBFTNN)来自适应学习分类模型。实验结果表明,在多语义分类的情况下,TSD算法的分类性能明显优于当前典型的高斯混合模型(GMM)算法;通过与支持向量机(SVM)学习模型相比可知,基于TSD的RBFTNN模型分类学习的准确率明显优于基于TSD的SVM模型。
-
关键词
语义离散度
多语义分类
语义表征
张量语义空间
神经网络
-
Keywords
semantic dispersion
multi-semantic classification
semantic description
Tensor Semantic Space (TSS)
neural network
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
TP391
[自动化与计算机技术—计算机应用技术]
-