-
题名基于分布式词语表示的中文阅读理解
被引量:1
- 1
-
-
作者
张帅
王瑞波
李济洪
-
机构
山西大学数学科学学院
山西大学计算机中心
-
出处
《太原师范学院学报(自然科学版)》
2014年第1期32-35,40,共5页
-
文摘
基于山西大学自主开发的中文阅读理解语料库CRCC,根据问句和候选答案句的对应关系,在已有的最大熵模型的10个特征的基础上加入词的分布式实值向量表示的特征,其中分布式词特征分别是问题句和答案句的词对应的分布式实值的向量的最大值的欧式距离、夹角余弦等特征,主要是用来刻画问题句和答案句的相似程度.实验结果表明,把词的分布式实值表示的向量作为最大熵模型的特征对于测试集上的HumSent准确率的提升是有效的.
-
关键词
阅读理解
分布式词表示
分布式词特征
-
Keywords
reading comprehension
distributed-word representations
characteristics of the distributed word
-
分类号
TP392
[自动化与计算机技术—计算机应用技术]
-
-
题名利用词的分布式表示改进作文跑题检测
被引量:6
- 2
-
-
作者
陈志鹏
陈文亮
朱慕华
-
机构
苏州大学计算机科学与技术学院
软件新技术与产业化协同创新中心
淘宝(中国)软件有限公司
-
出处
《中文信息学报》
CSCD
北大核心
2015年第5期178-184,203,共8页
-
基金
国家自然科学基金(61203314
61333018)
-
文摘
作文跑题检测任务的核心问题是文本相似度计算。传统的文本相似度计算方法一般基于向量空间模型,即把文本表示成高维向量,再计算文本之间的相似度。这种方法只考虑文本中出现的词项(词袋模型),而没有利用词项的语义信息。该文提出一种新的文本相似度计算方法:基于词扩展的文本相似度计算方法,将词袋模型(Bag-of-Words)方法与词的分布式表示相结合,在词的分布式表示向量空间中寻找与文本出现的词项语义上相似的词加入到文本表示中,实现文本中单词的扩展。然后对扩展后的文本计算相似度。该文将这种方法运用到英文作文的跑题检测中,构建一套跑题检测系统,并在一个真实数据中进行测试。实验结果表明该文的跑题检测系统能有效识别跑题作文,性能明显高于基准系统。
-
关键词
文本相似度
词分布式表示
跑题检测
文本表示
-
Keywords
text similarity
word distributed representation
digress test
text representation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名不规则文本中商品名称识别的特征选择
被引量:3
- 3
-
-
作者
杨美妮
何涛
沈静
张建军
-
机构
海军工程大学理学院
中国科学院武汉文献情报中心
-
出处
《计算机工程与科学》
CSCD
北大核心
2016年第10期2153-2157,共5页
-
基金
国家自然科学基金(61402516)
-
文摘
传统的命名实体识别任务多见于人名、地名、机构名这些普通的命名实体,且大多采用规则文本进行研究。随着电子商务和互联网广告的不断发展,如何从用户的各种不规则的上下文信息中自动识别出商品名称这一特殊的命名实体成为了一个需要解决的问题。为了解决这一问题,建立了一个最大熵模型用于识别论坛发帖这种不规则文本中的商品名称,并探讨了多种特征对于识别效果的影响。这些特征不仅包括传统命名实体识别方法中所使用的局部特征和布朗聚类特征,还包括词的分布式表示这种比较新颖的特征。这些特征按照各种不同的方式进行组合作为模型的输入。在CPROD01评测数据集上的实验结果表明,布朗聚类特征能够有效地提高商品名称识别系统的准确性。
-
关键词
商品名称
不规则文本
最大熵模型
词的分布式表示
-
Keywords
product name
informal text
maximum entropy model
distributed representation of words
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-